欢迎了解 Lightllm!#

一个轻量级、高性能的大语言模型服务框架

Lightllm 是一个纯python开发的大语言模型推理和服务框架，具有轻量级设计、易扩展以及高性能等特点。 Lightllm 整合了众多的开源方案的优点，包括但不限于 FasterTransformer、TGI、vLLM、SGLang 和 FlashAttention。

重要特性:

多进程协同：输入文本编码、语言模型推理、视觉模型推理、输出解码等工作异步进行，大幅提高GPU利用率。
跨进程请求对象共享：通过共享内存，实现跨进程请求对象共享，降低进程间通信延迟。
高效的调度策略：带预测的峰值显存调度策略，最大化GPU显存利用率的同时，降低请求逐出。
高性能的推理后端：高效的算子实现，多种并行方式支持（张量并行，数据并行以及专家并行），动态kv缓存，丰富的量化支持（int8, fp8, int4），结构化输出以及多结果预测。

文档列表#

快速入门

部署教程

模型支持

架构介绍