欢迎了解 Lightllm!#
一个轻量级、高性能的大语言模型服务框架
Lightllm 是一个纯python开发的大语言模型推理和服务框架,具有轻量级设计、易扩展以及高性能等特点。 Lightllm 整合了众多的开源方案的优点,包括但不限于 FasterTransformer、TGI、vLLM、SGLang 和 FlashAttention。
重要特性:
多进程协同:输入文本编码、语言模型推理、视觉模型推理、输出解码等工作异步进行,大幅提高GPU利用率。
跨进程请求对象共享:通过共享内存,实现跨进程请求对象共享,降低进程间通信延迟。
高效的调度策略:带预测的峰值显存调度策略,最大化GPU显存利用率的同时,降低请求逐出。
高性能的推理后端:高效的算子实现,多种并行方式支持(张量并行,数据并行以及专家并行),动态kv缓存,丰富的量化支持(int8, fp8, int4),结构化输出以及多结果预测。