Tiny-vLLM 开源：基于 C 与 CUDA 的高性能大语言模型推理引擎

2026/05/30 03:58

OmniTools 5月30日消息，Tiny-vLLM 是一个使用 C 和 CUDA 编写的高性能大语言模型推理引擎，项目代码现已开源至 GitHub。该引擎主打轻量与低依赖设计，旨在为本地及边缘计算场景提供高效的 LLM 推理支持。