OmniTools 5月30日消息,Tiny vLLM 是一个使用 C 和 CUDA 编写的高性能大语言模型推理引擎,项目代码现已开源至 GitHub。该引擎主打轻量与低依赖设计,旨在为本地及边缘计算场景提供高效的 LLM 推理支持。