返回行业动态

Tiny-vLLM 开源:基于 C 与 CUDA 的高性能大语言模型推理引擎

2026/05/30 03:58
查看原文

OmniTools 5月30日消息,Tiny-vLLM 是一个使用 C 和 CUDA 编写的高性能大语言模型推理引擎,项目代码现已开源至 GitHub。该引擎主打轻量与低依赖设计,旨在为本地及边缘计算场景提供高效的 LLM 推理支持。