返回行业动态

cuTile Rust:基于 Rust 的安全 GPU 内核编程系统发布

2026/06/18 03:21
查看原文

OmniTools 6月18日消息,cuTile Rust 是一个基于 tile 的 GPU 编程系统,支持使用 Rust 编写内存安全、无数据竞争的 GPU 内核。该系统通过 #【cutile::module】 宏将内核抽象语法树(AST)嵌入主机二进制,在运行时经 CUDA Tile IR JIT 编译为 GPU cubin。

其设计采用张量分治策略:可变张量在内核启动前分割,不可变张量则共享;启动器在 GPU 执行期间持续持有所有权。实测显示,在 NVIDIA B200 上,逐元素操作带宽达 7 TB/s(约 91% 峰值),GEMM 性能达 2 PFlop/s(约 92% 密集 f16 峰值)。

基于 cuTile Rust 构建的 Grout 推理引擎,在 RTX 5090 上解码 Qwen3-4B 模型可达 171 tokens/s,在 B200 上解码 Qwen3-32B 达 82 tokens/s。项目目前处于早期研究阶段。