返回行业动态

Flash-KMeans开源:IO感知精确K-Means算法,GPU上比FAISS快200倍以上

2026/06/15 09:50
查看原文

OmniTools 6月15日消息,加州大学伯克利分校与德克萨斯大学奥斯汀分校联合开源Flash-KMeans(Apache 2.0协议),支持pip install flash-kmeans安装。该工具精确实现标准Lloyd's k-Means算法,不依赖数学近似,而是通过重构GPU数据流提升性能。

在NVIDIA H200硬件上,其端到端运行速度比最优基线快17.9倍,比cuML快33倍,比FAISS快200倍以上。核心优化包括FlashAssign核(避免物化N×K距离矩阵,IO复杂度由O(NK)降至O(Nd+Kd),单核最高加速21.2倍)和Sort-Inverse Update核(通过排序聚类ID降低原子争用,单核最高加速6.3倍)。

Flash-KMeans支持out-of-core处理,在10亿数据点、K=32768规模下,单次迭代仅需41.4秒,适用于向量搜索索引、稀疏注意力路由及KV缓存压缩等在线场景。