TabPFN利用上下文学习在表格数据准确率上超越传统树模型

传统表格数据处理多依赖Random Forest、XGBoost和CatBoost等基于决策树的模型。近期，TabPFN提出了一种新方法，通过在数百万合成表格任务上进行预训练，利用上下文学习直接进行预测，无需针对特定数据集进行迭代训练。

在一项包含5000个样本的合成数据集测试中，TabPFN实现了98.8%的准确率，高于Random Forest的95.5%和CatBoost的96.7%。同时，TabPFN的拟合时间仅为0.47秒，远低于前两者的9.56秒和8.15秒。

然而，TabPFN的推理延迟较高，达到2.21秒，而CatBoost仅为0.0119秒。为解决此问题，TabPFN引入了蒸馏方法，可将预测结果转换为更小的神经网络或树集成模型，在保留大部分准确率的同时大幅提升推理速度，使其更适用于生产环境。