传统表格数据处理多依赖Random Forest、XGBoost和CatBoost等基于决策树的模型。近期,TabPFN提出了一种新方法,通过在数百万合成表格任务上进行预训练,利用上下文学习直接进行预测,无需针对特定数据集进行迭代训练。
在一项包含5000个样本的合成数据集测试中,TabPFN实现了98.8%的准确率,高于Random Forest的95.5%和CatBoost的96.7%。同时,TabPFN的拟合时间仅为0.47秒,远低于前两者的9.56秒和8.15秒。
然而,TabPFN的推理延迟较高,达到2.21秒,而CatBoost仅为0.0119秒。为解决此问题,TabPFN引入了蒸馏方法,可将预测结果转换为更小的神经网络或树集成模型,在保留大部分准确率的同时大幅提升推理速度,使其更适用于生产环境。