表格基础模型如TabPFN和TabICL不需要进行训练就能执行回归或分类。它们所做的是所谓的上下文学习。过去作为训练数据的东西现在变成了预测时的上下文数据。
本文探讨了上下文数据的概念,并将其与"经典"训练数据进行对比。从训练数据转向上下文数据是否改变了我们的建模方式?它是否实现了某些新功能?
让我们深入探讨。
1、训练 vs 上下文对于传统机器学习(线性回归、XGBoost、SVM),训练数据塑造模型。特别是对于树模型,这一点非常直观:改变训练数据,你可能会得到一棵不同形状的树。拟合一个线性回归模型,权重(系数)就成为训练数据的函数。
表格基础模型则不同。预训练完成。没有经典的训练步骤。预测通过上下文学习进行。使用TFM预测时,你需要同时提供"训练"数据(即上下文)和测试数据。通过多个步骤,表格单...