什么是模型陷阱？——过度拟合与模型幻觉

发布人

相关PPT：https://github.com/GenTang/regression2chatgpt/tree/zh/prerequisite/linear

在人工智能实践中，构建模型通常有两个主要目标：一是使用模型对未知数据进行预测；二是利用模型分析数据，揭示数据中的内在规律，为决策提供支持。针对这两种目标的实践通常会面临以下两类问题。
（1）模型预测不稳定：数据科学家在模型搭建过程中会设定多种技术指标来评估模型的预测准确度。这些指标在历史数据上的效果较好，使我们对模型的表现充满信心。然而，当真正用模型来预测未知数据时，我们却发现模型的表现远不如预期，有时甚至比随机猜测还差，这表示模型的预测效果并不稳定。
（2）参数估计值不可靠：在人工智能领域，模型除用于预测外，对数据的解读与理解同样至关重要。在大数据时代随着数据驱动理念的普及，公司决策逐渐倚重数据分析的结果，而非仅依赖领导的个人经验。然而，模型参数的估计值具有一定的随机性，偏差较大的参数可能导致我们错误地预测估计值和自变量之间的关联效应，严重影响数据分析结果的准确性。
在模型构建过程中，为了提高预测的准确性，数据科学家通常会从已知特征中提取更多的新特征，以建立更复杂的模型。特别是随着深度学习概念的流行，即使面对的是相对简单的情境，人们也似乎越来越倾向于使用复杂模型。然而，模型越复杂，越容易陷入“自我误导、加强偏见”的陷阱，从而导致过拟合的问题。一旦出现过拟合，模型越复杂，其错误也会更显著。在这种情况下，当训练模型时，各项评估指标看似良好，但在实际应用中的表现却难以令人满意。
在大数据时代，我们获得了比以往更多的变量，这为搭建模型提供了更多的选择。在建模实践中，数据科学家会找寻新的自变量，并将它们纳入模型。然而，由于模型训练实质上是数学运算，即使毫不相关的变量被引入模型，也会得出相应的参数估计值，而这个估计值几乎不可能为0。这导致了所谓的“模型幻觉”：看似获得了很多变量间的关联效应，但实际上这些效应并不存在，只是由随机变量引起的数字巧合。模型幻觉会导致分析结果不可靠，特别是对模型参数的分析不可靠。它不仅会误将不存在的效应估计为存在，更糟糕的是，新引入的变量有可能将原本相对正确的估计值扭曲为错误的，例如将模型中原有变量的正效应估计为负效应（相应参数估计值由正变为负）。
过拟合和模型幻觉并非孤立的问题，相反，它们经常相互交织、相互强化，对模型的准确性和可靠性产生影响。针对这些问题，已经有一些成熟的解决方案。本视频将详细讨论这些解决方案。

打开封面下载高清视频观看高清视频视频下载器