数据驱动（Data-Driven）和以数据为中心（Data-Centric）的区别

本文主要是介绍数据驱动（Data-Driven）和以数据为中心（Data-Centric）的区别，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

一、什么是数据驱动？

数据驱动（Data-Driven）是在管理科学领域经常提到的名词。数据驱动决策（Data-Driven Decision Making，简称DDD）是一种方法论，即在决策过程中主要依赖于数据分析和解释，而不是依赖于直觉或个人经验。它是相对于传统的经验驱动、直觉驱动或者偏见驱动的决策来讲的。

Case1：数据驱动的案例

Netflix公司通过收集和分析用户的观看习惯，评分，搜索和其他行为数据，开发出高度个性化的推荐算法，以提高用户体验并增加用户观看时间。这种数据驱动的方法也被应用于决定哪些电影和电视节目应该被购买或制作。例如，它的原创剧集"纸牌屋"（House of Cards）就是基于大量用户数据分析的结果决定制作的。

我们拿到数据，经过数据预处理，然后用来训练模型，利用模型进行决策，这就是数据驱动的决策。可以说，目前的机器学习方法和深度学习方法大都是这个形式。但是早期的机器学习方法就是经验驱动的偏多了。经验驱动模型的设计和开发基于专家的经验知识，目的是将特定领域的专家知识和推理过程编码到计算机程序中。这些系统利用了人工智能中的知识表示和知识推理技术，特别是规则基础的推理，来模仿人类专家的决策过程。如早期的专家系统：

Case2：经验驱动的下象棋模型

比如我们想创建一个会下象棋的模型，这个模型就需要在博弈中决策每一步的棋子走法。经验驱动的模型是这样设计的，首先把每个棋子的规则写进模型，如“马走日，象飞田”等，然后找几个下象棋的高手，然后把这些高手的下棋套路写进模型，如对方“当头炮”，那模型就要“把马跳”，把高手的每一步应对策略当做规则写进模型里。

同样的案例，数据驱动的决策模型就不依赖专家规则：

Case3：数据驱动的下象棋模型

我收集大量的博弈数据，构建象棋数据集，比如根据几百年来的棋谱和高手博弈的数百万场棋局中的每一步走法创建一个如下的数据集：

X y
兵1 兵2 ... 相炮
（4,5）（4,5）（4,5）（-1,-1）兵1 向右移动1格
（4,6）（4,5）（4,5）（-1,-1）炮 .....

不需要告诉模型“马走日，象飞田”这些基本规则，只需要把数据输入到模型（如逻辑回归，当然这个模型很垃圾）中进行训练，就可以得到一个会下象棋的决策模型。

二、什么是以数据为中心？

在上面的Case3中提到，我们得到数据后，使用逻辑回归来拟合这个分类模型，由于逻辑回归的算法很简单，效果很差，所以大家就会琢磨更多更复杂更厉害的算法来拟合这些数据，比如深度学习算法，慢慢的，随着技术的发展，模型能力越来越好。直到2017年，谷歌提出Attention is All you Need，从此来到了Transformer一统天下的地步，直到现在（2024.05），还没有产生可以挑战Transformer模型架构的新架构出现，尤其是大语言模型诞生后，Transformer架构的能力给予人们巨大的震撼。

由此可见，随着技术的发展，算法的复杂性已经不再是限制模型能力的瓶颈。之前人们卷算法、卷模型的时代，可以称作“Model-Centric”，人们的重点关注对象是模型。而现在，模型已经不是限制人工智能的主要方面，所以有人提出了“Data-Centric”以数据为中心的人工智能，Data-Centric的意思不是说不关注模型，而是说把模型和数据看的一样重要，毕竟AI领域有句俗语“Garbage in garbage out”——垃圾进，垃圾出。意思是垃圾的数据进去，无论模型多NB，出来的还是垃圾的模型，大不了是个过拟合的垃圾模型。

尤其是ChatGPT的训练路径，可以看出在数据集上的大量人力标注和筛选，保证高质量的数据。

数据降噪、数据去偏、数据增强、数据平衡、数据配比、数据课程这些方法都属于Data-Centric的范畴，目前发展还处于初步阶段。