AI系统中(机器学习算法)导致偏差的原因总结
基于算法的业务或者说AI的应用在这几年发展得很快。但是,在实际应用的场景中,我们经常会遇到一些非常奇怪的偏差现象。例如,Facebook将黑人标记为灵长类动物、城市图像识别系统将公交车上的董明珠形象广告识别为闯红灯的人等。算法系统出现偏差的原因有很多。本篇博客将总结在数据获取相关方面可能导致模型出现偏差的原因。

一个典型的AI系统(本文不区分算法和AI,虽然实际中二者的确不一样)的工作过程包括:
- 收集数据
- 标记数据
- 数据预处理
- 模型训练和测试
- 模型上线
因此,这些步骤中都可能会出现一些问题导致最终的应用出现偏差。本文将主要聚焦前三种情况。
数据创造的偏差是最常见的问题,这里也包括几种情况:数据收集阶段产生的偏差、数据标记过程产生的偏差和数据预处理过程中产生的偏差。
一、数据收集产生的偏差
一般来说,这是由于数据收集过程中由于一些错误的认知或者忽视,导致一开始就是从一个“特别的”地方收集了数据。最后导致了问题的产生。前几年,AICon北京站中,小米的工程师分享了一个案例就是这个原因。大意是小米相机想推出一个“魔法换天”的功能。于是从数据收集开始准备训练模型。但是数据收集的过程中忽略了大多数用户并不是专业的摄影师,拍照的角度五花八门,也不规则。但是收集的数据确是比较准确的摄影师的作品。这最终导致模型只认识质量很高的照片,最终实际应用效果非常差。这就是典型的数据收集导致的偏差问题。在实际应用中,我们需要尽可能针对应用场景收集符合实际业务的数据,避免产生意想不到的结果。



