Python数据预处理前，初始数据通常存在哪些问题？

更新时间:2023-07-25 来源:黑马程序员浏览量:

在实际业务中，从各渠道获取的初始数据大多是“脏”数据。“脏”数据是指源系统中不属于给定范围、对实际业务无意义、格式非法、编码不规范、业务逻辑模糊的数据。这种数据是低质量的数据，存在着一系列的问题。下面为大家介绍一些常见的数据问题。

1.数据缺失

数据缺失是指属性值为空的一类问题。这类问题主要是由采集、传输与存储设备故障，数据延迟获取或人为因素造成的。例如，用户在参与问卷调研时，未婚用户未填写配偶姓名一栏的信息，学生用户未填写月收入一栏的信息，介意填写个人隐私信息的用户未上传照片信息等。

2.数据重复

数据重复是指同一条数据多次出现的一类问题。这类问题主要是由人为重复录人或传输设备故障造成的。例如，某平台系统中录入了两个ID相同的用户。

3.数据异常

数据异常是指个别数据远离数据集的一类问题。这类问题主要是由随机因素或不同机制造成的，需要先经过判定再进行相应的处理。

4.数据冗余

数据冗余是指数据中存在一些多余的、无意义的属性。这些属性可以根据另一组属性推导出来，或者蕴含在另一组属性中，又或者超出业务需求。例如，一组数据中同时包含月收入和年收入，而年收入可以直接根据月收入推导出来。

5.数据值冲突

数据值冲突是指同一属性存在不同值的一类问题。此类问题常见于多源数据合并的场景。例如，身高属性在一个数据源中对应一组以cm为单位的数值，而在另一数据源中对应一组以m为单位的数值。

1690269537501_python大数据常见问题.jpg

6.数据噪声

数据噪声是指属性值不符合常理的一类问题。这类问题主要是由硬件故障、编程错误、语音或光学字符识别程序识别错误等造成的。例如，一份顾客数据中记录的用户年龄为负数。

上述问题是数据分析或数据挖掘时比较常见的一些数据问题，这些数据问题会对数据分析或数据挖掘结果产生一定的影响，这些数据只有被处理成“干净”的数据之后，才可以应用到数据分析或数据挖掘中。

除处理“脏”数据之外，初始数据的形式或内容也需要做一些调整，以保证数据更加符合数据分析或数据挖掘的需求，为数据分析或数据挖掘做好准备工作。

最新资讯