更新时间:2023-07-25 来源:黑马程序员 浏览量:
在实际业务中,从各渠道获取的初始数据大多是“脏”数据。“脏”数据是指源系统中不属于给定范围、对实际业务无意义、格式非法、编码不规范、业务逻辑模糊的数据。这种数据是低质量的数据,存在着一系列的问题。下面为大家介绍一些常见的数据问题。
1.数据缺失
数据缺失是指属性值为空的一类问题。这类问题主要是由采集、传输与存储设备故障,数据延迟获取或人为因素造成的。例如,用户在参与问卷调研时,未婚用户未填写配偶姓名一栏的信息,学生用户未填写月收入一栏的信息,介意填写个人隐私信息的用户未上传照片信息等。
2.数据重复
数据重复是指同一条数据多次出现的一类问题。这类问题主要是由人为重复录人或传输设备故障造成的。例如,某平台系统中录入了两个ID相同的用户。
3.数据异常
数据异常是指个别数据远离数据集的一类问题。这类问题主要是由随机因素或不同机制造成的,需要先经过判定再进行相应的处理。
4.数据冗余
数据冗余是指数据中存在一些多余的、无意义的属性。这些属性可以根据另一组属性推导出来,或者蕴含在另一组属性中,又或者超出业务需求。例如,一组数据中同时包含月收入和年收入,而年收入可以直接根据月收入推导出来。
5.数据值冲突
数据值冲突是指同一属性存在不同值的一类问题。此类问题常见于多源数据合并的场景。例如,身高属性在一个数据源中对应一组以cm为单位的数值,而在另一数据源中对应一组以m为单位的数值。
6.数据噪声
数据噪声是指属性值不符合常理的一类问题。这类问题主要是由硬件故障、编程错误、语音或光学字符识别程序识别错误等造成的。例如,一份顾客数据中记录的用户年龄为负数。
上述问题是数据分析或数据挖掘时比较常见的一些数据问题,这些数据问题会对数据分析或数据挖掘结果产生一定的影响,这些数据只有被处理成“干净”的数据之后,才可以应用到数据分析或数据挖掘中。
除处理“脏”数据之外,初始数据的形式或内容也需要做一些调整,以保证数据更加符合数据分析或数据挖掘的需求,为数据分析或数据挖掘做好准备工作。