使用机器学习自动执行数据清理

数据清理过程中的某些阶段,机器学习不仅可以使工作流自动化,而且可以影响决策并获得更好的结果。

根据 Gartner的 报告,由于不良的数据质量问题,有40%的企业无法实现其业务目标。 利用高的重要性-质量数据进行数据分析,通过许多数据科学家们认识和S Ø据报道,他们小号挂起 关于 清理和准备的时间80%的数据。 这意味着他们将更多的时间花在 分析前的过程上,而不是 专注于 提取有意义的见解。

尽管有必要在进入数据分析过程之前获得黄金记录,但必须有一种更好的方法来 解决 数据 集中存在的数据 质量问题,而 不是手动纠正每个 错误。 

使用基于代码的方法 

像Python和R这样的编程语言使编写基本数据清理工作流变得相当容易, 例如: 

  • d ropping而这对于分析过程中有用的列, 
  • C挂数据类型, 
  • 高度重视丢失的数据, 
  • ř emoving从列值断裂线和空格, 
  • 按数字而不是按类别排列数据,
  • ç oncatenating列进一个, 
  • C将字符串悬挂为日期时间格式s,依此类推。 

使用编码脚本清除数据非常有效, 但是 您必须具备 大量的编程专业知识。此外,编码脚本倾向于专门用于特定数据集及其列值。 这意味着,当数据值包含相似的基础模式时,编码函数始终可以更好地工作。否则,您将最终将特定场景s硬编码到代码中,以达到数据整洁的目的,而不是 实现可满足多个场景的更通用的方法。    

机器学习及其在数据清理中的作用

要清除数据,首先,您必须能够分析和识别不良数据。然后执行纠正措施以获取干净且标准化的数据集。 还有在数据清洗过程的各个阶段 ,其中机器学习人工智能 不仅可以自动化工作流程而 实现 更精确的结果。 让我们看看它们。

分析数据并检测错误

机器学习数据清理中起重要作用的第一步是对数据进行概要分析并突出显示异常值。生成直方图并针对经过训练的ML模型运行列值将突出显示哪些值是异常值, 并且与该列的其他值不匹配。您可以在标准字典上训练模型,也可以提供专门用于数据的自定义数据集。

提出智能建议以清理和标准化数据

除了在列值中进行错误检测外,ML解决方案 还 可以提出明智的建议 并突出显示解决数据质量问题的可能措施 。这些建议基于 同一 数据集中 遇到的数据的性质。例如,如果 两个记录的地址完全相同,但邮政编码不同,则ML算法可以将其标记为需要修复的可能错误。这是通过在数据集上设置相关约束来实现的 ,如果 地址 值相同,则 邮政编码也 必须相同。 

通过聚类突出显示可能的重复项

记录重复数据删除是 数据清理工作流程中最重要的步骤 之一。ML解决方案可以通过 基于记录的相似性对记录进行 聚类来帮助您执行记录链接 。这是通过在非重复数据集上训练ML模型来实现的, 该 数据集 包含匹配项和不匹配项的标签。 一旦训练完成,ML模型便会智能地标记新数据集并创建聚类,以突出显示可能引用同一实体的数据记录。

影响合并/清除决策以实现单一真相来源

在集群,  ML算法 得分相似性 ,一个 属于创纪录的小号 到 日在 集群。 这有助于数据科学家做出相应的合并或清除数据记录的决定。您还可以调整ML算法中使用的变量,以 在产生的假阳性和阴性数量之间设置可接受的阈值。

基于ML的数据清理

上面的工作流程显示了基于ML的数据清理软件如何  不仅自动执行 清理活动,而且 还通过建议 智能建议简化了决策过程 。 这种利用 AI强大功能的高级流程 对于减少数据科学家在数据清理和准备上花费的时间至关重要 。

原创文章,作者:冰封一夏,如若转载,请注明出处:http://www.nncjzx.com/470.html

关注本站公众号获取更多实时内容

本站微信公众号:二线码农