个性化阅读
专注于IT技术分析

机器学习:数据清理介绍和详细指南

介绍:

数据清理是机器学习的重要部分之一。它在建立模型中起着重要作用。数据清理是每个人都要做的事情之一, 但没人真正谈论。它肯定不是机器学习中最奇妙的部分, 同时, 也没有任何隐藏的技巧或秘密可以发现。但是, 正确的数据清理可能会破坏你的项目。专业数据科学家通常在此步骤上花费很大一部分时间。因为相信”更好的数据胜过更出色的算法”.

如果我们有一个干净的数据集, 即使使用非常简单的算法, 我们也可以获得预期的结果, 这有时会证明是非常有益的。

显然, 不同类型的数据将需要不同类型的清除。但是, 这种系统的方法始终可以作为一个很好的起点。

数据清理涉及的步骤

数据清理

删除不必要的观察

这包括从数据集中删除重复/冗余或无关的值。重复的观察最经常出现在数据收集过程中, 而无关的观察则是那些实际上不适合你要解决的特定问题的观察。

  • 随着数据的重复, 冗余的观察会在很大程度上改变效率, 并且可能会向正确的一面或向错误的一面添加, 从而产生不真实的结果。
  • 不相关的观察结果是对我们无用且可以直接删除的任何类型的数据。

解决结构错误

在测量, 数据传输或其他类似情况下出现的错误称为结构错误。结构性错误包括要素名称中的错别字, 名称不同的相同属性, 类别标签不正确, 即实际上应该相同或大小写不一致的单独类别。

  • 例如, 该模型会将America和America视为不同的类别或值, 尽管它们将相同的值或红色, 黄色和红黄色表示为不同的类别或属性, 尽管一个类别可以包含在其他两个类别中。因此, 这些是一些结构错误, 这些错误使我们的模型效率低下, 并且结果质量较差。

管理不需要的异常值

离群值可能会导致某些类型的模型出现问题。例如, 线性回归模型对异常值的鲁棒性不如决策树模型。通常, 除非有合理的理由将异常值删除, 否则我们不应该删除它们。有时, 删除它们可以提高性能, 有时则不能。因此, 必须有充分的理由消除异常值, 例如不太可能成为真实数据一部分的可疑测量。

处理丢失的数据

数据丢失是机器学习中一个看似棘手的问题。我们不能只是忽略或删除缺失的观察。必须小心处理它们, 因为它们可能表示某些重要信息。处理丢失数据的两种最常见方法是:

删除缺少值的观察值。

删除缺失值不是最佳选择, 因为删除观测值时会删除信息。

  • 价值缺失的事实本身可能是有益的。
  • 另外, 在现实世界中, 即使缺少某些功能, 你也经常需要对新数据进行预测!

根据过去的观察结果估算缺失值。

插值缺失值不是最佳选择, 因为该值最初是缺失的, 但你已将其填写, 无论插补方法多么复杂, 总是会导致信息丢失。

  • 同样, “遗漏”本身几乎总是可以提供信息的, 你应该告诉算法是否缺少值。
  • 即使你构建了一个模型来估算自己的价值, 也没有添加任何实际信息。你只是在增强其他功能已经提供的模式。

这两种方法都是次优的, 因为丢弃观察值意味着丢弃信息, 从而减少数据和估算值也是次优的, 因为我们会筛选实际数据集中不存在的值, 这会导致信息丢失。

丢失数据就像丢失了一块拼图。如果将其放下, 就好像在假装不存在拼图槽。如果你进行估算, 那就像是试图从难题中的其他地方挤进一块。

因此, 丢失的数据始终是有益的, 并且表明某些重要信息。而且, 我们必须通过标记来了解丢失数据的算法。通过使用标记和填充的这种技术, 从本质上讲, 你可以使算法估算缺失的最佳常数, 而不仅仅是用均值填充。

一些数据清理工具

  • Openrefine:http://openrefine.org/
  • Trifacta Wrangler:https://www.trifacta.com/products/wrangler/
  • TIBCO Clarity https://clarity.cloud.tibco.com/landing/feature-summary.html
  • Cloudingo https://cloudingo.com/
  • IBM Infosphere质量阶段

总结

因此, 我们讨论了数据清理中的四个不同步骤, 以使数据更可靠并产生良好的结果。正确完成数据清理步骤后, 我们将获得一个可靠的数据集, 避免了许多最常见的陷阱。不应急于执行此步骤, 因为它在进一步的过程中被证明是非常有益的。


赞(0) 打赏
未经允许不得转载:srcmini » 机器学习:数据清理介绍和详细指南
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

觉得文章有用就打赏一下文章作者

微信扫一扫打赏