机器学习：数据清理介绍和详细指南

介绍：

数据清理是机器学习的重要部分之一。它在建立模型中起着重要作用。数据清理是每个人都要做的事情之一, 但没人真正谈论。它肯定不是机器学习中最奇妙的部分, 同时, 也没有任何隐藏的技巧或秘密可以发现。但是, 正确的数据清理可能会破坏你的项目。专业数据科学家通常在此步骤上花费很大一部分时间。因为相信”更好的数据胜过更出色的算法”.

如果我们有一个干净的数据集, 即使使用非常简单的算法, 我们也可以获得预期的结果, 这有时会证明是非常有益的。

显然, 不同类型的数据将需要不同类型的清除。但是, 这种系统的方法始终可以作为一个很好的起点。

数据清理涉及的步骤

删除不必要的观察

这包括从数据集中删除重复/冗余或无关的值。重复的观察最经常出现在数据收集过程中, 而无关的观察则是那些实际上不适合你要解决的特定问题的观察。

随着数据的重复, 冗余的观察会在很大程度上改变效率, 并且可能会向正确的一面或向错误的一面添加, 从而产生不真实的结果。
不相关的观察结果是对我们无用且可以直接删除的任何类型的数据。

解决结构错误

在测量, 数据传输或其他类似情况下出现的错误称为结构错误。结构性错误包括要素名称中的错别字, 名称不同的相同属性, 类别标签不正确, 即实际上应该相同或大小写不一致的单独类别。

例如, 该模型会将America和America视为不同的类别或值, 尽管它们将相同的值或红色, 黄色和红黄色表示为不同的类别或属性, 尽管一个类别可以包含在其他两个类别中。因此, 这些是一些结构错误, 这些错误使我们的模型效率低下, 并且结果质量较差。

管理不需要的异常值

离群值可能会导致某些类型的模型出现问题。例如, 线性回归模型对异常值的鲁棒性不如决策树模型。通常, 除非有合理的理由将异常值删除, 否则我们不应该删除它们。有时, 删除它们可以提高性能, 有时则不能。因此, 必须有充分的理由消除异常值, 例如不太可能成为真实数据一部分的可疑测量。

处理丢失的数据

数据丢失是机器学习中一个看似棘手的问题。我们不能只是忽略或删除缺失的观察。必须小心处理它们, 因为它们可能表示某些重要信息。处理丢失数据的两种最常见方法是：

删除缺少值的观察值。

删除缺失值不是最佳选择, 因为删除观测值时会删除信息。

价值缺失的事实本身可能是有益的。
另外, 在现实世界中, 即使缺少某些功能, 你也经常需要对新数据进行预测！

根据过去的观察结果估算缺失值。

插值缺失值不是最佳选择, 因为该值最初是缺失的, 但你已将其填写, 无论插补方法多么复杂, 总是会导致信息丢失。

同样, “遗漏”本身几乎总是可以提供信息的, 你应该告诉算法是否缺少值。
即使你构建了一个模型来估算自己的价值, 也没有添加任何实际信息。你只是在增强其他功能已经提供的模式。

这两种方法都是次优的, 因为丢弃观察值意味着丢弃信息, 从而减少数据和估算值也是次优的, 因为我们会筛选实际数据集中不存在的值, 这会导致信息丢失。

丢失数据就像丢失了一块拼图。如果将其放下, 就好像在假装不存在拼图槽。如果你进行估算, 那就像是试图从难题中的其他地方挤进一块。

因此, 丢失的数据始终是有益的, 并且表明某些重要信息。而且, 我们必须通过标记来了解丢失数据的算法。通过使用标记和填充的这种技术, 从本质上讲, 你可以使算法估算缺失的最佳常数, 而不仅仅是用均值填充。

一些数据清理工具

Openrefine：http://openrefine.org/
Trifacta Wrangler：https://www.trifacta.com/products/wrangler/
TIBCO Clarity https://clarity.cloud.tibco.com/landing/feature-summary.html
Cloudingo https://cloudingo.com/
IBM Infosphere质量阶段

总结

因此, 我们讨论了数据清理中的四个不同步骤, 以使数据更可靠并产生良好的结果。正确完成数据清理步骤后, 我们将获得一个可靠的数据集, 避免了许多最常见的陷阱。不应急于执行此步骤, 因为它在进一步的过程中被证明是非常有益的。

相关推荐

评论抢沙发

评论前必须登录！

猜你喜欢

热门标签

回顶部

相关推荐

评论 抢沙发

评论前必须登录！

猜你喜欢

热门标签

回顶部

评论抢沙发