个性化阅读
专注于IT技术分析

数据科学生命周期详细指南

点击下载

数据科学生命周期围绕使用机器学习和不同的分析策略来从信息中产生见解和预测, 从而获得商业企业目标。完整的方法包括许多步骤, 例如数据清理, 准备, 建模, 模型评估等。这是一个漫长的过程, 可能还需要花费几个月的时间才能完成。因此, 有一个通用的结构来观察手头的每一个麻烦都是非常重要的。解决任何分析问题的全球通用结构称为”跨行业标准过程, 用于数据挖掘”或” CRISP-DM”框架。

让我们了解数据科学的需求是什么?

以前的数据过去很少, 而且通常以结构良好的形式进行访问, 因此我们可以毫不费力地轻松地将数据保存在Excel工作表中, 并且借助商业智能工具, 可以有效地处理数据。但是今天, 我们习惯于处理大量数据, 例如每天每天产生约3.0 quintals字节的记录, 这最终导致记录和数据的爆炸式增长。根据最近的研究, 据估计, 单个人在一秒钟内就可以创建1.9 MB的数据和记录。

因此, 这对于任何组织而言, 每秒处理如此大量的数据都是一个巨大的挑战。为了处理和评估这些数据, 我们需要一些非常强大, 复杂的算法和技术, 而这正是数据科学应运而生的地方。

以下是使用数据科学技术的一些主要动机:

  1. 它有助于将大量未煮熟和非结构化的记录转换为重要的见解。
  2. 它可以协助进行独特的预测, 例如一系列调查, 选举等。
  3. 它还可以帮助实现自动化, 例如发展自动驾驶汽车, 这可以说是交通的未来。
  4. 公司正在转向数据科学并选择该技术。应付大量数据的亚马逊, Netflix等正在使用信息科学算法来获得更高的消费者体验。

数据科学的生命周期

数据科学生命周期1

1.业务理解:整个周期围绕企业目标而定。如果你不再遇到特定问题, 你将如何解决?真诚地理解商业企业目标非常重要, 因为这将是你分析的最终目的。经过良好的感知后, 我们才能设定与企业目标同步的准确评估目标。你需要了解客户是否希望最大程度地减少储蓄损失, 或者他们是否希望预测商品利率等。

2.数据理解:在企业了解之后, 后续步骤就是数据了解。这包括一系列所有可访问的数据。在这里, 你需要与商业企业集团密切合作, 因为他们当然知道存在哪些信息, 应对该商业企业问题应使用哪些事实以及其他信息。此步骤包括描述数据, 它们的结构, 它们的相关性, 它们的记录类型。使用图形图浏览信息。基本上, 通过简单地探索数据就可以提取有关该信息的任何数据。

3.数据准备:接下来是数据准备阶段。这包括以下步骤:选择适用的数据, 通过合并数据集整合数据, 清理数据, 通过消除或插补来处理缺少的值, 通过消除来处理不准确的数据, 另外测试异常值的使用箱形图并应对它们。构建新数据, 从现有数据中获取新元素。将数据格式化为首选结构, 消除不需要的列和功能。数据准备是整个生存周期中最耗时但可以说是最重要的步骤。你的模型将与数据一样准确。

4.探索性数据分析:在构建实际模型之前, 此步骤包括获得有关答案和影响答案的元素的一些概念。使用条形图以图形方式探究字符的不同变量内的数据分布, 并通过散点图和温暖图等图形表示来捕获不同方面之间的关系。许多数据可视化策略可用于将每个特征与不同特征结合起来, 从而分别发现每个特征。

5.数据建模:数据建模是数据分析的核心。模型将组织的数据作为输入并提供首选的输出。此步骤包括选择合适的模型类型, 无论问题是分类问题, 还是回归问题或聚类问题。在确定模型家族之后, 在该家族的算法数量中, 我们需要谨慎选择要实施并执行的算法。我们需要调整每个模型的超参数以获得最佳性能。我们还需要使总体性能和通用性之间保持适当的稳定性, 这是我们必须做出的积极贡献。我们不再需要模型来研究数据并且对新数据的操作不佳。

6.模型评估:在此评估模型以检查其是否已准备好部署。该模型是根据看不见的数据进行检查的, 并经过谨慎考虑的评估指标集进行评估。我们还需要肯定该模型符合现实。如果在评估中未获得质量最终结果, 则必须重新重复完整的建模过程, 直到达到指标的首选阶段为止。任何数据科学解决方案, 就像人类一样, 机器学习模型都必须发展, 必须能够利用新数据增强自身, 适应新的评估指标。我们可以为某个现象构造多个模型, 但是, 其中许多模型可能还不完善。模型评估可帮助我们选择并构建理想的模型。

7.模型部署:经过严格评估的模型最终部署在首选结构和渠道中。这是数据科学生命周期中的最后一步。上面定义的数据科学生命周期中的每个步骤都必须仔细进行。如果任何步骤执行不当, 并因此影响后续步骤, 则全力以赴。例如, 如果数据不再正确地累积, 那么你将丢失记录, 并且将不再构建理想的模型。如果未正确清除信息, 则该模型将不再起作用。如果未正确评估模型, 则它将在实际环境中失败。从业务感知到模型部署, 每个步骤都必须给予适当的关注, 时间和精力。


赞(0)
未经允许不得转载:srcmini » 数据科学生命周期详细指南

评论 抢沙发

评论前必须登录!