什么是数据科学：数据科学入门

本文概要

什么是数据科学吗？
需要对数据进行科学
数据科学乔布斯
前提条件数据科学
BI和数据科学的区别
数据科学组件
工具数据科学
机器学习在数据科学
如何使用机器学习算法在数据科学解决问题？
数据科学的生命周期
数据科学中的应用

数据科学已经成为21世纪最苛刻的工作。每一个组织正在寻找与数据的科学知识的候选人。在本教程中，我们给介绍数据科学，用科学的数据工作角色，数据科学工具，数据科学的成分，应用等。

所以，让我们开始，

什么是数据科学吗？

数据科学是数据的海量，其涉及提取从正在使用的科学方法处理后的原始，结构化和非结构化数据，不同的技术和算法有意义的见解了深入的研究。

这是一个多学科领域使用的工具和技术来处理数据，这样你可以找到一些新的和有意义的。

数据科学使用最强大的硬件，编程系统，和最有效的算法来解决相关问题的数据。它是人工智能的未来。

总之，我们可以说，数据科学是一回事：

问正确的问题，并分析原始数据。
使用各种复杂和高效的算法建模的数据。
可视化的数据，以获得更好的视角。
了解数据做出更好的决策，并找到了最终的结果。

例：

让我们假设我们希望通过汽车从A站前往B站。现在，我们需要采取一些决定，比如哪条路线将是最好的途径，以在该位置达到更快，在路线不会有堵车，而且这将是经济有效的。所有这些决定因素将作为输入数据，我们会得到这些决定一个合适的答案，所以数据的这种分析被称为数据分析，这是数据的科学的一部分。

需要对数据进行科学

几年前，数据较少，大多以结构化形式，它可以很容易地存储在Excel工作表发售，采用BI工具进行处理。

但是，在当今世界，数据正在变得如此巨大，即约2.5公担字节的数据生成每天，从而导致数据爆炸。据估计，按照研究，到2020年，1.7 MB的数据将在每一秒钟产生，由地球上的一个人。每家公司都需要数据来工作，成长，提高他们的业务。

现在，处理这样的庞大的数据量是每个组织一个具有挑战性的任务。因此处理，处理和分析，我们需要进行一些复杂的，功能强大，高效的算法和技术，以及技术应运而生数据科学。下面是使用数据的科学技术的一些主要原因：

随着数据的科学技术的帮助下，我们可以将原始和非结构化数据的海量转换成有意义的见解。
数据科学技术是由不同的公司选择加入，无论是大品牌还是启动。谷歌，亚马逊，Netflix公司等，其处理的数据量庞大，使用数据的科学算法更好的客户体验。
数据科学工作自动化运输，如创建一个自动驾驶汽车，这是交通的未来。
科学的数据可以在不同的预测，如各种调查，选举，机票确认等帮助

数据科学乔布斯

按照各种调查，数据科学家作业成为21世纪最苛刻的工作，由于对数据的科学日益增长的需求。还有些人把它称为“21世纪最热门的职位”。数据科学家是谁可以使用各种统计工具和机器学习算法的理解和分析数据的专家。

数据科学家的平均工资范围将约为$ 95，000到$ 165，000每年，并且按照不同的研究中，约11.5百万工作将由2026年创建。

数据科学工作的类型

如果你学会了科学的数据，那么你有机会找到这个领域的各种令人兴奋的工作角色。主要工作角色给出如下：

数据科学家
数据分析师
机器学习专家
数据工程师
数据架构师
数据管理员
业务分析师
商业智能管理

下面是数据的科学的一些关键职称的解释。

1.数据分析：

数据分析是个人，谁执行挖掘，模型数据，模式，关系，趋势的外观，等大数据量的。在一天结束的时候，他又发表了可视化和分析数据的决策和解决问题的过程报告。

技能要求：对于成为一名数据分析师，你必须得到在数学，商业智能，数据挖掘和统计的基础知识一个很好的背景。你还应该熟悉一些计算机语言和工具，如MATLAB，Python和SQL，蜂巢，猪，Excel中，SAS，R，JS，星火等。

2.机器学习专家：

机器学习专家是谁与数据科学使用的各种机器学习算法，如回归，聚类，分类，决策树，随机森林等工作的一个

技能要求：计算机编程语言如Python，C ++，R，Java和Hadoop的。你也应该有不同的算法，解决问题的分析能力，概率和统计的理解。

3.数据工程师：

数据工程师的工作与海量数据量，并负责建立和维护一个数据科学项目的数据架构。数据工程师也适用于创建建模，采矿，采集和验证中使用的数据集过程。

技能要求：数据工程师必须具备SQL，MongoDB的，卡珊德拉，HBase的，Apache的星火，蜂巢，MapReduce的深入了解，与Python，C / C ++，Java和Perl等语言知识

4.数据科学家：

数据科学家是谁与数据的大量工作的专业，通过各种工具，技术，方法，算法等部署拿出令人信服的业务洞察力

技能要求：要成为一名科学家的数据，应该有技术性的语言技能，如R，SAS，SQL，Python和蜂巢，猪，Apache的火花，MATLAB。数据科学家必须具备的统计，数学，可视化和沟通技巧的理解。

前提条件数据科学

非技术先决条件：

好奇心：要了解数据的科学，一个人必须有好奇心。当你有好奇心，问各种问题，那么你可以很容易地理解业务问题。
批判性思维：这也需要一个数据的科学家，这样你可以找到多种新的方法来解决效率问题。
沟通技巧：因为解决一个业务问题后，你需要将它与我的团队沟通交流技能是数据科学家最重要的。

技术先决条件：

机器学习：了解数据的科学，需要了解机器学习的概念。数据科学使用机器学习算法来解决各种问题。
数学建模：数学建模需要从现有的数据做出快速数学计算和预测。
统计：统计的基本认识是必需的，如均值，中位数或标准差。这是需要提取的知识和获得数据更好的结果。
计算机编程：对于数据的科学，至少需要一个编程语言的知识。 R，Python和星火是数据的科学需要一些计算机编程语言。
数据库：数据库的深入了解，如SQL，是必不可少的科学数据来获取数据和工作数据。

BI和数据科学的区别

BI代表商业智能，它也被用于商业信息的数据分析：下面是BI和数据科学之间存在一些差异：

标准	商业智能	数据科学
Data Source	商业智能处理结构化数据。、数据仓库。	与结构化和非结构化数据，例如，博客，反馈等数据科学处理
Method	分析(历史数据)	科学（不断深入了解的数据报告的原因）
Skills	统计和可视化是商业智能所需的两种技能。	统计，可视化，和机器学习是数据的科学所需的技能。
Focus	商业智能关注过去和现在的数据	数据科学侧重于过去的数据，目前的数据，还未来的预测。

数据科学组件

数据科学的主要组成部分给出如下：

1.统计：统计数据是科学中最重要的组成部分之一。统计是收集和大量和寻找从中有意义的洞察分析的数值数据的方式。

2.领域专业知识：在数据科学领域的专业知识结合科学数据一起。领域的专业知识来专门特定区域的知识或技能。在数据科学，也有我们需要领域专家各个领域。

3.数据工程：数据工程是科学数据的一部分，其涉及获取，存储，检索和转换数据。数据工程还包括元数据（关于数据的数据）提供给数据。

4.可视化：数据可视化是通过在视觉方面表示数据，使人们可以很容易地理解数据的意义意思。数据可视化可以很容易地访问数据的视觉效果的巨大数额。

5.高级计算：数据科学的重型起重为先进的计算。先进的计算涉及到设计，编写，调试和维护计算机程序的源代码。

6.数学：数学是科学数据的重要组成部分。数学涉及的数量，结构，空间和变化的研究。对于数据科学家，良好的数学知识是必不可少的。

7.机器学习：机器学习是数据科学的骨干。机器学习是所有关于提供培训，以一台机器，以便它可以作为一个人的大脑作用。在数据科学，我们使用不同的机器学习算法来解决问题。

工具数据科学

以下是数据的科学需要一些工具：

数据分析工具：R，Python和统计，SAS，Jupyter，R工作室，MATLAB，Excel中，RapidMiner。
数据仓库：ETL，SQL，Hadoop的，Informatica的/拓蓝，AWS红移
数据可视化工具：R，Jupyter，画面，Cognos公司。
机器学习工具：火花，象夫，天青ML工作室。

机器学习在数据科学

要成为一名科学家的数据，我们也应该意识到机器学习及其算法，如数据的科学，有其广泛使用各种机器学习算法。以下是数据的科学使用的一些机器学习算法的名称：

回归
决策树
聚类
主成分分析
支持向量机
朴素贝叶斯
人工神经网络
先验

我们将为你提供一些简单的介绍了一些重要的算法在这里，

1.线性回归算法：线性回归是基于监督学习最流行的机器学习算法。此上回归算法工作，这是建模基于独立变量目标值的方法。它代表了线性方程，其具有一组输入和预测输出之间的关系的形式。该算法在预测和预测大多使用。因为它显示输入和输出变量之间的线性关系，因此它被称为线性回归。

下面的等式可以描述变量x和y之间的关系：

Y= mx+c

其中，Y =从属变量X =独立变量M =斜率C =截距。

2.决策树：决策树算法是另一台机器学习算法，其属于监督学习算法。这是最流行的机器学习算法之一。它可用于分类和回归问题。

在决策树算法，就可以解决这个问题，通过使用树表示，其中，每个节点代表一个功能，每个分支代表一个决定，每片叶子代表结果。

下面是一个工作机会的问题，例如：

在决策树中，我们从树根开始，比较记录属性根属性的值。在此比较的基础上，我们遵循的分支按值，然后移动到下一个节点。我们将继续，直到我们达到被断言类值的叶节点比较这些值。

3. K均值聚类：K-means聚类是机器学习，属于无监督学习算法的最流行的算法之一。它解决了聚类问题。

如果我们给出的项目的数据集，与特定功能和值，并且我们需要将这些组项分类成组，所以这种类型的问题可以使用k均值聚类算法来解决。

K均值在最小化目标函数，它被称为平方误差函数聚类算法的目的，并且它被给定为：

其中，J（V）=>目标函数 ‘|| XI – VJ ||’ => xi和VJ之间的欧几里德距离。 CI” =>数的第i簇的数据点。 C =>簇的数目。

如何使用机器学习算法在数据科学解决问题？

现在，让我们明白了什么是最常见的问题发生在数据科学和什么方式来解决问题。因此，在数据科学，问题是用算法解决的，以下是可能的问题，适用的算法的图表示：

这是A或B？：

我们可以参考此类问题它只有两个固定的解决方案，比如是或否，1或0，可用可不用。而这种类型的问题可以通过分类算法来解决。

这是不同的？：

我们可以参考这样的问题属于不同的模式，我们需要找到他们奇怪。的问题，这种类型的可使用异常检测算法来解决。

多少钱或多少？

另一种类型的问题时，其要求数值或数字，例如什么是今天，这将是今天的温度，可以使用回归算法解决了时间。

这是如何组织的？

现在，如果你有需要处理数据的组织问题，那么就可以使用聚类算法得到解决。

聚类算法组织和组基于特征，颜色，或其他共同特性的数据。

数据科学的生命周期

数据科学的生命周期，如下图进行说明。

科学数据生命周期的主要阶段给出如下：

1.发现：第一阶段是发现，其中包括提出正确的问题。当你启动任何数据的科学项目，你需要确定什么是基本要求，重点和项目预算。在这个阶段，我们需要确定项目的，如人，技术，时间，数据的最终目标数的所有要求，然后我们就可以框架上的第一个假设级别的业务问题。

2.数据准备：数据准备也被称为数据改写（munging）。在这个阶段，我们需要执行以下任务：

数据清理
数据缩减
数据集成
数据转换，

执行上述所有任务后，我们就可以很容易地使用这些数据为我们的进一步处理。

3.型号计划：在这个阶段，我们需要确定各种方法和技术，建立输入变量之间的关系。我们将利用各种统计公式和可视化工具来了解变量之间的关系，看看哪些数据可以告诉我们申请探索性数据分析（EDA）。用于模型规划常用工具有：

SQL分析服务
[R
SAS
蟒蛇

4.模型建设：在这个阶段，建立模型开始的过程。我们将创造培训和测试目的的数据集。我们会采用不同的技术，如联想，分类和集群，构建模型。

以下是一些常见的模型制作工具：

SAS企业矿工
WEKA
SPCS建模
MATLAB

5.操作化：在这个阶段，我们将提供该项目的最终报告，以简报，代码和技术文档一起。这一阶段为你提供完整的项目执行和其他组件上的一个小规模的全面部署之前，一目了然。

6.沟通的结果：在这个阶段，我们将检查，如果我们达到目标，这是我们在初始阶段设定。我们将沟通的结果和最终结果与业务团队。

数据科学中的应用

图像识别和语音识别：目前科学数据正在使用的图像和语音识别。当你上传Facebook上的图像，并开始获取标记建议给你的朋友。此自动标记建议用途图像识别算法，其是数据的科学的一部分。当你说使用的东西，“好了谷歌，Siri的，柯塔娜”等，而这些设备按照语音控制反应，所以这是可能的语音识别算法。
游戏世界：在游戏世界中，利用机器学习算法是与日俱增。 EA体育，索尼，任天堂，被广泛使用的科学数据为增强用户体验。
互联网搜索：当我们要寻找的东西在互联网上，然后我们用不同类型的搜索引擎如谷歌，雅虎，必应，问等。所有这些搜索引擎使用这些数据的科学技术，使搜索体验更好，你可以得到一个搜索结果用秒一小部分。
交通运输：交通运输行业也使用数据的科学技术，打造自动驾驶汽车。随着自动驾驶汽车，它会很容易，以减少道路交通事故的数量。
医疗保健：在医疗保健领域，数据科学是提供大量的好处。数据科学被用于肿瘤检测，药物开发，医学图像分析，虚拟机器人医疗等
推荐系统：大多数的公司，如亚马逊，Netflix公司，谷歌播放等，使用数据的科学技术，用于制造带有个性化的推荐更好的用户体验。比如，当你搜索亚马逊的东西，你开始变得对同类产品的建议，所以这是因为数据的科学技术。
风险检测：金融行业总是有欺诈和损失风险的问题，但随着数据的科学的帮助下，这是可以获救。大多数金融公司都在寻找数据科学家，以避免风险和提高客户满意度的任何类型的损失。

本文概要

什么是数据科学吗？

例：

需要对数据进行科学