个性化阅读
专注于IT技术分析

40+ Python统计数据科学资源

本文概述

数据科学与统计

根据我们的”在8个(轻松)步骤中学习数据科学”信息图, 学习数据科学的第一步就是对统计, 数学和机器学习有很好的理解。

如果你还记得的话, 下一步就是学习如何编码。

但是, 一旦你掌握了进行数据科学所需的所有Python知识, 就该巩固你所获得的知识了。

本博客文章包含的主题并将列出其资源:

  • 统计与概率论,
  • 概率分布
  • 假设检验,
  • 统计建模和拟合,
  • 机器学习
  • 回归分析,
  • 贝叶斯思维和建模, 以及
  • 马尔可夫链

该列表并不详尽, 目的是帮助你入门。 🙂

顺便说一句, 如果你仍想开始学习Python进行数据科学, 则应考虑参加” Python进行数据科学入门”课程。

数据科学非常实用, 因此, 你不应该忘记(继续)专注于实践在数据科学之旅开始时可能已经学过的理论概念。

但是统计和数据科学之间到底有什么区别?

他们经常感到困惑, 有人说没有区别, 数据科学家实际上是统计学家。

但是最后, 如果暂时搁置这些观点, 大多数人都会同意统计是数据科学的核心组成部分这一事实。

Python统计

今天的帖子将重点介绍如何学习进行数据科学所需的统计信息。以及如何使用Python做到这一点。

为什么是Python?

R是从统计开始的好地方。它是为统计计算和图形开发的, 因此为用户提供了大量的统计数据包。另一方面, Python是具有许多应用程序的通用语言。

但是, 你也可以使用Python进行统计。

有人说使用Python是因为它的性能或它也可以做R可以做的很多事情。

但是, 从本质上讲, 这种编程语言越来越流行, 并且近年来可用于数据科学的软件包的数量无疑也在增加。

简而言之, 绝对有理由使用Python进行统计分析。

你最终将选择的工具仅取决于你要执行的分析类型。

那么, 你准备好开始使用Python进行统计了吗?

PS。如果你还在寻找学习R或R统计信息的资源, 请查看srcmini的公开课程或R统计简介。

学习Python统计数据科学

Python统计与概率论

你可能应该解决的第一个主题是统计学和概率论。不仅有很多视频和课程可以为你提供帮助, 而且还有许多(印刷)书籍可以帮助你开始使用Python进行统计。

Python统计简介

对于统计信息的介绍, 本教程提供了真实的示例, 是你的最佳选择。本教程的笔记本将向你介绍诸如均值, 中位数, 标准差之类的概念, 以及假设检验和概率分布等主题的基础知识。

这是一种开始学习统计数据的好方法, 因为它受到书籍” Think Bayes”和” Think Stats”的启发, 这是下面要提到的两个重要建议!

如果你正在寻找书籍, 可以尝试这本有关Python计算统计的免费书籍, 其中不仅包含Python编程入门, 而且还讨论了诸如Markov Chain Monte Carlo, 期望最大化(EM)等主题。算法, 重采样方法等等。

或者, 你可以购买Thomas Haslwanter的这本书, 以全面介绍常见的统计检验, 线性回归分析以及生存分析和贝叶斯统计中的主题。请注意, 本书确实将生命科学和医学作为应用领域。

如你所见, 以上两本书都已经向你介绍了Python的高级统计主题。

如果你喜欢视频, 则应考虑与范德比尔特大学医学院生物统计学系助理教授Christopher Fonnesbeck一起观看有关SciPy进行统计数据分析的教程。还有GaëlVaroquaux撰写的有关使用Python进行推理和探索性统计的视频。最后一个视频利用了Python软件包Pandas和StatsModels。

你会发现这些资源是相当通用的资源, 可帮助你开始使用Python统计信息。

如果你正在寻找可以快速掌握统计基础知识的资源, 则应查看Justin Bois教授的srcmini的Python统计思维课程。你将了解诸如探索性数据分析(EDA), 方差和协方差, 均值和中位数, 概率分布等概念。

Python的概率论

当你使用Python学习统计信息时, 概率论也非常有价值。这是对随机现象的分析。这意味着任何随机事件的结果都是不确定的:它可以是几种可能结果中的任何一种, 并且最终结果是由偶然决定的。

概率论包含统计学的概念起源。

上面提到的资源简要介绍了统计学, 在某些情况下, 它们还介绍了概率论(鉴于上述情况, 这似乎是合理的), 但也有一些资源专门针对此主题。

你还可以签出以下资源:

最佳建议之一是EdX的”计算概率和推理”课程。该课程由麻省理工学院的讲师讲授, 将使你熟悉概率和推论的原理。

你还应该阅读这本由Brian Blais教授撰写的免费书, 这是一本入门级的统计推理教科书, 受概率论作为逻辑的启发。

Python概率分布

要真正地使用Python进行数据科学学习统计, 你还应该对何时使用什么分布有一个很好的认识。分布是列表或函数, 它显示数据的所有可能值或间隔以及它们出现的频率。

而且, 如果你查看此列表, 你会发现有很多分配要考虑。

有关SciPy的均匀, 正态, 二项式和泊松概率分布的介绍, 你可以查看此博客文章。

最重要的建议是”思考统计:程序员的概率和统计”一书的第四章, 它将为你介绍连续分布。但是, 第五章也将对概率分布进行扎实的介绍。

要可视化分布, 可以使用直方图等。如果你想快速浏览一下, 可以查看一下该IPython笔记本, 它将简要介绍具有平均值, 分位数和直方图及其关系的描述性统计量。要了解有关如何可视化分布的更多信息, 可以查看此Seaborn教程。

还有本关于Python基本统计信息的详尽教程。

请注意, 如果你想学习一门涵盖一些分布的课程, 例如二项式和泊松, 以及分布函数(例如经验累积分布函数), 或者一门将教你如何形象化这些分布的课程, 则可以查看srcmini的Python统计思维课程。

Python中的概率分布

Python假设测试

假设检验是统计检验, 用于确定数据样本中是否有足够的证据来推断特定条件对整个人群都是正确的。

这些检验的两个中心概念是原假设和替代假设, 但p值是假设检验的基础。当你刚接触该领域时, 这些事情很难理解, 需要花一些精力来了解你的p值的alpha值或显着性水平, 以及拒绝或不拒绝原假设的不同之处。

你可以在SciPy库的站点上找到一个教程, 该教程可以对p值和估计进行简短的操作。

这些SciPy讲座将向你介绍t检验, 你可以通过分析两个总体均值来检验假设。如果你想探索t检验, 也可以求助于此博客文章。

如果你想读一本书, 则最高推荐的《思考统计:程序员的概率和统计》一书对于假设检验也仍然有效。第七章将教你有关假设检验的所有知识, 如果你还没有通过其他各章来了解分布的话。

对于正在寻找课程的人们, srcmini的Python统计思维(第2部分)为你提供了介绍和测试示例, 以使你获得有关假设检验等方面的必要知识和实践。

Python中的统计建模和拟合

现在你已经掌握了假设检验和分布的知识, 你可以首先查看或更深入地研究如何制作统计模型并使分布适合数据。

统计模型近似于生成数据的内容, 可用于数据分析以汇总数据, 进行预测和模拟。换句话说, 它代表了产生数据的复杂现象, 可用于汇总, 预测或模拟。

但是, 这还需要你能够找出你的数据是否适合该模型。

为了在模型和数据估计之间提供最佳拟合, 可以使用。估计涉及根据从样本获得的信息推断总体。除了假设检验之外, 这是一种从样本中了解总体信息的方法。

本教程通过Python库SciPy向你介绍适合的主题。

统计数据建模和拟合也是本统计分析教程中的一章, 该教程由Christopher Fonnesbeck在笔记本中进行了详细阐述。这个名字现在听起来很熟悉!

对于那些更喜欢视频的人来说, 本教程也可以在YouTube上的四部电影中找到, 并讨论诸如估计(最大似然和矩量法)之类的主题。

你可以在此处查看本教程的视频。

顺便说一句, 如果你想了解有关统计模式分类的最大似然估计的更多信息, 请不要错过这个IPython笔记本或该笔记本, 该笔记本解释了如何针对不同分布计算此估计。这些笔记本是Sebastian Raschka制作的模式分类库的一部分, 后者也为他的Python Machine Learning书提供了另一个库。

使用Python进行机器学习

在他对《机器学习》一书的最后建议时, 你可能会想:这篇文章是关于统计的, 对吗?

那就对了。

并不是说机器学习和统计学是相同的, 但是它们确实提出了相同的问题:我们如何从数据中学习?

另外, 机器学习和统计技术都经常用于例如模式识别或数据挖掘。

机器学习是数据科学工具箱中的一个非常有用的工具。这是一个非常广泛的主题, 你可以花很多时间弄清楚它的概念和算法。

这就是为什么你最好现在就开始!

但是, 它起步如此之广, 并且需要大量资源来精通Python的机器学习, 因此并不是很简单。

吴安德(Andrew Ng)教授的一般机器学习课程是理论性的, 但是如果你首先想从理论的角度来学习主要概念和算法, 还是建议这样做。

但是, 还有很多实用资源可以帮助你入门。

以下资源只是其中的一部分:

对SciPy进行的机器学习的这一简短介绍将帮助你走上正确的道路。对于那些想要更新其基本统计知识并希望以此为基础的人来说, 本教程是理想的选择。 Kyle Kastner指导你进行参数估计, 回归, 模型估计和基本分类。

如果你想要一本书来解决这个问题, 可以查阅《 IPython交互式计算和可视化指南》。第八章为你介绍了基本的机器学习概念, 并举例说明了逻辑回归, 朴素贝叶斯, K近邻, 支持向量机, 随机森林等算法。该菜谱使用Scikit-learn包作为示例。

如果你想获得有关机器学习Scikit学习的简介的教程, 请转到此处。

另外, 不要错过Naive Bayes分类器上的本教程。

使用Python进行回归分析

在数据科学统计方面, 回归无疑是不容错过的。这是一个统计过程, 用于估计变量之间的关系。

要了解如何使用Python进行回归, 你首先应该首先阅读一些有关线性回归的材料。

但是, 请先阅读本教程:它涵盖了使用带有Quandl的StatsModels包进行回归分析。它首先说明了现有的不同类型的回归, 然后为你提供了一个实际示例。

然后, 阅读此线性回归教程以进行更多练习。

然后, 你可以继续进行非线性回归。有关Python中的岭和套索回归的教程, 你可以查看此Analytics Vidhya教程。本文利用Python库NumPy, Pandas, Matplotlib和Scikit-learn向你清楚地说明了如何处理此主题。

你还可以在这里找到有关Logistic回归的出色笔记本教程。

另外, 请不要错过关于Rodeo与Logistic回归的Yhat博客文章。

Python贝叶斯思维与建模

Python中的贝叶斯思维与建模

贝叶斯统计是一种根据被称为贝叶斯概率的信念程度表达有关世界真实状态的证据的理论。有时, 你可能想对数据科学问题采取贝叶斯方法。

在这个由五部分组成的系列简介中, 这将清楚地说明什么, 它将向你介绍常识和贝叶斯主义。

但是, 如果你更喜欢读书, 可以查看” Think Bayes:Python中的贝叶斯统计信息”。 “贝叶斯黑客方法”是介绍贝叶斯推理的另一个重要资源。两本必读的书籍, 适合任何想开始使用贝叶斯思维和建模的人!

或者, 如果你想在笔记本中进行介绍, 则可以阅读本教程, 向你介绍贝叶斯定理。

也不要错过有关Python中的贝叶斯统计分析的教程以及随附的Youtube视频, 这些视频将向你介绍贝叶斯统计, 马尔可夫链蒙特卡洛, PyMC, 层次建模以及模型检查和验证。

有关使用Python进行贝叶斯模型拟合的教程, 你应该查看这些IPython笔记本和随附的YouTube视频, 这是Jake VanderPlas在2014年ESAC数据分析和统计研讨会上的演讲。

如果要重用资源, 可以查看《 IPython交互式计算和可视化指南》, 该书可能已经用于研究机器学习。本书的第七章是关于统计数据分析的, 但侧重于假设检验, 参数和非参数估计以及模型推论的频繁和贝叶斯方法。

这是有关PyMC的教程, PyMC是一个实现贝叶斯统计模型和拟合算法的Python模块, 其中包括Markov Chain Monte Carlo(MCMC)。此外, 在本教程中, 你将学习如何使用PyMC3实现贝叶斯线性回归模型, 值得一试。

马尔可夫链

简而言之, 马尔可夫链是从一个”状态”跳到另一个”状态”的数学系统。这些状态可以是一种情况或一组值。这意味着你具有可用的状态列表, 最重要的是, 马尔可夫链告诉你从一个状态跳到”状态”或跳变到其他任何状态的可能性。

上面提到的一些资源已经向你介绍了该主题。

除了这些资源之外, 你可能还想观看此视频:这是一个使用蒙特卡洛模拟和重采样的教程, 以探索假设检验和统计建模。在进入马尔可夫链之前, 这可能是巩固你的知识的好方法。

另外, 《 Python中的计算统计》一书还将为你提供有关马尔可夫链的一些见解。这是对Markov Chain Monte Carlo的精彩介绍。

Python统计信息入门

此列表只是为了帮助你入门。你会发现许多资源重叠, 或者你可能会发现其他资源。确保在Twitter上告诉我们!

无论如何, 没有理由再等下去开始使用Python学习统计信息。

现在就开始!

赞(0)
未经允许不得转载:srcmini » 40+ Python统计数据科学资源

评论 抢沙发

评论前必须登录!