9 个鲜为人知的用于数据科学的 Python 库

超越 pandas、scikit-learn 和 matplotlib，学习在 Python 中进行数据科学的一些新技巧。

图片来源：

来自 Wikimedia Commons 的 CC0 原始图片

Python 是一门令人惊叹的语言。事实上，它是世界上增长最快的编程语言之一。它一次又一次地证明了其在开发人员职位和跨行业的数据科学职位中的实用性。Python 及其库的整个生态系统使其成为世界各地用户（初学者和高级用户）的合适选择。其成功和受欢迎的原因之一是其强大的库集，这些库使其如此动态和快速。

在本文中，我们将研究一些用于数据科学任务的 Python 库，这些库不同于常用的库，如 pandas、scikit-learn 和 matplotlib。虽然像 pandas 和 scikit-learn 这样的库是机器学习任务中最先想到的，但了解该领域中的其他 Python 产品总是好的。

Wget

提取数据，尤其是从网络上提取数据，是数据科学家的一项重要任务。Wget 是一个免费实用程序，用于从网络上非交互式下载文件。它支持 HTTP、HTTPS 和 FTP 协议，以及通过 HTTP 代理进行检索。由于它是非交互式的，即使用户未登录，它也可以在后台工作。因此，下次您想下载网站或页面中的所有图像时，wget 将随时为您提供帮助。

安装

$ pip install wget

示例

import wget
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)
100% [................................................] 3841532 / 3841532

filename
'razorback.mp3'

Pendulum

对于在 Python 中处理日期时间时感到沮丧的人来说，Pendulum 来了。它是一个 Python 包，旨在简化 datetime 操作。它是 Python 本机类的直接替代品。有关深入信息，请参阅文档。

安装

$ pip install pendulum

示例

import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')

print(dt_vancouver.diff(dt_toronto).in_hours())

3

Imbalanced-learn

大多数分类算法在每个类中的样本数量几乎相同时（即，平衡）效果最佳。但是现实生活中的案例充满了不平衡的数据集，这可能会对学习阶段和随后的机器学习算法预测产生影响。幸运的是，创建了 imbalanced-learn 库来解决此问题。它与 scikit-learn 兼容，并且是 scikit-learn-contrib 项目的一部分。下次遇到不平衡数据集时，请尝试使用它。

安装

pip install -U imbalanced-learn

# or

conda install -c conda-forge imbalanced-learn

示例

有关用法和示例，请参阅文档。

FlashText

在自然语言处理 (NLP) 任务期间清理文本数据通常需要替换或从句子中提取关键字。通常，可以使用正则表达式完成此类操作，但是如果要搜索的术语数量达到数千个，它们可能会变得很麻烦。

Python 的 FlashText 模块基于 FlashText 算法，为这种情况提供了合适的替代方案。FlashText 最好的部分是运行时与搜索词的数量无关。您可以在文档中阅读更多相关信息。

安装

$ pip install flashtext

示例

提取关键字

from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()

# keyword_processor.add_keyword(<unclean name>, <standardised name>)

keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('Bay Area')
keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')

keywords_found
['New York', 'Bay Area']

替换关键字

keyword_processor.add_keyword('New Delhi', 'NCR region')

new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')

new_sentence
'I love New York and NCR region.'

有关更多示例，请参阅文档中的 usage 部分。

FuzzyWuzzy

名称听起来很奇怪，但 FuzzyWuzzy 是一个非常有用的库，它用于字符串匹配。它可以轻松实现诸如字符串比较比率、令牌比率等操作。它对于匹配保存在不同数据库中的记录也很方便。

安装

$ pip install fuzzywuzzy

示例

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

# Simple Ratio

fuzz.ratio("this is a test", "this is a test!")
97

# Partial Ratio
fuzz.partial_ratio("this is a test", "this is a test!")
 100

更多示例可以在 FuzzyWuzzy 的 GitHub 仓库中找到。

PyFlux

时间序列分析是机器学习中最常见的问题之一。PyFlux 是 Python 中的一个开源库，专门为处理时间序列问题而构建。该库拥有一系列优秀的现代时间序列模型，包括但不限于 ARIMA、GARCH 和 VAR 模型。简而言之，PyFlux 为时间序列建模提供了一种概率方法。值得一试。

安装

pip install pyflux

示例

有关用法和示例，请参阅文档。

IPyvolume

交流结果是数据科学的重要方面，而可视化结果提供了显着的优势。IPyvolume 是一个 Python 库，用于在 Jupyter 笔记本中可视化 3D 体积和字形（例如，3D 散点图），只需最少的配置和工作量。但是，它目前处于 1.0 之前的阶段。一个好的类比是这样的：IPyvolume 的 volshow 对于 3D 数组就像 matplotlib 的 imshow 对于 2D 数组。您可以在文档中阅读更多相关信息。

安装

Using pip
$ pip install ipyvolume

Conda/Anaconda
$ conda install -c conda-forge ipyvolume

示例

动画

体积渲染

Dash

Dash 是一个高效的 Python 框架，用于构建 Web 应用程序。它构建在 Flask、Plotly.js 和 React.js 之上，并将现代 UI 元素（如下拉菜单、滑块和图形）与您的分析 Python 代码联系起来，而无需 JavaScript。Dash 非常适合构建可以在 Web 浏览器中呈现的数据可视化应用程序。有关更多详细信息，请查阅用户指南。

安装

pip install dash==0.29.0  # The core dash backend
pip install dash-html-components==0.13.2  # HTML components
pip install dash-core-components==0.36.0  # Supercharged components
pip install dash-table==3.1.3  # Interactive DataTable component (new!)