数据科学的 3 个顶级 Python 库

使用这些库将 Python 变成科学数据分析和建模工具。
264 位读者喜欢这篇文章。
Person standing in front of a giant computer screen with numbers, data

Opensource.com

Python 的诸多优点(如效率、代码可读性和速度)使其成为数据科学爱好者的首选编程语言。对于希望提升应用程序功能的数据科学家和机器学习专家来说,Python 通常是首选。(例如,Andrey Bulezyuk 使用 Python 编程语言创建了一个惊人的 机器学习应用程序。)

由于其广泛的使用,Python 拥有大量的库,这些库使数据科学家可以轻松完成复杂的任务,而无需进行大量的编码工作。以下是数据科学领域排名前 3 的 Python 库;如果您想开始在该领域发展职业生涯,请查看它们。

1. NumPy

NumPy(Numerical Python 的缩写)是顶级库之一,配备了有用的资源,可帮助数据科学家将 Python 变成强大的科学分析和建模工具。这个流行的开源库在 BSD 许可下可用。它是用于执行科学计算任务的基础 Python 库。NumPy 是一个更大的基于 Python 的开源工具生态系统 SciPy 的一部分。

该库为 Python 提供了实质性的数据结构,可以轻松执行多维数组和矩阵计算。除了在求解线性代数方程和其他数学计算中的用途外,NumPy 还可用作不同类型通用数据的通用多维容器。

此外,它还可以与其他编程语言(如 C/C++ 和 Fortran)完美集成。NumPy 库的多功能性使其可以轻松快速地与广泛的数据库和工具结合使用。例如,让我们看看 NumPy(缩写为 np)如何用于矩阵乘法。

首先,让我们导入库(在这些示例中,我们将使用 Jupyter notebook)。

import numpy as np

接下来,让我们使用 eye() 函数生成具有指定维度的单位矩阵。

matrix_one = np.eye(3)
matrix_one

这是输出

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

让我们生成另一个 3x3 矩阵。

我们将使用 arange([起始数字], [停止数字]) 函数来排列数字。请注意,函数中的第一个参数是要列出的初始数字,最后一个数字不包含在生成的结果中。

此外,应用 reshape() 函数来修改原始生成矩阵的维度,使其成为所需的维度。为了使矩阵可以“相乘”,它们应具有相同的维度。

matrix_two = np.arange(1,10).reshape(3,3)
matrix_two

这是输出

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

让我们使用 dot() 函数来乘以两个矩阵。

matrix_multiply = np.dot(matrix_one, matrix_two)
matrix_multiply

这是输出

array([[1., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]])

太棒了!

我们成功地在没有使用原生 Python 的情况下乘以了两个矩阵。

这是此示例的完整代码

import numpy as np
#generating a 3 by 3 identity matrix
matrix_one = np.eye(3)
matrix_one
#generating another 3 by 3 matrix for multiplication
matrix_two = np.arange(1,10).reshape(3,3)
matrix_two
#multiplying the two arrays
matrix_multiply = np.dot(matrix_one, matrix_two)
matrix_multiply

2. Pandas

Pandas 是另一个很棒的库,可以增强您的 Python 数据科学技能。与 NumPy 一样,它也属于 SciPy 开源软件系列,并且在 BSD 自由软件许可证下可用。

Pandas 提供了多功能且强大的工具,用于整理数据结构和执行广泛的数据分析。该库可以很好地处理不完整、非结构化和无序的真实世界数据,并附带用于整形、聚合、分析和可视化数据集的工具。

此库中有三种数据结构

  • Series:一维同构数组
  • DataFrame:具有异构类型列的二维数组
  • Panel:三维大小可变数组

例如,让我们看看 Panda Python 库(缩写为 pd)如何用于执行一些描述性统计计算。

首先,让我们导入库。

import pandas as pd

让我们创建一个 Series 字典。

d = {'Name':pd.Series(['Alfrick','Michael','Wendy','Paul','Dusan','George','Andreas',
   'Irene','Sagar','Simon','James','Rose']),
   'Years of Experience':pd.Series([5,9,1,4,3,4,7,9,6,8,3,1]),
   'Programming Language':pd.Series(['Python','JavaScript','PHP','C++','Java','Scala','React','Ruby','Angular','PHP','Python','JavaScript'])
    }

让我们创建一个 DataFrame。

df = pd.DataFrame(d)

这是一个漂亮的输出表

      Name Programming Language  Years of Experience
0   Alfrick               Python                    5
1   Michael           JavaScript                    9
2     Wendy                  PHP                    1
3      Paul                  C++                    4
4     Dusan                 Java                    3
5    George                Scala                    4
6   Andreas                React                    7
7     Irene                 Ruby                    9
8     Sagar              Angular                    6
9     Simon                  PHP                    8
10    James               Python                    3
11     Rose           JavaScript                    1

这是此示例的完整代码

import pandas as pd
#creating a dictionary of series
d = {'Name':pd.Series(['Alfrick','Michael','Wendy','Paul','Dusan','George','Andreas',
   'Irene','Sagar','Simon','James','Rose']),
   'Years of Experience':pd.Series([5,9,1,4,3,4,7,9,6,8,3,1]),
   'Programming Language':pd.Series(['Python','JavaScript','PHP','C++','Java','Scala','React','Ruby','Angular','PHP','Python','JavaScript'])
    }

#Create a DataFrame
df = pd.DataFrame(d)
print(df)

3. Matplotlib

Matplotlib 也是 SciPy 核心软件包的一部分,并在 BSD 许可下提供。它是一个流行的 Python 科学库,用于生成简单而强大的可视化效果。您可以使用用于数据科学的 Python 框架来生成有创意的图形、图表、直方图以及其他形状和图形,而无需担心编写大量的代码。例如,让我们看看如何使用 Matplotlib 库创建一个简单的条形图。

首先,让我们导入库。

from matplotlib import pyplot as plt

让我们为 x 轴和 y 轴生成值。

x = [2, 4, 6, 8, 10]
y = [10, 11, 6, 7, 4]

让我们调用绘制条形图的函数。

plt.bar(x,y)

让我们显示该图。

plt.show()

这是条形图

Bar chart from Matplotlib

这是此示例的完整代码

#importing Matplotlib Python library 
from matplotlib import pyplot as plt
#same as import matplotlib.pyplot as plt
 
#generating values for x-axis 
x = [2, 4, 6, 8, 10]
 
#generating vaues for y-axis 
y = [10, 11, 6, 7, 4]
 
#calling function for plotting the bar chart
plt.bar(x,y)
 
#showing the plot
plt.show()

总结

Python 编程语言在数据处理和准备方面一直做得很好,但在复杂科学数据分析和建模方面则不然。用于 数据科学 的顶级 Python 框架有助于填补这一空白,使您能够执行复杂的数学计算并创建复杂的模型,从而理解您的数据。

您还知道哪些其他 Python 数据挖掘库?您对它们的体验如何?请在下面分享您的评论。

标签
Michael Livecoding.tv
Michael 博士是总部位于洛杉矶的 Education Ecosystem. Inc.(前身为 Livecoding.tv)的创始人兼首席执行官。Education Ecosystem (LEDU) 是一个基于项目的学习平台,教授学生如何在编程、游戏开发、人工智能、网络安全、数据科学和区块链等领域构建真实的产品。

评论已关闭。

© . All rights reserved.