Python 的诸多优点(如效率、代码可读性和速度)使其成为数据科学爱好者的首选编程语言。对于希望提升应用程序功能的数据科学家和机器学习专家来说,Python 通常是首选。(例如,Andrey Bulezyuk 使用 Python 编程语言创建了一个惊人的 机器学习应用程序。)
由于其广泛的使用,Python 拥有大量的库,这些库使数据科学家可以轻松完成复杂的任务,而无需进行大量的编码工作。以下是数据科学领域排名前 3 的 Python 库;如果您想开始在该领域发展职业生涯,请查看它们。
1. NumPy
NumPy(Numerical Python 的缩写)是顶级库之一,配备了有用的资源,可帮助数据科学家将 Python 变成强大的科学分析和建模工具。这个流行的开源库在 BSD 许可下可用。它是用于执行科学计算任务的基础 Python 库。NumPy 是一个更大的基于 Python 的开源工具生态系统 SciPy 的一部分。
该库为 Python 提供了实质性的数据结构,可以轻松执行多维数组和矩阵计算。除了在求解线性代数方程和其他数学计算中的用途外,NumPy 还可用作不同类型通用数据的通用多维容器。
此外,它还可以与其他编程语言(如 C/C++ 和 Fortran)完美集成。NumPy 库的多功能性使其可以轻松快速地与广泛的数据库和工具结合使用。例如,让我们看看 NumPy(缩写为 np)如何用于矩阵乘法。
首先,让我们导入库(在这些示例中,我们将使用 Jupyter notebook)。
import numpy as np
接下来,让我们使用 eye() 函数生成具有指定维度的单位矩阵。
matrix_one = np.eye(3)
matrix_one
这是输出
array([[1., 0., 0.],
[0., 1., 0.],
[0., 0., 1.]])
让我们生成另一个 3x3 矩阵。
我们将使用 arange([起始数字], [停止数字]) 函数来排列数字。请注意,函数中的第一个参数是要列出的初始数字,最后一个数字不包含在生成的结果中。
此外,应用 reshape() 函数来修改原始生成矩阵的维度,使其成为所需的维度。为了使矩阵可以“相乘”,它们应具有相同的维度。
matrix_two = np.arange(1,10).reshape(3,3)
matrix_two
这是输出
array([[1, 2, 3],
[4, 5, 6],
[7, 8, 9]])
让我们使用 dot() 函数来乘以两个矩阵。
matrix_multiply = np.dot(matrix_one, matrix_two)
matrix_multiply
这是输出
array([[1., 2., 3.],
[4., 5., 6.],
[7., 8., 9.]])
太棒了!
我们成功地在没有使用原生 Python 的情况下乘以了两个矩阵。
这是此示例的完整代码
import numpy as np
#generating a 3 by 3 identity matrix
matrix_one = np.eye(3)
matrix_one
#generating another 3 by 3 matrix for multiplication
matrix_two = np.arange(1,10).reshape(3,3)
matrix_two
#multiplying the two arrays
matrix_multiply = np.dot(matrix_one, matrix_two)
matrix_multiply
2. Pandas
Pandas 是另一个很棒的库,可以增强您的 Python 数据科学技能。与 NumPy 一样,它也属于 SciPy 开源软件系列,并且在 BSD 自由软件许可证下可用。
Pandas 提供了多功能且强大的工具,用于整理数据结构和执行广泛的数据分析。该库可以很好地处理不完整、非结构化和无序的真实世界数据,并附带用于整形、聚合、分析和可视化数据集的工具。
此库中有三种数据结构
- Series:一维同构数组
- DataFrame:具有异构类型列的二维数组
- Panel:三维大小可变数组
例如,让我们看看 Panda Python 库(缩写为 pd)如何用于执行一些描述性统计计算。
首先,让我们导入库。
import pandas as pd
让我们创建一个 Series 字典。
d = {'Name':pd.Series(['Alfrick','Michael','Wendy','Paul','Dusan','George','Andreas',
'Irene','Sagar','Simon','James','Rose']),
'Years of Experience':pd.Series([5,9,1,4,3,4,7,9,6,8,3,1]),
'Programming Language':pd.Series(['Python','JavaScript','PHP','C++','Java','Scala','React','Ruby','Angular','PHP','Python','JavaScript'])
}
让我们创建一个 DataFrame。
df = pd.DataFrame(d)
这是一个漂亮的输出表
Name Programming Language Years of Experience
0 Alfrick Python 5
1 Michael JavaScript 9
2 Wendy PHP 1
3 Paul C++ 4
4 Dusan Java 3
5 George Scala 4
6 Andreas React 7
7 Irene Ruby 9
8 Sagar Angular 6
9 Simon PHP 8
10 James Python 3
11 Rose JavaScript 1
这是此示例的完整代码
import pandas as pd
#creating a dictionary of series
d = {'Name':pd.Series(['Alfrick','Michael','Wendy','Paul','Dusan','George','Andreas',
'Irene','Sagar','Simon','James','Rose']),
'Years of Experience':pd.Series([5,9,1,4,3,4,7,9,6,8,3,1]),
'Programming Language':pd.Series(['Python','JavaScript','PHP','C++','Java','Scala','React','Ruby','Angular','PHP','Python','JavaScript'])
}
#Create a DataFrame
df = pd.DataFrame(d)
print(df)
3. Matplotlib
Matplotlib 也是 SciPy 核心软件包的一部分,并在 BSD 许可下提供。它是一个流行的 Python 科学库,用于生成简单而强大的可视化效果。您可以使用用于数据科学的 Python 框架来生成有创意的图形、图表、直方图以及其他形状和图形,而无需担心编写大量的代码。例如,让我们看看如何使用 Matplotlib 库创建一个简单的条形图。
首先,让我们导入库。
from matplotlib import pyplot as plt
让我们为 x 轴和 y 轴生成值。
x = [2, 4, 6, 8, 10]
y = [10, 11, 6, 7, 4]
让我们调用绘制条形图的函数。
plt.bar(x,y)
让我们显示该图。
plt.show()
这是条形图

这是此示例的完整代码
#importing Matplotlib Python library
from matplotlib import pyplot as plt
#same as import matplotlib.pyplot as plt
#generating values for x-axis
x = [2, 4, 6, 8, 10]
#generating vaues for y-axis
y = [10, 11, 6, 7, 4]
#calling function for plotting the bar chart
plt.bar(x,y)
#showing the plot
plt.show()
总结
Python 编程语言在数据处理和准备方面一直做得很好,但在复杂科学数据分析和建模方面则不然。用于 数据科学 的顶级 Python 框架有助于填补这一空白,使您能够执行复杂的数学计算并创建复杂的模型,从而理解您的数据。
您还知道哪些其他 Python 数据挖掘库?您对它们的体验如何?请在下面分享您的评论。
评论已关闭。