在一个分为两部分的系列文章的第二篇中,我们将继续探索如何将函数式编程方法的思想导入 Python,以兼得两全。
在前一篇文章中,我们介绍了不可变数据结构。 这些结构允许我们编写“纯”函数,或者没有副作用的函数,仅仅接受一些参数并返回结果,同时保持良好的性能。
在这篇文章中,我们基于此使用 toolz
库。 这个库具有操作这些函数的功能,并且它们与纯函数特别配合良好。 在函数式编程世界中,这些通常被称为“高阶函数”,因为它们将函数作为参数并返回函数作为结果。
让我们从这个开始
def add_one_word(words, word):
return words.set(words.get(word, 0) + 1)
此函数假定其第一个参数是不可变的类字典对象,并且它返回一个新的类字典对象,其中相关的place已递增:这是一个简单的频率计数器。
但是,只有当我们将其应用于单词流并进行reduce操作时,它才有用。 我们可以在内置模块 functools
中访问 reducer。 functools.reduce(function, stream, initializer)
。
我们需要一个应用于流的函数,它将返回一个频率计数。
我们首先使用 toolz.curry
add_all_words = curry(functools.reduce, add_one_word)
使用此版本,我们将需要提供 initializer。 但是,我们不能只是将 pyrsistent.m
添加到 curry
中;它的顺序错误。
add_all_words_flipped = flip(add_all_words)
flip
高阶函数返回一个函数,该函数调用原始函数,但参数已翻转。
get_all_words = add_all_words_flipped(pyrsistent.m())
我们利用 flip
自动柯里化其参数的优势,为其提供一个起始值:一个空字典。
现在我们可以执行 get_all_words(word_stream)
并获得一个频率字典。 但是,我们如何获得单词流? Python 文件是按行流。
def to_words(lines):
for line in lines:
yield from line.split()
在单独测试每个函数后,我们可以将它们组合起来
words_from_file = toolz.compose(get_all_words, to_words)
在这种情况下,仅由两个函数组成的组合很容易理解:首先应用 to_words
,然后将 get_all_words
应用于结果。 散文,似乎与代码的顺序相反。
当我们开始认真对待可组合性时,这一点很重要。 有时可以将代码编写为一系列单元,分别测试每个单元,最后将它们全部组合起来。 如果有多个元素,则 compose
的顺序可能会变得难以理解。
toolz
库借鉴了 Unix 命令行,并使用 pipe
作为执行相同操作的函数,但顺序相反。
words_from_file = toolz.pipe(to_words, get_all_words)
现在它读起来更直观:将输入管道传输到 to_words
,并将结果管道传输到 get_all_words
。 在命令行上,等效的命令如下所示
$ cat files | to_words | get_all_words
toolz
库允许我们操作函数,进行切片、切块和组合,以使我们的代码更易于理解和测试。
2 条评论