重要的认真性

还没有读者喜欢这个。
neon sign with head outline and open source why spelled out

Opensource.com

开源搜索和机器学习如何驱动对重要事物的洞察

“重要的事情很少是紧急的,而紧急的事情很少是重要的。”——归功于美国第 34 任总统德怀特·“艾克”·艾森豪威尔

在当今数据驱动、持续连接、以技术为中心的世界中,我们被海量吸引眼球的内容、事件和请求所淹没。 和我一样,我怀疑大多数 Opensource.com 的读者都喜欢这种生活方式——毕竟,我们技术人员创造了它——除非,也就是说,当我们不喜欢的时候。 如果像艾克一样,我们可以正确地区分紧急和重要,并利用这股数据浪潮为我们的个人和职业优势服务,我们就会喜欢它。 随着数据规模的增长,这变得越来越难。

为了避免这成为又一篇关于大数据辉煌的“我也是”文章,我将重点关注另一个正在发生的趋势,我认为这是在这场力求满足所有数据需求的竞赛中真正值得追求的目标:自动识别重要事物并对其采取行动。 想象一下,一家电话公司通过将您的实时网络监控与实时社交媒体分析相结合,自动确定本地化手机流量峰值是由于紧急情况还是大型活动(如音乐会)造成的差异,并在负载过大或中断时做出相应的反应。

前一种情况很重要,后一种情况只是紧急。 在所有其他用例中,重要性是当前数据运动最重要的方面。 将所有数据存储和聚合到下一代数据仓库中是很棒的用例,但最终您会耗尽磁盘空间(即使它很便宜)或查看和理解所有这些报告的能力。 然而,您永远不会耗尽了解数据中什么是重要的以及它如何影响您、您的客户和您的公司的需求。

所有这些与开源有什么关系? 开源库的创新,特别是搜索、机器学习和自然语言处理 (NLP) 库,正在为更深入、更充分地理解什么是重要数据铺平道路。 在我们深入了解这些工具的作用之前,让我们退后一步,思考一下在数据的上下文中,“重要”意味着什么。

乍一看,知道什么是重要的似乎属于波特·斯图尔特的“当我看到它时我就知道了”的范畴,大多数人理所当然地认为自己理解。 我们大多数人都可以通过快速阅读主题行或瞥一眼来电显示来判断电子邮件或电话是否重要。 我们很少有人理解我们是如何如此迅速地得出这些结论的,或者哪些因素促成了这些简单的决定,更不用说更复杂地理解在更困难的情况下什么是重要的。 这就是构建软件和系统来帮助解决问题的挑战所在。 确定重要性涵盖了广泛的方面,包括但不限于:及时性、个性化、过去的行为、社会影响、内容、含义以及某事是否可操作。 例如,现在正在发生的针对您基础设施的安全攻击可能比去年发生的攻击更重要。 我说可能,因为去年的攻击可能提供有关如何阻止当前攻击的线索,因此非常重要。

尽管存在所有这些挑战、例外和微妙之处,但在区分重要数据和不重要数据方面,我们已经取得了长足的进步,这在很大程度上要归功于开源。 特别是,像 Apache Lucene 和 Solr 这样的搜索引擎技术取得的进步彻底改变了我们大规模处理多结构化内容、对其进行排名并及时返回的能力。 近年来,搜索引擎已经发生了显著的发展,可以无缝地收集、整理和管理跨各种数据类型(文本、数字、时间序列、空间等等)的数据,而不再仅仅是进行快速关键字查找。 结合大规模数据处理框架(Hadoop, Spark 等),R 用于统计分析,机器学习功能(如 Apache Mahout, Vowpal Wabbit, MLlib )和 NLP 库(如 Stanford 的 NLP 库, Apache OpenNLP, NLTK 等),现在可以构建复杂的解决方案,这些解决方案可以接收您的数据、建模数据、将其提供给您的用户,然后从他们的行为中学习。

谷歌、亚马逊、Facebook 和其他公司多年来一直这样做。 通过开源的力量,其中许多技术现在已广泛提供给我们其他人。

所有这些工作的最终目标是在您的用户和您的数据之间创建一个良性循环。 您的用户与您互动的越多,您的系统就越智能。 您的系统越智能,您的用户就越想与您互动。

Apache
Quill

本文是 Jason Hibbets 协调的 Apache Quill 专栏的一部分。 请通过 open@opensource.com 与我们联系,分享您在 Apache 软件基金会的项目中的成功案例和开源更新.

User profile image.
Grant 是 Lucidworks 的 CTO 和联合创始人,Manning Publications 出版的《驯服文本》的合著者,Apache Mahout 的联合创始人,以及 Apache Lucene 和 Solr 开源项目的长期提交者。 Grant 的经验包括为各种领域和语言设计各种搜索、问答和自然语言处理应用程序。 他获得了理学学士学位。

评论已关闭。

Creative Commons License本作品根据 Creative Commons Attribution-Share Alike 4.0 International License 获得许可。
© . All rights reserved.