Apache Kafka 是一个分布式发布-订阅消息系统,旨在实现快速、可扩展和持久。它为处理实时数据馈送提供了一个统一、高吞吐量、低延迟的平台,并具有一个存储层,该存储层本质上是一个大规模可扩展的发布/订阅消息队列,其架构为分布式事务日志。这种架构使得最初由 LinkedIn 开发并在 2011 年初开源的 Kafka 对于企业基础设施处理流数据非常有价值。
最初,Kafka 是为网站活动跟踪而构建的——捕获网站上的所有点击、操作或输入,并允许多个“消费者”订阅该信息的实时更新。然而,现在,互联网服务、金融服务、娱乐和其他行业的公司已经采用了 Kafka 的大规模可扩展架构,并将其应用于有价值的业务数据。
Kafka 使这些垂直行业的企业能够将公司内发生的一切转化为实时数据流,供多个业务部门订阅和分析。对于这些公司而言,Kafka 可以替代传统的、孤立于单个业务部门的数据存储,并提供了一种轻松统一来自所有不同系统的数据的方法。
Kafka 已经超越了 IT 运营数据,现在也用于与消费者交易、金融市场和客户数据相关的数据。以下是不同行业使用 Kafka 的三种方式。
互联网服务
一家领先的互联网服务提供商 (ISP) 正在使用 Kafka 进行服务激活。当新客户通过电话或在线注册互联网服务时,他们收到的硬件必须经过验证才能使用。验证过程会生成一系列消息,然后日志收集器会收集该日志数据并将其传递给 Kafka,Kafka 会将数据发送到多个应用程序进行处理。
以这种方式使用 Kafka 的好处是,IT 平台可以为消费者执行操作(激活服务),并将数据传递给分析应用程序,以便 ISP 可以按地理区域、激活率以及更多内容分析激活情况。
在使用 Kafka 之前,捕获数据并将其路由到多个部门需要工程、商业智能和复制数据的单独管道。Kafka 现在充当单一的事实来源,不仅捕获有关应用程序正在发生的事情的数据,还捕获有关客户正在发生的事情的数据。
金融服务
全球金融服务公司需要分析每天数十亿笔交易,以寻找市场趋势并掌握金融市场的快速和频繁变化。一家公司过去通过在市场收盘后从多个业务部门收集数据,将其发送到庞大的数据湖,然后在捕获的数据上运行分析来做到这一点。
为了从被动方法转变为对传入市场数据的实时分析,Kafka 正在充当消息代理,以存储运营数据和其他与市场相关的金融数据。现在,分析师们不再分析事后运营数据,而是可以随时掌握市场的实时动态,并据此做出决策。
高盛是使用 Kafka 的金融公司的一个例子,高盛主导开发了 Symphony,这是一项行业倡议,旨在构建一个基于云的平台,用于即时通信和内容共享,安全地连接市场参与者。它基于具有成本效益、可扩展且可定制以满足最终用户需求的开源业务模型。
娱乐
一家拥有行业领先游戏平台的娱乐公司必须实时处理每天数百万笔交易,并确保其消息的丢包率非常低。过去,它使用 Apache Spark(一个强大的开源处理引擎)和 Hadoop,但最近它切换到了 Kafka。
有趣的是,该公司正在将 Kafka 用作此数据的保险策略,因为 Kafka 将以可读格式安全地存储数据,只要公司需要即可。这使公司既可以通过简化的架构路由消息,又可以通过 Kafka 存储数据;在发生灾难或严重错误时,它可以恢复数据并进行故障排除。
Netflix 使用 Kafka 作为所有应用程序的数据收集网关,每天需要处理数千亿条消息。例如,它正在将 Kafka 用于统一事件发布、收集、批量和流处理的路由以及临时消息传递。
在云端和本地部署中,Kafka 已经超越了其最初的网站活动跟踪功能,成为行业标准,为各行各业的公司提供了可靠、简化的消息传递解决方案。
评论已关闭。