大数据。它是当今科技界最流行的流行语之一。但不可否认的是,数据深刻地影响着我们生活的方方面面,以及商业和工业。关于一切事物收集的数据量都令人震惊——一次典型的跨大西洋航班仅发动机就会产生 30 TB 的数据!
在今年的 Great Wide Open 大会上,Pivotal 首席科学家米林德·班达卡尔发表了演讲,重点介绍了企业收集和存储数据方式的演变。他演讲的核心是,开源软件,以 Hadoop(一个用于在硬件集群上存储和处理大型数据集的框架)的形式,对这一过程产生了巨大影响,并将继续这样做。
班达卡尔 在他的演讲开始时解释了 Web 2.0 和移动设备如何改变人们看待数据的方式。网站收集有关用户及其感兴趣内容的信息。移动设备不断传输有关其使用情况的信息。社交媒体生成了一个 社交图谱,它
成为了最有趣的分析数据类型。
所有这一切都导致了大数据,班达卡尔 对此表示
我总是用引号来指代“大数据”,因为没有人真正知道它是什么。
当大数据在 2000 年代初期开始成为人们关注的问题时,软件领域由一个单一的、昂贵的数据库系统主导。但是,班达卡尔 表示,开源软件帮助改变了数据库和分析领域。
作为 Hadoop 的助产士,班达卡尔 对该框架如何在大数据世界中如此根深蒂固以及它的有效性有着独特的见解。 Hadoop 最初由 Yahoo! 开发,并基于许多开源工具,它是每周索引整个 Web 的项目的基础。该框架通过索引和分析 Internet Archive 崭露头角,当时 Internet Archive 的大小为 20 TB。
自 2007 年以来,Hadoop 的使用(用 班达卡尔 的话来说)已经爆发。使用 Hadoop 和在其基础上构建的公司包括提供分析基础设施、运营基础设施、存储等的公司。根据 班达卡尔 的说法
Hadoop 已成为一个非常混杂的生态系统。
Hadoop 的广泛采用部分原因是组织可以使用它来快速将几个不同的软件解决方案(如存储和数据库)粘合在一起。Hadoop 的灵活性使企业能够继续使用其已有的软件和基础设施,同时增强和扩展该基础设施。
Hadoop 还帮助改变了数据科学家执行分析的方式。过去,分析需要很多步骤。由于大量数据不符合分析过程的结构而被丢弃。班达卡尔 表示,借助 Hadoop,可以在之前完成大量分析的繁重工作,然后再将数据保存到数据库中。只保存企业可以采取行动的数据。这加快了分析速度并降低了存储成本。
班达卡尔 在他的演讲结束时,阐述了越来越多的分析工具如何转向 Hadoop,以及 Hadoop 如何迅速成为一个支持多种数据类型和多种数据规模的分析平台。
他的最后想法是:由于 Hadoop 的强大功能和灵活性,班达卡尔 认为 Hadoop 将成为未来的单一分析平台。
米林德·班达卡尔是 Yahoo! 团队的创始成员,该团队将 Apache Hadoop 从 20 节点的原型发展为数据中心规模的生产系统,并且自 0.1.0 版本以来一直为 Hadoop 做出贡献并使用 Hadoop。他创建了 Yahoo! Grid 解决方案团队,专注于培训、咨询和支持数百名新的 Hadoop 迁移者。并行编程语言和范例是他 20 多年来关注的领域,也是他在伊利诺伊大学厄巴纳-香槟分校获得博士学位(计算机科学)的专业领域。他曾在高级计算开发中心 (C-DAC)、国家超级计算应用中心 (NCSA)、高级火箭模拟中心、Siebel Systems、Pathscale Inc.(被 QLogic 收购)、Yahoo! 和 Linkedin 工作。目前,他是 Pivotal(前身为 EMC 部门 Greenplum)的首席科学家。
评论已关闭。