CERN 如何使用 OpenStack 推动其科学使命

图片来源：

Opensource.com

世界上最大的科学组织之一正在使用 OpenStack 来理解构成我们宇宙万物的东西。CERN 运行着地球上最具合作性的科学项目之一，负责定期产生大量数据，以做出诺贝尔奖级别的发现，例如希格斯玻色子，它有一些非常独特的计算需求。

Belmiro Moreira 将带我们了解 OpenStack 如何被用于 CERN 以实现这项突破性的科学，以及他们如何为这个开源项目做出贡献。满足精通计算机的科学家的苛刻需求可能具有挑战性，CERN 肯定运行着从已使用了数十年的遗留应用程序到为新构思的方法编写的新部署的各种应用。Moreira 将在日本东京举行的即将到来的 OpenStack 峰会上谈论 CERN 的云架构。

CERN 和其他设施传统上使用超级计算机。为什么 CERN 创建了如此庞大的私有云，这是否促成了新的或不同的研究？

CERN 为庞大的科学家和实验社区提供计算资源。大型强子对撞机 (LHC) 实验是使用 CERN 计算资源的最大科学合作项目，它们的数据分析更适合分布式计算模型。它需要执行大量松散耦合的作业；这需要高吞吐量计算，而不是单个程序的高性能。

在 90 年代后期，使用大量运行 Linux 的商用 x86 服务器的方法开始流行起来。为了处理来自 LHC 实验的数据，CERN 开发了一种基于该模型的计算基础设施，作为全球 LHC 计算网格的 Tier-0 层。当时，管理数千个节点的工具非常少，这促使我们开发了自己的工具。多年来，维护这些工具需要大量的努力，并且越来越难以找到新的受过培训的员工。

2012 年，CERN IT 部门决定部署一个基于常用开源工具（如 OpenStack、Puppet 和 Elasticsearch）的私有云。这使我们能够以一致的方式管理大量的物理资源池，在不同的科学社区和服务之间共享它们，提高资源利用率，并为自助服务资源分配模型启用云接口。

这对 CERN 科学社区的所有成员来说都是一个巨大的进步，使他们能够在几分钟内访问计算资源，而无需等待数周/数月才能安装和分配物理服务器。

CERN 的部署规模有多大？

CERN 的私有云在两个数据中心（日内瓦和布达佩斯）运行，总共有约 5,000 台服务器（约 130,000 个核心）。到 2016 年夏季，我们预计将增长到约 200,000 个核心。对于块存储，CERN 运行 Ceph，容量为 3.5PB。

上面运行着什么样的应用程序？

云基础设施运行着非常异构的应用程序集，范围从 IT 服务到科学数据处理应用程序，再到用户的个人远程桌面。这非常具有挑战性，因为这些项目有不同的需求和用户社区。例如，我们现在在同一台服务器上运行“ATLAS Analysis”、“IT Videoconference”和“Personal Belmiro”等项目，而在过去，它们将拥有不同的专用资源并排运行。

是否有确定云或超级计算机是否最适合应用程序的标准？

高度并行化且需要低延迟网络的应用程序在特殊的专用硬件上运行，而不是在云基础设施中。然而，这些并不代表我们在 CERN 的大部分科学工作负载。

在 CERN 云基础设施中运行的主要科学应用程序和框架用于 LHC 数据分析。这些都是计算密集型的，但作业可以独立运行。这对于云环境来说是完美的工作负载，在云环境中，每个作业都可以在临时的虚拟机 (VM) 中拥有自己的运行环境。由于主要的分析包括处理存储在 CERN 存储系统中的数据，因此如果 VM 发生故障，可以重新提交作业。