化学并非最开放的科学领域;事实上,当我开始更多地在这个领域工作时(我来自物理学背景),我对该领域的规范感到惊讶。早在 2003 年读博士时,我只是想在我的首选操作系统(Linux)上绘制一个 3D 分子结构,并能够保存一张图片用于论文/海报来讨论我的研究。
事实证明这几乎是不可能的,于是在 2005 年,一群志同道合的研究人员在美国化学学会的一次会议上聚在一起,成立了一个非组织:蓝色方尖碑(以他们在圣地亚哥的会议地点命名)。
蓝色方尖碑
2006 年,最初的团队发表了一篇题为 蓝色方尖碑——化学信息学中的互操作性 的论文,详细阐述了这个非组织的目标,简明扼要地概括为开放数据、开放标准和开源(ODOSOS);但不一定是开放获取。事实上,第一篇文章就被锁在付费墙后面。
第二篇文章,化学中的开放数据、开源和开放标准:蓝色方尖碑五年回顾, 总结了最初五年取得的进展,并以开放获取的方式发表,供所有人使用。它阐述了该组织的核心目标
……通过促进化学软件之间的互操作性、鼓励开源开发者之间的合作以及开发社区资源和开放标准,使化学研究更容易进行。
蓝色方尖碑已成为分子、反应、计算化学、光谱学和晶体学(超出化学信息学的最初目标)等不同领域的大量研究人员和开发者的聚集点。
这也揭示了大量开源工具包(例如 Open Babel、RDKit、CDK 和 Indigo),这些工具包用 C++ 或 Java 编写,并绑定到许多其他语言。还有一些“第二代”工具建立在这些工具包之上,例如 Avogadro 和 Bioclipse。除了开源之外,在开发开放标准方面也取得了重大进展,例如 化学标记语言、InChI、Open SMILES 和 QSAR-ML,这些都在改善化学领域的数据交换状态。开放数据工作也提供了宝贵的资源,例如 蓝色方尖碑数据仓库,它提供了一个许可宽松、经过策划的数据集。
Avogadro 项目
Avogadro 论文在同一种期刊上以开放获取出版物的形式在第二年发表,题为 Avogadro:一种先进的语义化学编辑器、可视化和分析平台。该论文更详细地介绍了 Avogadro 项目以及它多年来的发展历程。自从发布 Avogadro 1.0 以来,我们一直在思考,如果有机会重写代码,我们如何才能做得更好。自从我搬到 Kitware 以来,我一直在寻求资金来开发一套开源工具,以通过一套可扩展的应用程序来满足计算化学家的需求,这些应用程序涵盖工作流程的所有主要部分。
开放化学项目
感谢美国陆军工程研发中心的第一阶段和后来的第二阶段 SBIR 资助,我们开发了 开放化学项目,并在该域名下建立了基础设施。
作为该项目的一部分,我们一直在开发三个应用程序:Avogadro 2、MoleQueue 和 MongoChem。每个应用程序都解决了化学家工作流程的不同方面,即 Avogadro 2 中的模拟、输入准备、可视化和分析。计算化学代码的执行既可以在本地进行,也可以远程进行(与高性能计算调度程序集成),MoleQueue;此应用程序实际上并非专门用于化学应用程序,并且已经在其他几个领域中得到应用。
最后,在 MongoChem 中完成了用于存储、索引、搜索和信息学分析大量化学数据的桌面工具的开发。这些应用程序不仅可以独立运行,而且还能够使用基于简单 JSON-RPC 2.0 的 API 通过本地套接字进行通信,以协调工作。
这些工具使用了许多开源项目,例如 VTK 和 CMake,主要由 Kitware 开发,Qt、MongoDB、Open Babel、Gerrit、Doxygen、GTest,以及其他公司和广大社区开发的其他项目。这些工具是在公开场合开发的,使用了一种质量引导的软件流程,该流程采用代码审查、所有主要平台上的持续集成构建测试、单元测试以及典型的开源软件项目中期望的所有其他内容。自 2012 年以来,我们一直在每晚构建二进制安装程序,并在 4 月份发布了我们的 第一个 Beta 版本,目的是在继续添加功能的同时收集更广泛社区的反馈。
我们很高兴通过开发一个开放、跨平台和可扩展的平台来开放化学领域,该平台可以满足使用现代技术的化学家的主要需求。这提供了一个图形框架,社区中的许多开放和封闭代码都可以利用它来生成输入、存储输出以及分析/可视化生成的数据。
我们将继续与社区合作,通过开放化学项目来满足化学领域对更多开源、开放数据和开放标准的需求。参与其中。
3 条评论