虽然科学理应建立在彼此的发现之上,以增进我们对周围世界的理解,但即使在互联网时代,重现和复用先前发布的研究成果仍然具有挑战性。自 18 世纪首次发表论文以来,科学论文(科学家借以交流其发现的主要手段)的基本格式或多或少保持不变。
这个问题尤其突出,因为得益于近二十年来研究领域的技术进步,研究人员使用的方法的丰富性和复杂性远远超过了出版业以完整形式发布这些方法的能力。事实上,研究文章中的“方法”部分仍然主要是一大段文本,无法反映复杂性,也无法促进复用用于获得已发布结果的方法。
共同致力于解决方案
为了应对这些挑战,eLife 与 Substance 和 Stencila 于 2017 年合作,开发了一套开源工具堆栈,用于在线创作、编译和发布可计算再现的手稿。我们对该项目的愿景是创建一种新型研究文章,将实时代码、数据和交互式图形嵌入到传统手稿的流程中,并为作者和出版商提供工具,以在整个出版生命周期中支持这种新格式。
作为我们合作的成果,我们在 2019 年 2 月发布了 eLife 的首篇可计算再现的文章。它基于 一篇论文,该论文收录于可重复性项目:癌症生物学合集中。该文章的可再现版本展示了新 RDS 工具的一些可能性:科学家可以更充分地分享他们研究的丰富性,完整地讲述他们的工作故事,而其他人可以直接与作者互动、质疑他们,并以最小的努力构建在他们的代码和数据之上。
研究界对我们发布的首篇可再现手稿的反应非常积极。数千名科学家通过操纵论文的绘图探索了其内联代码重新执行能力,并且有多位作者直接与我们联系,询问他们如何发布其自己手稿的可再现版本。
受到这种兴趣和反馈的鼓舞,我们在 5 月份宣布了我们构建开放、可扩展基础设施的路线图,旨在发布可计算再现的文章,供任何人大规模发布。RDS 项目下一阶段的目标是交付以研究人员为中心、对出版商友好的开源解决方案,这将允许任何人大规模托管和发布可再现文档。 这包括
- 开发转换、渲染和创作工具,允许研究人员从多个起点创作文章,包括 GSuite 工具、Microsoft Word 和 Jupyter 笔记本
- 优化容器化工具,以提供可靠且高性能的可再现计算环境
- 构建后端基础设施,以便同时在浏览器中实现实时代码重新执行和 PDF 导出选项
- 制定用于可再现文档归档的开放、可移植格式 (DAR)
下一步是什么,您如何参与?
我们的第一步是发布可再现的文章,作为已接受论文的配套。我们将努力在 2019 年底前接受以 DAR 文件形式提交的可再现手稿。您可以在我们的文章《可重复文档堆栈:迈向可扩展的可再现文章解决方案》中了解有关下一阶段开发中关键创新领域的更多信息。
RDS 项目的构建遵循三个核心原则
- 开放性: 我们优先考虑在现有开放技术的基础上进行构建,并吸引和吸纳开源技术专家和研究人员社区,创建一个包容性的工具堆栈,该堆栈根据用户需求不断发展。
- 互操作性: 我们希望让科学家能够轻松创建可再现文档,并让出版商能够从多个起点发布这些文档。
- 模块化: 我们以这样一种方式开发堆栈中的工具,即可以将它们取出并集成到其他出版商工作流程中。
您可以提供帮助。我们欢迎所有希望为这个激动人心的项目做出贡献的开发人员和研究人员。自从 eLife 发布首篇可再现文章以来,我们一直在积极收集来自研究界和开源社区的反馈,这对于塑造 RDS 的发展至关重要(并将继续如此)。
如果您想随时了解我们的进展,请注册 RDS 社区新闻通讯。如有任何问题或意见,请联系我们。我们期待在旅程中与您同行。
本文部分基于 Giuliano Maciocci、Emmy Tsang、Nokome Bentley 和 Michael Aufreiter 合著的《可重复文档堆栈:迈向可扩展的可再现文章解决方案》。
评论已关闭。