在 GitHub 上让科学更开放

目前还没有读者喜欢这篇文章。
code

Opensource.com

Arfon Smith 在 GitHub 工作 ,并参与多项活动,这些活动位于开放科学、开源和在线研究的交叉领域。他曾参与多个成功的公民科学项目,如 Zooniverse,这是一个他共同创立的平台,人们可以在此分析真实的天文数据并做出重大贡献。自从加入 GitHub 以来,Arfon 已经将其关注点扩展到 GitHub 如何帮助学术合作更像开源合作。

通过本次访谈,了解更多关于 Arfon Smith 如何实现他的梦想职业。

是什么促使您构建“公民科学项目”?

回溯过去,我大学学习化学,后来获得了天体化学(太空化学)博士学位。在我的博士期间,我编写了很多代码,但在那时,像大多数学术程序员一样,我真的不了解任何关于软件开发的知识,例如如何使用版本控制。

在我的博士学位即将结束时,我意识到我对我正在编写的代码以及它产生的科学成果同样感兴趣。我开始尝试使用 Web 框架,例如 Ruby on Rails(那是 2006 年,对于 Rails 来说还处于早期阶段),我非常喜欢为 Web 构建工具。我认为这是我博士后转向学术软件的主要原因之一。在一家网络营销机构短暂担任开发人员之后,我加入了剑桥 Wellcome Trust Sanger Institute 的 Production Software Group,并构建了 Rails 应用程序来管理即将进行 DNA 测序的生物样本的处理。

在 Sanger 短暂但非常愉快的一年后,我加入了牛津大学的 Galaxy Zoo 团队,并与 Chris Lintott 共同创立了 Zooniverse,担任该项目的技术负责人。在接下来的五年里,我负责构建(后来领导一个团队完成所有艰苦的工作!)超过 20 个公民科学项目,吸引了超过 100 万公众成员在线进行真正的科学研究。

我在 Sanger 和 Zooniverse 的角色都是关于为科学构建更好的工具。Sanger 对我来说是一个形成时期,因为在校园里充满了生物信息学家,这是一种令人大开眼界的体验:这些人的专业知识不是纯粹的生物研究,而是构建工具以促进和推进该研究领域的工艺。来自天体物理学,天体信息学领域仍然非常小众,看到当大量资源投入到混合技术/科学领域时可以完成的事情,真是令人瞩目。

您是如何加入 GitHub 的?

我加入 GitHub 是因为我(并非独有)观察到,在当前的学术模式中,科学软件开发人员的角色并没有真正得到认可或奖励。随着我在 Zooniverse 的角色演变以及我的团队壮大,我花费越来越多的时间思考如何为这些人建立职业生涯。就目前的情况而言,如果你想在学术部门取得成功,那么你可能应该在高影响力的期刊上发表大量论文。然而,随着研究变得更加数据密集型,越来越多的学术活动被编码在软件中,而这些软件通常不会像论文那样获得相同的认可。

我认识一些在 GitHub 工作的人很多年了,并且一直是这个产品的忠实粉丝。去年,我们开始讨论 GitHub 可以做些什么来支持那些编写软件并在 GitHub 上分享的研究人员。

您在 GitHub 的工作是什么?典型的一天是怎样的?

广义上讲,我在 GitHub 的工作是使其成为研究人员分享其工作的更好场所。实际上,有很多方法可以实现这一目标,因此典型的一天可能包括以下任何活动

  • 帮助研究人员将版本控制融入到他们的工作流程中
  • 在就产品开发向 GitHub 内部团队提供建议时,成为学术用户的声音
  • 与社区合作伙伴(如数据发布商、政府机构和期刊)合作,以确保 GitHub 在学术生态系统中提供价值
  • 为希望使用 GitHub 的学术用户开发(和交付)资源

您参与了多个合作项目,例如 Mozilla Science Lab 的科学可持续软件研讨会。您能否详细介绍一下您在 GitHub 的总体目标,以改善科学领域的合作状态,尤其是在源代码、数据、出版和可重复性方面?

我花了一段时间才达到这一点,但我现在使用的一句话工作描述是,我正在努力“将开源社区中普遍存在的共享和信用机制引入学术界”。这个描述远非完美,但它指出了我试图解决的许多问题。

每天,数百万人通过 GitHub 进行协作,共同构建比他们自己能够生产的更好的东西。我的目标是让研究人员以同样的方式协同工作,对他们的工作进行版本控制,重用(并基于)他人的工作,并因这些活动获得认可。软件编码了学术产出中不断增长的部分,但作为一名研究人员,如果你想因为你编写的软件获得认可,你仍然需要发表一篇关于它的论文。David Donoho 在将这些论文描述为“广告”时,一语中的。我认为这里有很多机会。

可重复性是一个有趣的话题,也是我非常感兴趣的话题。在我看来,可重复性是使用更好的工具(如 Git)来更有效地捕获研究出处的副产品。我认为构建以使研究“可重复”为主要目标的工具是一种失败模式。作为一个社区,我们应该专注于构建使人们的研究生活更美好的工具。最终,我相信随着个体研究人员从使用更好的工具中获益,以及我们开发用于共享更多研究成果的信用机制,研究将变得更加可重复。

在未来几年,您希望在 GitHub 上取得什么成就? 其他人如何参与进来?

正如我之前提到的,使学术合作更像开源合作是一个长期目标。Python 的 Fernando Perez 写了一篇精彩的文章,讲述了开源社区如何成功,因为他们以可重复性为核心基础。

有很多方法可以参与进来。如果您在研究过程中编写了一些代码,请考虑在 GitHub 或任何其他代码托管平台上分享它。当您分享时,我鼓励您做三件事

  1. 选择并应用许可证。
  2. 编写 README 标记。
  3. 编写一个“引导”任务,以使人们尽快了解您的项目。

更广泛地说,如果您是一位编写软件的研究人员,并且您想聊聊您的经验,请随时通过 arfon@github.com 与我联系。我很乐意交流。

标签
Marcus D. Hanwell
Marcus D. Hanwell | Marcus 领导 Open Chemistry 项目,开发用于化学、生物信息学和材料科学研究的开源工具。

2 条评论

非常有趣,Marcus,谢谢!

我认为您会对一些我遇到的最前沿的研究非常感兴趣,这些研究解释了众包、开放式创新和公民科学。

http://papers.ssrn.com/sol3/cf_dev/AbsByAuth.cfm?per_id=1919614

您可能也会喜欢这个关于相同主题的博客
https://thecrowdsociety.jux.com/

很厉害,不是吗?

很棒的链接,公民科学是一个非常有趣的领域,它既能赋能又能告知更广泛的社会。重要的是要找到更好的方法,让广大公众参与到科学传播和研究中。我希望通过开辟更多的沟通渠道,更广泛的社会将更好地理解科学的真正运作方式,并更倾向于参与以及考虑他们消费的信息的科学价值。

我为 Arfon 正在做的工作以及资助机构、基金会和更广泛社区中其他人的态度转变感到非常鼓舞。现在是参与科学研究的激动人心的时刻,我希望成为改进科学研究用软件质量的变革的一部分。我们需要建立社区,并找到可持续的方式来鼓励更多的开放性(数据、源代码、标准和出版/交流)。

Creative Commons License本作品根据 Creative Commons Attribution 4.0 国际许可协议获得许可。
© . All rights reserved.