Ross Mounce 是 巴斯大学 的博士后研究员,研究化石在系统发育学和系统发育信息学中的应用,去年在巴斯大学完成了他的博士学位。Ross 是首批 Panton 院士之一,并且是 开放知识基金会 的活跃成员,特别是 开放科学工作组。他是开放科学的倡导者,并且积极致力于内容挖掘学术出版物,以在元分析中重用科学研究,从而获得对进化模式的更高级别见解。
在我的“开源职业周”采访中阅读更多内容。
您能给我们简要概述一下您的研究吗?
我目前的研究领域是系统发育信息学,我是巴斯大学 Wills 小组 的博士后。我从学术文献中提取已发表的 进化树 和其他进化数据,并对数百篇甚至数千篇论文中的这些信息进行元分析和综合,以获得对不同物种群体的进化模式的更高级别见解。从已发表的文献中将这些数据重新变为可重用、可重新计算的形式,是我们项目迄今为止最艰巨的挑战。作为 BBSRC 资助的 PLUTo 项目(系统发育信息学文献解锁工具)的一部分,我正在与 Peter Murray-Rust 和 ContentMine 团队合作开发软件工具和方法,以帮助自动化从文献中查找和提取系统发育数据的过程。
这在某种程度上是一个大海捞针的问题;在过去的十年中,有 10 万多篇论文发表了系统发育学,分布在 1000 多种期刊上,每年发表的文章超过 200 万篇!
在巴斯大学,我们甚至没有合法访问所有我们知道包含系统发育数据的期刊的权限。一旦找到数据,通常必须从出版物中提供的图形图像中重新解释数据。在 2010 年包含系统发育分析的已发表研究中,只有 约 4% 的研究 提供了机器可读、可重用的结果数据。这种“数据贫乏”的情况在许多科学领域都很常见,并且是由传统的期刊出版系统促成的——大多数期刊仍然没有强大的数据共享要求。
为什么开放科学、开源和开放数据对您很重要?
开放科学对于加速发现步伐和学术研究的持续资助至关重要。至少 80% 的学术研究是由公共或慈善机构资助的。因此,显而易见的是,研究应该以最大化投资回报的方式进行;鼓励共享、重用和协作为了整体收益。“封闭”科学中,较少人可以阅读出版物(它是付费墙),并且原始作者组之外的任何人都不可以重用数据或用于生成结果的代码。封闭科学模式导致效率低下、进展缓慢、难度加大。研究人员可能会忽略同行的论文,仅仅是因为他们无法访问这些论文。同样,研究人员浪费了大量时间和资源来重新生成相同的数据或软件功能,因为其他研究人员没有/不愿意共享原始数据/代码。
在开放科学模式下,出版物向所有人开放以供阅读和发现,同样,数据和代码也向所有其他人开放以供立即重用。对我来说,如果科学更频繁地在开放模式下运作,那么科学将更快地进步,这一点很清楚。
在个人层面上,开放科学对我来说意义重大。我花了大部分博士研究时间从学术 PDF 中抓取数据,或通过电子邮件联系作者(但很少得到有用的回复)以获取他们已发表的数据副本。这令人非常沮丧。我没有做“科学”,而是在做乏味、重复但高度手动的简单任务。如果作者按照长期建立的数据格式发布了他们的数据以及他们的论文,那么我可以更有效地利用我的时间进行重新分析并扩展我们的知识范围。我与我的同行交谈,发现他们也有这些问题;这种巨大的低效率在我们的社区中不知何故是“正常的”。因此,我在 2011 年与我的朋友们写了一封公开信,强调这种浪费现象,并鼓励智能数据存档,并且 《自然》新闻 写了一篇关于它的报道,这有助于将其传播到古生物学界。从那时起,像 http://morphobank.org/ 这样的数据库的贡献率更高,但总体问题仍然存在:相对于书面出版物而言,数据在很大程度上仍然是二等公民。
您是首批 Panton 院士之一。这意味着什么?这如何改变了您的职业生涯?
Panton 院士奖学金 由 开放知识基金会 竞争性地授予研究生和早期职业研究人员,他们的目标是授权院士在他们的研究领域推广开放数据。成功的项目拥抱 Panton 科学开放数据原则,简而言之,该原则承认
科学建立在对已发表的科学知识体系进行构建、重用和公开批评的基础上。为了使科学有效地运作,并使社会从科学努力中获得全部益处,至关重要的是使科学数据 开放。
我的院士奖学金给了我强烈的使命感,让我对数据在我的学科中可用的方式的幻灭感做一些积极的事情。它过去是,现在仍然是我简历中的一个亮点。该奖项的认可以及经济和道义上的支持使我有信心在许多不同的会议上公开谈论与开放数据相关的问题,将这些问题带给科学家受众,否则他们可能不愿意听取任何不是狭隘的、主题相关的学术研究的内容。院士奖学金让我意识到了政策制定和政策影响的重要性,这在传统学术界通常被忽视。事实上,我在欧洲委员会 (EC)“欧洲许可证”文本和数据挖掘工作组会议上发表了 最受欢迎的演讲,向欧盟委员会提供证据,说明欧洲研究人员在这种类型的研究中面临哪些挑战和困难。如果不是 Panton 院士奖学金,我永远不会参加这次会议,也不会参加许多类似的会议,从而对研究政策产生积极影响。
院士奖学金也改变了我的学术研究方向。与我的院士奖学金的导师之一(Peter Murray-Rust)和我的博士生导师(Matthew Wills)一起,我们三个人写了一份非常 开放科学式的资助提案,以解放和使埋藏在文献中的数据再次可重用,该提案获得了成功,这也是我现在在我的第一个博士后项目 PLUTo 项目中正在做的事情。
作为一名科学家,开放对您意味着什么?其他科学家如何才能更开放?
采用 开放 的正式定义,无论是在科学领域还是在科学领域之外,例如 开放定义
“如果任何人都可以自由使用、重用和再分发一段数据或内容——最多仅受限于署名和/或共享类似的义务。”
在科学的背景下,这意味着只有当学术出版物根据符合 OKD 的开放许可(例如 知识共享署名许可 或 知识共享零放弃声明)获得许可时,它们才是 开放获取 的。同样,只有当数据根据符合 OKD 的许可明确许可,或者以其他方式明确不受版权保护时,数据才是 开放数据。
对 开放 的定义如此精确似乎很繁琐,但这确实很重要。我为 PLUTo 项目挖掘的图形图像显然受版权保护,即使它们包含不受版权保护的数据。我可以在 Flickr 上此处 重新发布开放许可的进化树图形,这使我的研究过程更易于访问(不那么枯燥!)并且更易于搜索。我可以获得社区辅助的内容标记和查看指标来证明影响。
但是,未在开放许可下发布的科研图形无法/不能获得这种待遇,而且我目前在我的硬盘驱动器上存放了更大的这些图形集合。我根本不允许分享它们,即使整个集合如果公开在线发布,对社区会更有用。出版商施加的限制意味着我可能只能重新发布我发现的相关图形的 10%。
科学家自身可以从进行开放学术研究中获得一切好处,并且有一些 非常简单的步骤 可以朝着这个方向迈进,即:发布预印本,并将您的机构或学科存储库用于 所有 您的研究成果(特别是包括代码和数据,而不仅仅是出版物)。证据表明,开放获取出版物 和 提供开放数据的出版物 都具有明显的引用优势,因此,进行开放学术研究确实符合个人的利益。
您是否看到未来与开源社区进行更多互动的空间?
当然。开源现在在我的科学领域(生态学、古生物学、系统发育学)中显然是“获胜者”。像 R 这样的开源软件和像 Python 这样的编程语言非常流行。像 GitHub 这样的在线平台几乎单枪匹马地改变了学术文化,通过 git 的使用,让许多科学家首次使用适当的分布式版本控制系统。我甚至帮助 在 GitHub 上撰写了一篇学术论文!对于开放科学及其与开源社区的交叉点来说,这是一个非常激动人心的时刻。
评论已关闭。