OSCON 2012:Kaitlin Thaney 呼吁开放科学

还没有读者喜欢这个。
open source button on keyboard

Opensource.com

在最近的 OSCON 2012 大会上,Kaitlin ThaneyDigital Science 的外部合作关系经理,在她的演讲中分享了一种全新的科学研究方法。她的观点为许多研究领域的停滞提供了一条出路,在这些领域中,奖励系统(研究人员如何因职位、加薪和晋升而受到评估)和资金经济学阻碍了研究人员与更广泛的社区和公众公开分享他们的数据和工具。

以下是她演讲中的一系列引人注目的引言

我们仍然在处理一些甚至从 16 世纪遗留下来的过时原则...

Thaney 指的是科学出版中仍然使用的倒退做法,尤其是在科学论文的形式和内容方面。当世界其他地方拥抱互联网时,绝大多数科学出版物仍然使用这种格式:10 页单倍行距的写作,偶尔会有图形、图片和表格。总的来说,它是静态的,并且在使任何人能够正确评估这项工作的能力方面完全不足,更不用说尝试复制它了。

我们被锁定在旧机制中,当您考虑科学如何获得奖励时,这种情况下的金券仍然是科学论文。回到 1665 年,在纸上写下一些东西,并以这种方式传递知识的概念...

万维网是在欧洲核子研究中心发明的,其明确目的是加速科学信息的传播和共享,这真是莫大的讽刺。当然,也有一些进步的期刊,例如 PLoS ONE,它们已经接受了在线富媒体出版物的想法,但绝大多数科学界仍然停留在 18 世纪的出版实践中。

“……传统之所以能够延续,不是因为它们很优秀,而是因为有影响力的人不愿改变,而且因为过渡到更好状态的负担太重。”  

—卡斯·桑斯坦

当谈到我们本应拥有的未来时,[应该是]“我的喷气背包在哪里?” 我的日常是:“我的数据在哪里?”……当谈到学术研究时。

Thaney 暗示人们意识到,我们十年前对未来的一些期望并未实现。我们当然没有喷气背包来通勤上班,也没有车库里的飞行汽车,也没有药丸晚餐。然而,当谈到学术研究时,错失的未来归结为基本原理。我们仍然不跨研究小组共享数据(除了一些罕见的亮点案例),更令人担忧的是,在许多情况下,研究人员不知道他们自己的数据在哪里,当然也不知道他们去年运行的实验的数据。

一些最昂贵的研究是由便利贴和注释不佳的 Excel 电子表格管理的...

Thaney 强调了一个事实,即极少数实验室拥有系统的修订控制系统来存储和分类他们自己的数据,甚至更少的人拥有正式的数据库或数据库和实验室信息系统的组合。即使在系统数据管理的罕见情况下,数据也无法在捕获数据的组织外部共享。在缺乏如此基本的数据工具的情况下,Thaney 提出了一个基本问题

我再现实验的能力在哪里?

对于科学过程的任何外部观察者来说,这可能令人惊讶,但不幸的现实是,大多数实验室都无法复制他们自己的实验,更不用说促进其他人复制这些相同的实验了。Thaney 正确地指出了问题的根源:学术界的激励机制与他们发表的论文数量有关,而不是与研究的实际相关性有关,也不是与他们的成果可以被独立小组复制的程度有关。研究人员被要求具有新颖性,而不是结果的正确性。这样的结果是,大约 90% 的科学论文无法重现

从核心来看,资助机构、科学出版商和学术机构混淆了研究人员的职业与发明家的职业。他们使用为发明家保留的指标来评估他们的研究人员,将科学工作者变成了“论文作者”,阻止研究人员成为他们本应成为的人:发现的推动者。

科学家可能真的是固执的人,如果激励机制不存在,你就不会看到行为上的采纳……[科学]是我们拥有的最重要的事业之一,现在是时候重新定义绩效了。

通过将开源社区的标志——开放性、透明性、精英管理和可重复性——应用于这些问题,我们有机会在科学研究中恢复 科学方法

Thaney 今天在 Digital Science 所做的工作重点是提供工具,使研究人员能够在日常工作中恢复可重复性的实践,与同行和公众共享数据,并加速所有人的研究和发现。

User profile image.
Luis Ibáñez 在芝加哥的 Google Inc 担任高级软件工程师。

3 条评论

90% 是一个非常令人警醒的统计数据……我知道情况很糟糕,但我不知道情况竟然<em>那么</em>糟糕。

一件有趣的事情是,在我攻读博士学位的第一年,没有人明确向我说明研究中可重复性的重要性。虽然这可能是由于我所在的学科(计算机科学不像教育那样进行“实证研究”),但仍然感觉在最有可能撰写这些论文的研究生培训中缺少了一些东西。

我很想看到一些 NSF 拨款用于建立和填充可公开访问的科学研究数据库。也许如果可以引诱(或胁迫)拨款申请人将开放数据发布作为资助的条件,我们可能会看到更多数据出现。

Barry,

你提出了一个非常好的观点,我完全同意你的看法。

问题的主要根源之一是可重复性不是博士培训的正式组成部分。令人难以置信的是,受训的研究人员没有接受科学方法基础知识的教育。他们很少有人上过形式认识论课程或实验设计课程。

相反,他们接受了关于“不发表就灭亡”的误导和腐败文化的非正式错误教育,这仅服务于出版商的商业模式,并且根本没有回报社会大众对科学研究的经济投资。研究生从那些善意但被误导的导师和同龄人那里获得的免费“职业建议”中了解了这种“你必须发表……否则”的腐败做法。这形成了一个恶性循环,在这个恶性循环中,个人和机构声誉被培养成确保未来研究资金的一种方式。

有一个可重复研究运动正在努力提高人们对这种脱节的认识,并开发工具以将可重复性带回科学研究的主流实践中。

例如,本月出版的 IEEE Computer 致力于

“可重复研究”
https://#/blog/home/post/358
http://www.computer.org/csdl/mags/cs/2012/04/mcs2012040011-abs.html

大多数会议和期刊都没有将可重复性验证作为其审查过程的一部分的要求。与大多数学术出版领域一样,他们痴迷于“新颖性”(他们把自己与专利局混淆了),并且很少关注出版物的内容是否真实以及是否有效。(请参阅最近关于科学出版物欺诈的丑闻:http://www.anesth.or.jp/english/pdf/news20120629.pdf,其中一位研究人员设法伪造了 172 篇论文...)

摆脱这种可悲境地的两个关键要素是

a) 对下一代研究人员进行科学方法真谛的教育。

b) 为他们提供开放工具,以便他们轻松地将可重复性融入日常工作中。

对可重复研究的要求必然导致开放科学(开放数据、开源软件、开放获取出版物),因为独立小组为了验证已发表工作的可重复性而需要做的第一件事是访问完全描述论文中提出的工作的数据、软件、参数和报告。

以下是 Victoria Stodden 关于这些问题的两次有趣演讲

“可重复研究:数字管理议程”
http://www.youtube.com/watch?v=zJ-UxoiGSJM

“2011 年开放科学峰会主题演讲”
http://www.youtube.com/watch?v=sZIxzTsvWhw&feature=relmfu

有人说,开源是将科学方法应用于软件工程领域的应用。奇怪的是,开源社区回馈科学研究的时候到了,并帮助恢复可重复性在科学中的应有地位。

另请参阅最近发表在《生态与进化趋势》中的信件 <a href="http://www.cell.com/trends/ecology-evolution/fulltext/S0169-5347%2812%2900074-2">让四项自由范式适用于生态学</a>:<em>“……明确使用免费和开源软件 (FOSS) 并提供代码对于完全开放的科学至关重要”。</em>

Creative Commons License本作品根据知识共享署名-相同方式共享 3.0 未本地化许可协议获得许可。
© . All rights reserved.