没有开放,我们就无法进行现代科学

目前还没有读者喜欢这个。
Open science rocket and beaker

Opensource.com

开放 是关于分享和协作。它认为“我们”比“我”更强大、更有价值和更令人满意。 我不能保证工作机会,但我知道 开放 变得非常重要。 政府和资助者正在推动 开放 议程,尽管学者们通常对此不感兴趣或严重以自我为中心。

一些政府和一些公司认识到团队的价值; 而学术界和学者通常不这么认为。影响因子的虚假价值和学术出版的虚假价值意味着 开放获取 无法真实反映 开放,或者您可能认识到的 开源之道

我第一次开始思考代码重用是在 1980 年,当时我开发了一种将晶体学数据作为研究工具进行重用的方法。 晶体以数万篇单独论文的形式发表;我的愿景是,通过将所有这些论文结合在一起,我们将发现能够展示新科学的模式。 特别是,我和我的合作者表明,不同环境中的晶体快照 可以提供有关振动甚至化学反应的信息。 我用 FORTRAN IV 编写了大量软件。 它建立在 Sam Motherwell 强大的 CONNSER 和 GEOM 包的基础上。 我建立在大量的统计和分析工具之上,我们一起发表了论文。

然后,我进入制药行业,将这些想法用于药物发现,并将该软件捐赠给了一个组织,前提是如果他们想开发它,他们会联系我,我们将共同合作。 这并没有发生。 那时还没有许可证,没有 RMS,也没有人担心所有权。 该软件被纳入他们的系统,我的名字也被删除了。 我甚至参加了一场讲座,他们将其作为自己的成果展示。 我现在已经克服了,但我学到了教训。


查看开源职业周的完整文章集

代码非常复杂,我意识到必须有一种更好的方法,我们可以编写可重用的模块。 我对 NAG 印象深刻,并将模块化方法作为核心。 在化学中很难做到这一点,因为不清楚什么是基本原理。 你可以编写一个矩阵对角化器,因为它很清楚输入和输出是什么,但计算分子质量不太清楚(它比看起来更难——记住同位素!?) 所以我在 1990 年开始用 FORTRAN 编写一套可重用的例程。 在那个阶段,我还在伯克贝克学院开设生物和化学信息学晚间讲座,并将这些模块提供给学生。 问题是语言在不断变化,所以我使用 f2c 将它们转换为 C(它有效,但不要看生成的代码!)。 然后,我发现了 tcl/tk,并因为它有图形而喜欢它——此后不久,我就被 Sun Microsystems 的销售人员发现了。

他们找到我仅仅是因为我比其他人更显眼。

1994 年,Henry Rzepa 和我开发了 Chemical MIME——这是一个开放项目(尽管没有正式标记),我们在六周内生成了一个席卷网络的化学模因。 它依赖于开放程序 RasMol 和 Mage,我们可以自由分发它们以在浏览器中运行。 Chemical MIME 是理想的开放项目:开放规范、开放软件,以及足够多的开放分子来赋予它 WOW 因子! 这种可见性给了我第一份(兼职)咨询工作,并在我离开葛兰素后维持了我的生计多年。 与此同时,我和 Alan Mills 在网络上开设了第一个多媒体课程(1995 年),蛋白质结构原理。 我们在 BioMOO 和 Globewide Network Academy 的衍生版本中运行它; 它们都是源于 LambdaMOO (Pavel Curtis, Xerox) 的完全开放的项目。 PPS 展示了社区的价值,我们在课程中有 250 名志愿者/学生(我们没有区分)。 并且,PPS 让我获得了第二份工作,即诺丁汉的兼职药学教授,负责建立虚拟教育。

我们都很乐观,认为它会迅速发展,但我们没有意识到教育是极其保守的,并且必须映射到现实世界的约束中。 对我来说,在 1993 年,万维网正在发生转变,因为没有任何障碍。 它孕育了开放的系统、来源和协议。 它们非常普遍,你不会考虑它们。 我们没有意识到 Tim Berners-Lee 对开放的力量有多大。 当我在研究、咨询和黑客的组合职业生涯中旋转时,我能够维持生计并发展我的想法。 这对我来说效果很好,因为其中一些想法需要 20 年才能建立起来,并且社区才能意识到它们。 (这并非傲慢,许多网络协议,如 MathMLSVGRDF 都有断断续续的开始,但现在已成为主流。)

我非常积极地参与了 XML,并运行了 XML-DEV 邮件列表——它每年有 10,000 封电子邮件,是社区开发 XML 的基础。 我最自豪的是 SAX 协议,它完全是在列表中用 4 周时间开发的。 所有这些 XML 不仅为 化学标记语言 (CML) 奠定了基础,而且还导致了在伦敦与 JB 的咨询,提供 XML 培训。 运行课程可能很辛苦,但足以从中谋生。(这是我的第三份工作。)然后,我看到了 剑桥化学 (Unilever Centre) 中的网络基础设施的广告,其中一个支柱是培训。 由于我的经验,我能够创建和提供培训课程,这导致我在该部门获得任命(这是我的第四份工作)。

剑桥为我提供了巨大的资源(尤其是通过 Tony Hey 在南安普顿运营的 2.5 亿英镑的 eScience 计划)。 我为自己设定了构建人工智能 (AI) 化学家的目标(尽管我对此并没有大肆宣传)。 它将基于我已经构建了 10 年的知识和代码模块。 我开始自己用 Java 构建它。 我到了一个阶段,我使用 Java3D 添加了图形。 Java3D 非常糟糕; C 代码和封闭二进制文件的包装器。 它消耗了我太多时间。 我之前使用过 XMol,它是 Dan Gezelter 的分子查看器,在 X windows 下运行。 在那个阶段,它相当基础,而 Java 是一种更好的方法。 然后,我注意到了 Jmol 的出现,它是 Java 的端口。 我突然想到:“如果我不尝试与 Jmol 竞争,我可以做我真正想做的事情(化学语义)。” 所以,我决定放弃我的代码并在那个阶段链接到 Jmol。

这在事情的安排中是一个非常重要的决定。 虽然我通常公开行动,但我并没有真正意识到开源之道 在许可和承诺方面。 但是,我在这时意识到了这一点,并开始寻找其他代码库进行链接。 统一的架构是化学标记语言。 CML 旨在以语义形式支持大多数化学。 因为我正在与其他代码组(CDK、Bioclipse、Jmol、JSpecview、OpenBabel 等)合作,所以他们采用了 CML。 这是一个巨大的社区胜利,超过了任何商业制造商所能实现的。

没有人会为竞争对手编写代码,但许多人会编写代码以与合作者互操作。 我们开始相互了解,并在 2005 年,我们大多数人在圣地亚哥 美国化学学会 (ACS) 的蓝色方尖碑下会面。 我建议我们形成一个紧密的非正式社区,标签为 蓝色方尖碑,并且我们采用这样的口号:开放数据、开放标准、开源 (ODOSOS)。 我们有一个邮件列表,并且我会不时购买蓝色方尖碑作为对公开有价值的贡献的奖励。 有一个相互操作的共同协议,但没有自上而下的控制。 它只是以自己的方式和自己的速度发生。 我们回顾了 5 年,并且有 20 个小组撰写了论文,这对于一个非常保守的学科(化学)来说是一项了不起的成就,在化学中,成熟的公司比创新更受重视。

人工智能化学家呢? 我没有想到的是,我无法建立在知识的基础上,因为既得利益者会聘请律师来阻止它。 主要的数据“所有者”会奋力阻止数据的重用。 当维基百科想要使用 CAS 注册号时,他们收到了 ACS 的法律信函。 当 NIH 开发了一个免费的化学信息数据库 (PubChem) 时,ACS 游说国会将其关闭。 所以,我开发了从科学文献中提取事实的工具; STM 出版商正在向布鲁塞尔投入资金和游说者来阻止它发生。 毫不奇怪,我现在被称为开放积极分子(参见我的维基百科条目)。

没有 开放,我们就无法进行现代科学。 而且,我正在寻找盟友。

去年,我申请了 Shuttleworth 基金会奖学金(我们为处于社会变革前沿的充满活力的领导者提供资金。) 并且,在 2014 年 3 月,我获得了奖学金(这是我在开源领域的第五份工作)。 无论出版商是否喜欢,我们都将从文献中提取 1 亿个事实,因为我们已经修改了法律。

对于我的学术同行来说,问题是:开源能给你带来工作吗? 我的回答是:单靠它可能不会让你获得讲师职位,但我所有的团队成员都能够在高科技行业或科学领域找到好工作。 我认为开源方式的公开曝光有所帮助。 我为他们感到非常自豪。

查看开源职业周的完整文章集。

User profile image.
Peter Murray-Rust | Peter 是一位化学家,目前在剑桥大学工作。 除了他在化学领域的工作外,Murray-Rust 还以其对开放获取和开放数据的支持而闻名。

评论已关闭。

Creative Commons License本作品采用知识共享署名 4.0 国际许可协议进行许可。
© . All rights reserved.