现在毫无疑问,基因组学,即对生物体基因组的研究,以及包括确定生物体完整 DNA 序列的密集努力的领域,已经加入了大数据俱乐部。 高产的新型 DNA 测序技术的发展正迫使生物学家接受令人眼花缭乱的术语:太字节、拍字节以及即将到来的艾字节。
艾字节(源自国际单位制前缀艾-)是信息或计算机存储单位,等于一百万兆字节(短尺度)。艾字节的单位符号是 EB。—来自维基百科
由此产生的文化转变导致了一波移民潮涌入移液管和 PCR 管的领域;计算机科学家、物理学家和数学家带来了他们奇异而多样的分析专业知识。他们还带来了一种坚持开源范式的传统,这种传统最近在基因组学领域被资助机构和科学期刊的先决条件所采纳,即数据和软件应自由共享。
像 R/Bioconductor 这样涉及软件同行评审和发布的倡议的成功,为基因组学领域的年轻研究人员开发创造性的新解决方案提供了巨大的激励,这种富有成效的黑客行为需要在任何大数据领域中鼓励。
我们目前似乎正经历基因组学软件进化中的一个阵发性均衡时期。转变正在发生,从先前专注于解决特定分析任务的单个软件包,转向更全面的系统,这些系统将单个软件包组合为工作流程,同时管理数据和处理资源并捕获元数据。
虽然许多独立的倡议正在解决组件问题,但该领域仍然缺乏理想的完整系统,因此我们一直未能培养出对集成系统的不敬和创新方法,而秘密的、非官方的 秘密项目组 可以培育这种方法。简而言之,基因组学领域迫切需要一个信息生态系统。对这个完整系统——或生态系统——的要求很快就进入了宏大的领域。这个系统不仅要理想地解决基因组学挑战,还必须确保与数字生物学的其他领域(如蛋白质组学、代谢组学和成像)的互操作性,以便它们也能得到容纳。
我们还必须面对这样一个问题,即随着基因组测序从大型中心和核心设施转移到个体研究人员手中,服务于这些分析的硬件资源的异质性变得极端。开源项目能否满足所有这些庞大的需求?
Wasp 系统 软件项目是一项大胆的尝试,旨在为现代分子生物学创建一个基础软件生态系统。该设计在概念上很简单,基于一个内核,该内核在不同的用户、处理和数据资源之间进行协调,以及通过通用 API 连接的各种插件组件。Wasp 系统的架构在 Spring Framework 中构建,既模块化又抽象了 Spring 特有的许多操作功能,这有利于给定基因组学工作流程或任何工作流程的每个功能组件,使其非常模块化,以至于它可以解决所有基因组学需求,然后扩展到生物学中大数据生成的其他领域。
在纽约阿尔伯特·爱因斯坦医学院领导该项目的是 Andy McLellan,他因将剑桥大学分子生物化学博士学位与随后的软件开发和设计硕士学位相结合而与众不同。他做出了战略决策,使用 Java 的 Spring 框架开发 Wasp 系统软件,并考虑到开源开发。开发团队还包括爱因斯坦计算基因组学核心设施的负责人 Brent Calder,他已将基因组软件工具迁移到原始 Wasp 环境中,以自动化分子生物学同事的分析。他们基于 Perl 的原型系统专注于基因组学,已经运行了近 4 年,在这段时间内管理和处理了近拍字节的测序数据,并创建了在这个年轻领域中鲜有人能比的经验基础。
现在 Wasp 已经用 Spring/Java 重写,开发人员的目标是尽可能多地将其赠送给人们。最初的测试合作伙伴包括纽约的纪念斯隆-凯特琳癌症中心、加利福尼亚大学圣地亚哥分校和澳大利亚基因组研究机构。一旦“在野外”,开源方法至少部分依赖于志愿者充当管理员,但 Wasp 系统的维护计划更加明确地结构化,爱因斯坦小组称之为培育的开源模型。组件插件由社区用户开发以适应当地机构的需求,但由爱因斯坦小组测试其与最新 Wasp 软件版本的向前兼容性,可在 Github 上获得。
作为回报,为了使插件与 Wasp 向前兼容,参与开发的开发人员将其组件提供给整个 Wasp 用户社区,这种模型旨在快速扩展整个系统的功能。 Wasp 还解决了处理生成的数据可用的硬件资源日益多样化的挑战,再次利用了 Andy McLellan 和 Brent Calder 设想的基本设计。Wasp 的处理调度组件本质上与硬件实现无关,因此,它预测了未来云计算或网格计算的趋势。通过利用 Spring 的功能,可以构建分布式对等网络的基础,在该网络中,实例直观地共享和配置数据,并通过在 HPC 资源上启动适当的分析管道来响应数据生成,同时对计算和数据相关错误做出适当的反应。在这方面,Wasp 系统包含一个实时消息传递系统、一个响应式工作流程和管道系统以及一个 HPC 资产接口,这些系统围绕基因组学分析的最佳实践和更广泛的数字化生命科学中的大数据挑战而设计。
有了像 Wasp 这样强大而灵活的基础软件系统,应该随之出现的是基因组学黑客的沙箱,在这里可以调整管道组件,并开发和实施创新的可视化工具。爱因斯坦小组的一个主要重点是鼓励使用 Wasp 来托管这种秘密项目组。
目标是使用 Wasp 来培养目前在使用更僵化或范围更有限的系统时不可能实现的那种对传统的漠视。 通过这种方式,我们可以希望克服大数据挑战,并在当前由空前强大的 DNA 测序技术解锁的基因组学发现时代蓬勃发展。
评论已关闭。