开源生物信息学数据平台获得学生黑客的帮助

图片来源：

Opensource.com

Bio4J 入选了今年的 Google Summer of Code 2014，这个夏天开始的项目在 Era7 Bioinformatics 团队数月的工作后，最近取得了巨大的成功。

在 Era7 Bioinformatics，我们是一家专注于序列分析、知识管理和测序数据解读的生物信息学公司。我们的使命是帮助客户从他们的下一代测序项目中获得最大价值。而且，Bio4j 是我们高性能、云端支持、基于图形且开源的生物信息学数据平台，集成了最具代表性的开放数据源中可用的蛋白质信息数据。它集成了 UniProt KB (SwissProt + Trembl)、基因本体论 (GO)、UniRef (50, 90, 100)、RefSeq、NCBI 分类和 Expasy Enzyme DB 中可用的数据。当前版本拥有超过 2,000,000,000 个关系、400,000,000 个节点和 1,000,000,000 个属性。Bio4j 为蛋白质相关信息的查询和管理提供了一个全新的强大框架。由于它依赖于高性能的图形引擎，因此数据的存储方式在语义上代表了其自身的结构。相反，传统的关系数据库必须将它们表示的数据扁平化为表格，创建人工 ID 以连接不同的元组；在某些情况下，这最终可能导致领域模型与数据的实际结构几乎无关。

如果您不熟悉成功且受欢迎的 Google Summer of Code (GSoC) 计划，这是一个拥有 10 年历史的全球计划，为各个领域的领先开源项目提供资金。资金直接提供给学生，以帮助他们为选定的开源项目创建新功能或改进。为了庆祝今年计划的成功，谷歌于 10 月 23 日至 26 日在其总部组织了一次会议，并邀请了每个成功参与组织的代表进行问候和协作。两位 Era7 Bioinformatics 代表参加了在谷歌山景城办事处举行的活动，并积极参与了谷歌组织的各种活动。

Era7 Bioinformatics 首席执行官 Eduardo Pareja 说：“这个项目为我们的 Bio4j 平台提供了一个绝佳的机会，使其成为一个更有用和更有价值的工具，我们将其用于 BG7 和 Genome7 等众多管道和服务的底层。”。“部分基于这些改进，我们现在可以提供量身定制的基于 Bio4j 的服务，供其他方在其生物信息学解决方案中使用，”Pareja 博士补充道。

这是 Bio4j 首次作为 GSoC 组织参与，并负责指导三名学生进行这些项目

Dynamograph，一个基于 DynamoDb 的简单图形数据库，提供持久化和检索以图形结构组织的数据的可能性。

Bio4j Graphml/GraphSON 导出器，一个用于 Tinkerpop3 的 Gremlin Console 的插件，提供在 Bio4j 的领域特定语言和 :bio4j 控制台命令中实现的 Traversal Steps。:bio4j 命令允许您将以 Gremlin 图形查询语言或 Bio4j DSL 表示的查询导出为 GraphSON 或 GraphML 格式。

GSoC 2014 el-grafo 项目，第一个交互式基于 Web 的工具的开发，该工具允许用户直观地探索 Bio4j 开源生物信息学数据平台的抽象领域模型。

标签

教育