Bio4J 入选了今年的 Google Summer of Code 2014,这个夏天开始的项目在 Era7 Bioinformatics 团队数月的工作后,最近取得了巨大的成功。
在 Era7 Bioinformatics,我们是一家专注于序列分析、知识管理和测序数据解读的生物信息学公司。我们的使命是帮助客户从他们的下一代测序项目中获得最大价值。 而且,Bio4j 是我们高性能、云端支持、基于图形且开源的生物信息学数据平台,集成了最具代表性的开放数据源中可用的蛋白质信息数据。它集成了 UniProt KB (SwissProt + Trembl)、基因本体论 (GO)、UniRef (50, 90, 100)、RefSeq、NCBI 分类和 Expasy Enzyme DB 中可用的数据。当前版本拥有超过 2,000,000,000 个关系、400,000,000 个节点和 1,000,000,000 个属性。Bio4j 为蛋白质相关信息的查询和管理提供了一个全新的强大框架。由于它依赖于高性能的图形引擎,因此数据的存储方式在语义上代表了其自身的结构。相反,传统的关系数据库必须将它们表示的数据扁平化为表格,创建人工 ID 以连接不同的元组;在某些情况下,这最终可能导致领域模型与数据的实际结构几乎无关。
如果您不熟悉成功且受欢迎的 Google Summer of Code (GSoC) 计划,这是一个拥有 10 年历史的全球计划,为各个领域的领先开源项目提供资金。资金直接提供给学生,以帮助他们为选定的开源项目创建新功能或改进。为了庆祝今年计划的成功,谷歌于 10 月 23 日至 26 日在其总部组织了一次会议,并邀请了每个成功参与组织的代表进行问候和协作。两位 Era7 Bioinformatics 代表参加了在谷歌山景城办事处举行的活动,并积极参与了谷歌组织的各种活动。
Era7 Bioinformatics 首席执行官 Eduardo Pareja 说:“这个项目为我们的 Bio4j 平台提供了一个绝佳的机会,使其成为一个更有用和更有价值的工具,我们将其用于 BG7 和 Genome7 等众多管道和服务的底层。”。“部分基于这些改进,我们现在可以提供量身定制的基于 Bio4j 的服务,供其他方在其生物信息学解决方案中使用,”Pareja 博士补充道。
这是 Bio4j 首次作为 GSoC 组织参与,并负责指导三名学生进行这些项目
Dynamograph,一个基于 DynamoDb 的简单图形数据库,提供持久化和检索以图形结构组织的数据的可能性。
Bio4j Graphml/GraphSON 导出器,一个用于 Tinkerpop3 的 Gremlin Console 的插件,提供在 Bio4j 的领域特定语言和 :bio4j 控制台命令中实现的 Traversal Steps。:bio4j 命令允许您将以 Gremlin 图形查询语言或 Bio4j DSL 表示的查询导出为 GraphSON 或 GraphML 格式。
GSoC 2014 el-grafo 项目,第一个交互式基于 Web 的工具的开发,该工具允许用户直观地探索 Bio4j 开源生物信息学数据平台的抽象领域模型。
1 条评论