通过 openSNP 分享您的基因故事

图片来源

Opensource.com

一旦你掉进家谱的兔子洞，就很难找到回去的路。我的旅程始于我的祖父，一位小儿麻痹症幸存者，他坐着轮椅，晚年开始接触电脑。他的爱好之一是研究他的祖先，他用来收集研究成果的工具是 Brøderbund 的 Family Tree Maker。我被他用喷墨打印机打印出来的图表和表格所吸引，但我没有耐心进行所有的数据输入。

快进二十年，我们有了围绕家谱数据构建的软件和社交网络。与他人共享数据的便利性意味着很可能其他人已经找到了您正在寻找的东西。毕竟我们都彼此相关。

现在，有了像 23andMe 和 deCODEme 这样的个人基因组学服务，我们可以寄出一个沾有唾液的棉签，更密切地探索我们的基因联系。如果我们开放并与他人分享这些基因数据，我们就能发现很多关于人类表型的信息：我们的身高、眼睛颜色以及对某些食物的偏好如何将我们联系起来并塑造我们的生活和健康。

openSNP 是一个非营利性的开源 Web 应用程序项目，允许用户进行消费者基因型测试并上传原始数据，以便所有人都可以访问。该工具解析和注释数据，并允许用户与他人共享。我花了一些时间与该项目的创始人之一 Bastian Greshake 聊天，了解他为什么启动 openSNP，该项目使用了什么技术，以及他们如何在让用户注册之前积极尝试吓跑他们。

请告诉我们该网站背后的故事。我了解到您对 23andMe 测试中可用的数据感到沮丧，并希望更完整地探索它。是什么促使您创建了这个项目？

沮丧绝对是这里的正确词语。早在 2011 年我通过 23andMe 进行基因分型时，几乎没有可能发布您的数据。我做的第一件事就是将其发布到 GitHub 上，其他人也做了类似的事情。但随后您最终得到的数据分布在 GitHub、Google Code、个人博客以及谁知道的其他地方。搜索这些数据集花费了很长时间，它们没有用表型进行注释，最后，这不值得花费时间。

那时我联系了共同创建者 Philipp Bayer，并询问了他对做一个小型副项目的看法，该项目允许人们将他们的基因数据发布到一个不仅易于搜索，而且还为标准化数据访问提供 API 的存储库中。

您能否详细说明一下解析和注释数据所涉及的技术类型？

openSNP 使用的主要技术是 Ruby on Rails。当我们开始从事该项目时，Philipp 和我已经在我们仍在学习时分别从事的不同项目中获得了一些经验。

目前，23andMe 数据的解析也是使用 Ruby 完成的，数据存储在 Postgres 数据库中。解析作业的管理（以及所有其他后台作业）是使用 Sidekiq 完成的，Redis 用于消息队列。我们的搜索后端由 Solr 提供。我们使用 New Relic 和 Errbit 监控错误和性能。

对于注释数据，我们主要依赖于不同服务的 JSON 和 XML API：SNPedia API、Mendeley API 和 PLOS API。我们还定期从 genome.gov 和 Personal Genome Project 下载所有 SNP 注释。

因此，从技术角度来看，openSNP 真的是一个混合体，这可能在好的方面具有挑战性，因为您可以及时了解许多技术，但在坏的方面也具有挑战性，当事情崩溃时。

除了满足好奇心之外，像 openSNP 这样的工具还能提供什么好处？

这真的取决于用户的角度。我认识很多人，他们作为个人使用 openSNP 进行私人研究。假设您患有一种罕见疾病，可能与遗传有关。openSNP 允许您寻找其他与您有相同症状的人，然后如果您愿意，您甚至可以比较您的基因构成。这样它也具有社交性，因为有共同症状的人可以彼此联系。

然后，还有大学里的教师开设人类遗传学课程。通过 openSNP，他们有机会使用真实数据进行研究。

另一方面，您有研究人员非常热衷于使用通过 openSNP 提供的数据进行他们自己的研究。虽然在过去的几年里，基因分析的成本已经超过了摩尔定律，但在许多情况下，创建大量数据仍然非常昂贵。这就是为什么开放数据为生物医学带来了如此巨大的希望。虽然仅 openSNP 托管的数据仍然不足以进行大规模研究，但它很好地证明了人们分享意愿的原则。

该网站上的免责声明非常直截了当。完全没有隐私或匿名性。您将如何与担心隐私的人沟通，并说服他们 openSNP 的好处？
简而言之：我们不会。我们故意吓跑人们。我们的目标不是说服人们分享他们的数据。关于与公共领域分享基因数据，存在许多合理（也可能有一些不太合理）的担忧。像电影千钧一发这样的反乌托邦愿景很容易浮现在脑海中。我们不希望任何人后悔通过 openSNP 分享数据的决定。

因此，我们陈述了我们认为最坏的情况。如果您仍然愿意分享您的数据，尽管存在这些风险？那太棒了，感谢您的分享。您正在为一个将对许多未来的人有用的项目做出贡献。但如果您不完全确定自己想这样做？对这个想法感到不舒服并有丝毫怀疑？请，只是不要这样做。我们不会评判您。有些人可能认为风险可以接受，而另一些人则不认为，这有很多原因。

对于那些有兴趣研究其家谱或基因型的人，还有其他开源工具吗？是否有任何工具需要开源替代方案？

Ian Logan 一直在开发一个程序，用于分析 23andMe 和 Family Tree DNA 文件中的稀有等位基因。

如果您喜欢开源编程语言 R，那么这里有一个关于使用 Bioconductor 分析您的 23andMe 数据的教程。

PLINK v2 支持 23andMe 文件，但它是一个运行全基因组关联研究的工具，对于仅进行单次基因分型来说不是很有用。

这个脚本可以将 23andMe 文件转换为通用的 VCF 格式。然后可以将 VCF 文件输入到常见的 SNP 分析工具中，例如 SNPEff，它可以提供关于每个 SNP 影响的非常详细的基因到基因的报告。

并且这里有一个关于更多工具的概述。

在日常实践中，您还以其他方式使用开源软件或理念吗？

作为生物信息学的博士生，我想说我日常工作中使用的软件约有 95% 是开源的。现代研究的标志之一是您的工作和发现需要是可重复的。如果您实验室中的某些东西运行良好，但其他人无法观察到相同的结果，那是不够好的。例如，看看最近的 STAP 干细胞争议，其中没有人能够复制结果。

同样，使用闭源软件进行分析也是不够好的。您无法检查其正确性，也无法确定您观察到的酷炫结果是否仅仅是由于一些随机错误造成的。如果结果在不同的软件版本之间发生变化，而您又找不到原因，情况会变得更糟。因此，能够自己查看代码至关重要。

openSNP 在 GitHub 上。您喜欢 GitHub 的哪些方面？您是否看到过有人用您的源代码做过什么有趣的事情？
整个项目都是在 GitHub 上启动的，因为 Philipp 和我相隔大约九个时区，需要一种简单的方法来协作这个项目，即使我们不能亲自见面。我们都在早期的项目中使用过 git 本身。GitHub 吸引我们的是它可以轻松跟踪问题和错误以及评论提交。

从我所看到的，没有太多人将我们的源代码用于任何用途。但 GitHub 的社交方面无疑帮助我们提高了知名度，并吸引了为该项目做出贡献的人。最活跃的贡献者之一，Helge Rausch，他提供了宝贵的帮助，现在是我们小团队的核心成员，我想他是偶然在 GitHub 上找到我们的。人们在问题跟踪器上报告问题。有时我们甚至收到来自其他与该项目无关的人的拉取请求。

谁是您的开源导师或英雄？
由于开源主要通过社区努力工作，因此单独挑出个人是不公平的。但在编程方面，我通过 BioPython 发现了很多东西，这是一个开源社区，让我的生物信息学家的日常工作轻松了很多。该项目所有贡献者的努力是伟大事业如何运作以及对包括我在内的许多人的鼓舞人心的典范。

还有其他什么吗？

只是一些有用的链接

标签

开放数据

Michael Harrison

Michael 是一位不知悔改的极客，热爱游戏、社交网络和开源项目，并与孩子们分享。他在 GeekDad 上撰写关于抚养极客子女的文章，并录制一个关于游戏的播客，名为 The Dice Section。您可以在 Twitter 上关注他 @oldbie。

更多关于我

评论已关闭。

本作品根据知识共享署名-相同方式共享 4.0 国际许可协议获得许可。