Internet Archive 成立 20 周年，向世界赠送生日礼物

open source button on keyboard

图片来源：

Opensource.com

1996 年 5 月 12 日，就像一位仁慈的疯狂科学家，Brewster Kahle 将 Internet Archive 带到了人间。当时万维网还处于起步阶段，而 Archive 的出现是为了记录其成长过程。受亚历山大图书馆的启发和效仿，Internet Archive 开始了其使命，即保存所有知识并提供普遍访问。

2016 年 10 月 27 日，Internet Archive 在其位于旧金山的美丽总部举办派对，庆祝其 20 周年。根据《旧金山纪事报》一篇报道，超过 600 人聚集在一起表示敬意，并听取了 Archive 的最新项目和功能。Internet Archive 团队没有让人失望，展示了他们在过去一年中发布的一些重要且令人印象深刻的进展，包括但不限于：

政治电视广告存档，是电视新闻存档的一个分支，允许搜索和引用本次美国选举周期中播出的数千个广告，并且是记者们的宝库。
Firefox 附加组件，提供返回 404 错误网页的 Wayback Machine 快照。
宣布了一个项目，该项目已修复了英文维基百科上数百万个失效链接，将它们重定向到其 Wayback Machine 快照。
推出 GifCities，这是一个专门的搜索引擎，用于查找来自 GeoCities 美好旧时光的复古动画 GIF。
Wayback Machine 的新域名摘要功能，提供有关网站的引人入胜的历史信息。

Internet Archive servers

^{IA 服务器，作者：John Blyberg；CC BY (Flickr)}

在活动期间宣布的所有项目中，迄今为止最令人兴奋和印象深刻的项目之一是新发布的搜索 Internet Archive 上所有文本项目的完整内容的功能。现在可以即时搜索涵盖数百年人类历史的九百万个文本项目。

“这有点像魔法：它就像能够以光速阅读！我每天都在发现我们甚至不知道我们拥有的内容，”开发新功能的软件工程师 Giovanni Damiola 说。Giovanni 来自意大利，于 2015 年加入 Archive。在过去四个月里，他一直在实施搜索功能，同时保持 OpenLibrary 的平稳运行。

“我们的搜索引擎使用 Elastic Search 集群。核心由 10 台服务器组成，每台服务器有 22 个 CPU，总存储容量为 70TB 的 SSD。目前的索引为 4-5TB，包含约 900 万份文档……并且每天都在增长。”

用户可以通过在搜索结果页面上的搜索栏下方选择“搜索书籍全文”选项来访问新功能。感谢 Archive 的开源电子书阅读器，搜索词在结果中突出显示，该项目由 Internet Archive 的 Richard Caceres 维护。

整个功能仍处于测试阶段，但已经非常强大。很容易看出，即使在功能的早期阶段，这也是研究人员的宝贵工具。用户可以提供反馈来帮助改进该工具的后续版本。

Internet Archive truck

^{IA 卡车，作者：Jeremy Brooks；CC BY-NC (Flickr)}

毫不奇怪，这只是 Archive 改进对其文本馆藏内容访问愿景的第一步。当被问及未来会怎样时，Giovanni 提供了一些诱人的暗示。“这仅仅是开始。很快我们就可以添加更多功能，例如：实体识别，允许我们以新的和不明显的、类别的方式对书籍进行分组。这个工具也将使在书籍语料库上运行数据分析变得容易。”

全文并不是 Internet Archive 上周推出的唯一搜索功能。它还改进了高级搜索过滤，以帮助访问者在触手可及的超过 15 PB 的数据中找到他们需要的内容。您可以在 Archive 发布的博客文章中阅读有关这些过滤选项的更多信息。

标签

VM (Vicky) Brasseur

VM（又名 Vicky）在科技行业的大部分 20 年时间里，都在领导软件开发部门和团队，并为中小型企业提供技术管理和领导力咨询。

更多关于我

2 条评论

Creative Commons License

本作品根据 Creative Commons Attribution-Share Alike 4.0 International License 获得许可。

© . All rights reserved.