1996 年 5 月 12 日,就像一位仁慈的疯狂科学家,Brewster Kahle 将 Internet Archive 带到了人间。当时万维网还处于起步阶段,而 Archive 的出现是为了记录其成长过程。受 亚历山大图书馆 的启发和效仿,Internet Archive 开始了其使命,即保存所有知识并提供普遍访问。
2016 年 10 月 27 日,Internet Archive 在其 位于旧金山的美丽总部 举办派对,庆祝其 20 周年。根据《旧金山纪事报》一篇报道,超过 600 人聚集在一起表示敬意,并听取了 Archive 的最新项目和功能。Internet Archive 团队没有让人失望,展示了他们在过去一年中发布的一些重要且令人印象深刻的进展,包括但不限于:
- 政治电视广告存档,是 电视新闻存档 的一个分支,允许搜索和引用本次美国选举周期中播出的数千个广告,并且是 记者们的宝库。
- Firefox 附加组件,提供返回 404 错误网页的 Wayback Machine 快照。
- 宣布了一个项目,该项目已 修复了英文维基百科上数百万个失效链接,将它们重定向到其 Wayback Machine 快照。
- 推出 GifCities,这是一个专门的搜索引擎,用于查找来自 GeoCities 美好旧时光的复古动画 GIF。
- Wayback Machine 的新 域名摘要 功能,提供有关网站的引人入胜的历史信息。
IA 服务器,作者:John Blyberg;CC BY (Flickr)
在活动期间宣布的所有项目中,迄今为止最令人兴奋和印象深刻的项目之一是新发布的搜索 Internet Archive 上所有文本项目的完整内容的功能。现在可以即时搜索涵盖数百年人类历史的九百万个文本项目。
“这有点像魔法:它就像能够以光速阅读!我每天都在发现我们甚至不知道我们拥有的内容,”开发新功能的软件工程师 Giovanni Damiola 说。Giovanni 来自意大利,于 2015 年加入 Archive。在过去四个月里,他一直在实施搜索功能,同时保持 OpenLibrary 的平稳运行。
“我们的搜索引擎使用 Elastic Search 集群。核心由 10 台服务器组成,每台服务器有 22 个 CPU,总存储容量为 70TB 的 SSD。目前的索引为 4-5TB,包含约 900 万份文档……并且每天都在增长。”
用户可以通过在 搜索结果 页面上的搜索栏下方选择“搜索书籍全文”选项来访问新功能。感谢 Archive 的 开源电子书阅读器,搜索词在结果中突出显示,该项目由 Internet Archive 的 Richard Caceres 维护。
整个功能仍处于测试阶段,但已经非常强大。很容易看出,即使在功能的早期阶段,这也是研究人员的宝贵工具。用户可以 提供反馈 来帮助改进该工具的后续版本。
IA 卡车,作者:Jeremy Brooks;CC BY-NC (Flickr)
毫不奇怪,这只是 Archive 改进对其文本馆藏内容访问愿景的第一步。当被问及未来会怎样时,Giovanni 提供了一些诱人的暗示。“这仅仅是开始。很快我们就可以添加更多功能,例如:实体识别,允许我们以新的和不明显的、类别的方式对书籍进行分组。这个工具也将使在书籍语料库上运行数据分析变得容易。”
全文并不是 Internet Archive 上周推出的唯一搜索功能。它还改进了高级搜索过滤,以帮助访问者在触手可及的超过 15 PB 的数据中找到他们需要的内容。您可以在 Archive 发布的 博客文章 中阅读有关这些过滤选项的更多信息。
2 条评论