使用开源搜索引擎自定义您的互联网

开始使用 YaCy,一个开源的 P2P 网络索引器。
124 位读者喜欢这个。
Person using a laptop

很久以前,互联网还很小,足以由少数人索引,他们收集了所有网站的名称和位置,并按主题将它们列在一页或一本印刷书籍中。随着万维网网络的增长,“网络环”惯例发展起来,其中具有相似主题或主题或情感的网站联合起来,形成通往每个成员的环形路径。环中任何站点的访问者都可以单击按钮以前往环中的下一个或上一个站点,以发现与其兴趣相关的新站点。

然后有一段时间,互联网似乎超出了自身的能力。每个人都在网上,存在大量的冗余和垃圾邮件,而且无法找到任何东西。雅虎、美国在线、CompuServe 和类似的服务都有独特的方法,但直到谷歌出现,现代模式才得以确立。根据谷歌的说法,互联网注定要通过搜索引擎进行索引、排序和排名。

为什么选择开源替代方案?

像 Google 和 DuckDuckGo 这样的搜索引擎已被证明是有效的。您可能是通过搜索引擎访问此站点的。虽然对于由于主机选择不遵循搜索引擎优化的最佳实践而导致内容被忽略存在争议,但管理互联网上丰富的文化、知识和琐事的现代解决方案是坚持不懈的索引。

但也许您因为隐私问题或者因为您希望为使互联网更加独立的努力做出贡献而不喜欢使用 Google 或 DuckDuckGo。如果这吸引了您,那么请考虑参与 YaCy,这个点对点互联网索引器和搜索引擎。

安装 YaCy

要安装和试用 YaCy,首先确保您已安装 Java。如果您使用的是 Linux,您可以按照我的如何在 Linux 上安装 Java 文章中的说明进行操作。如果您使用的是 Windows 或 MacOS,请从 AdoptOpenJDK.net 获取安装程序。

安装 Java 后,下载适用于您平台的安装程序

如果您使用的是 Linux,请解压 tarball 并将其移动到 /opt 目录

$ sudo tar --extract --file  yacy_*z --directory /opt

根据您下载的安装程序的说明启动 YaCy。

在 Linux 上,在后台启动 YaCy 运行

$ /opt/yacy/startYACY.sh &

在 Web 浏览器中,导航到 localhost:8090 并搜索。

YaCy start page

将 YaCy 添加到您的 URL 栏

如果您使用的是 Firefox Web 浏览器,只需点击几下,即可在 Awesome Bar(Mozilla 对 URL 字段的称呼)中将 YaCy 设置为您的默认搜索引擎。

首先,使专用搜索栏在 Firefox 工具栏中可见(如果尚未可见)(您不必保持搜索栏可见;您只需要使其活动足够长的时间来添加自定义搜索引擎)。搜索栏位于 Firefox 右上角的汉堡菜单中的 自定义 菜单中。一旦搜索栏在您的 Firefox 工具栏中可见,请导航到 localhost:8090,然后单击您刚刚添加的 Firefox 搜索栏中的放大镜图标。单击将 YaCy 添加到您的 Firefox 搜索引擎的选项。

Adding YaCy to Firefox

完成此操作后,您可以将其标记为 Firefox 首选项中的默认搜索引擎,或者只是在 Firefox 搜索栏中执行的搜索中有选择地使用它。如果您将其设置为默认搜索引擎,那么您可能不需要专用搜索栏,因为 Awesome Bar 也使用默认引擎,因此您可以将其从工具栏中删除。

P2P 搜索引擎如何工作

YaCy 是一个开源的分布式搜索引擎。它用 Java 编写,因此它可以在任何平台上运行,并且执行 Web 爬网、索引和搜索。它是一个点对点 (P2P) 网络,因此每个运行 YaCy 的用户都参与跟踪互联网每天变化的努力。当然,没有单个用户拥有整个互联网的完整索引,因为那需要一个数据中心来容纳,但索引在所有 YaCy 用户之间是分布式和冗余的。它很像 BitTorrent(因为它使用分布式哈希表或 DHT 来引用索引条目),除了您共享的数据是单词和 URL 关联的矩阵。通过混合哈希表返回的结果,没有人可以知道谁搜索了哪些词,因此所有搜索在功能上都是匿名的。这是一个用于公正、无广告、未跟踪和匿名搜索的有效系统,您只需使用它即可加入。

搜索引擎和算法

索引互联网的行为是指将网页分成其上的单个单词,然后将页面的 URL 与每个单词关联起来。在搜索引擎中搜索一个或多个单词会获取与查询关联的所有 URL。这是 YaCy 客户端在运行时执行的一件事。

客户端执行的另一件事是为您的浏览器提供搜索界面。当您想要搜索时,您可以将 Web 浏览器指向 localhost:8090 以搜索 YaCy,而不是导航到 Google。您甚至可以将它添加到浏览器的搜索栏(取决于浏览器的可扩展性),这样您就可以从 URL 栏进行搜索。

YaCy 的防火墙设置

当您第一次开始使用 YaCy 时,它可能以“初级”模式运行。这意味着您的客户端爬取的站点仅对您可用,因为没有其他 YaCy 客户端可以访问您的索引条目。要加入 P2P 体验,您必须在路由器的防火墙中打开端口 8090,如果您正在运行软件防火墙,则可能还需要打开软件防火墙。这称为“高级”模式。

如果您使用的是 Linux,您可以在 使用防火墙使 Linux 更强大 中找到有关计算机防火墙的更多信息。在其他平台上,请参阅您的操作系统文档。

防火墙几乎始终在您的互联网服务提供商 (ISP) 提供的路由器上处于活动状态,并且它们的种类太多,无法在此处准确记录。大多数路由器都提供“在防火墙上打孔”的选项,因为许多流行的网络游戏都需要双向流量。

如果您知道如何登录路由器(通常是 192.168.0.1 或 10.1.0.1,但可能因制造商的设置而异),请登录并查找控制 防火墙端口转发应用程序 的配置面板。

找到路由器防火墙的首选项后,将端口 8090 添加到白名单。例如

Adding YaCy to an ISP router

如果您的路由器正在进行端口转发,那么您必须使用相同的端口将传入流量转发到您计算机的 IP 地址。例如

Adding YaCy to an ISP router

如果您因任何原因无法调整防火墙设置,也没关系。YaCy 将继续以初级模式作为 P2P 搜索网络的客户端运行和操作。

您自己的互联网

您可以使用 YaCy 搜索引擎做更多的事情,而不仅仅是被动搜索。您可以强制爬取代表性不足的网站,您可以请求网络爬取站点,您可以选择仅将 YaCy 用于本地搜索等等。您可以更好地控制 您的 互联网的外观。高级用户越多,索引的站点就越多。索引的站点越多,所有用户的体验就越好。加入我们!

接下来阅读什么
标签
Seth Kenlon
Seth Kenlon 是一位 UNIX 极客、自由文化倡导者、独立多媒体艺术家和 D&D 爱好者。他曾在电影和计算行业工作,经常同时进行。

3 条评论

1. 启动脚本的位置是 /opt/yacy/startYACY.sh 而不是 /opt/startYACY.sh 2. 管理页面不起作用

感谢您更正 startYACY.sh 的路径。文章中已修复。

我不确定您所说的“不起作用”是什么意思。它是否根本无法在您的浏览器中加载?YaCy 本身是否正在加载?根据我的经验,当 YaCy 在我的浏览器中失败时,是因为它没有在后端启动(换句话说,startYACY.sh 脚本失败或由于某种原因未启动)。

回复 作者:adams45 (未验证)

我们非常感谢您的博文。我们今天将尝试 Yacy

Creative Commons License本作品根据 Creative Commons Attribution-Share Alike 4.0 International License 获得许可。
© . All rights reserved.