我如何使用 wget Linux 命令恢复丢失的图像

Open Clip Art Library 的兴衰故事,以及 FreeSVG.org 这个新的公共艺术作品库的诞生。
162 位读者喜欢这篇文章。
White shoes on top of an orange tribal pattern

Jen Wike Huger,剪贴画来自 FreeSVG.org

2004 年,Open Clip Art Library (OCAL) 启动,作为一个免费插图的来源,供任何人用于任何目的,无需署名或任何回报。这个网站是开源世界对 1990 年代每个家庭办公室书架上堆积如山的剪贴画 CD,以及闭源办公和艺术软件提供的艺术素材库的回应。

起初,剪贴画库主要由少数贡献者的作品组成,但在 2010 年,它推出了一个全新的交互式网站,允许任何人使用矢量插图应用程序创建和贡献剪贴画。该网站立即获得了来自全球各地以及各种自由软件和自由文化项目的贡献。甚至在 Inkscape 中也包含了一个用于此库的特殊导入器。

然而,在 2019 年初,托管 Open Clip Art Library 的网站在没有任何警告或解释的情况下离线了。其社区,人数已增长到数千人,起初认为这只是一个临时故障。然而,该网站持续离线了六个多月,没有任何关于发生情况的明确解释。

谣言开始四起。网站正在更新(网站开发者 Jon Philips 在一封电子邮件中说:“有多年技术债务需要偿还”)。一个 Twitter 帐户声称,该网站遭受了猖獗的 DDOS 攻击。另一个 Twitter 帐户声称,维护者成为了身份盗窃的受害者。今天,截至撰写本文时,该网站唯一剩下的页面声明它处于“维护和保护模式”,其含义尚不清楚,除了用户无法访问其内容。

恢复公共资源

网站随着时间的推移出现和消失,但 Open Clip Art Library 的丢失尤其让其社区感到惊讶,因为它被视为一个社区项目。很少有社区成员理解托管该库的网站已落入单个维护者手中,因此,虽然库中的艺术作品由于其 Creative Commons 0 许可 而归所有人所有,但对它的访问实际上由单个维护者拥有。而且,由于该网站的社区通过该网站相互保持联系,因此同一维护者实际上拥有了该社区。

当网站崩溃时,社区失去了对其艺术作品以及彼此的访问权限。没有了网站,就没有了社区。

最初,当网站崩溃时,网站上的所有内容都被阻止了。但是,几个月后,用户开始意识到该网站的数据库仍然在线,这意味着用户可以通过输入其确切的 URL 来访问单个艺术文件。换句话说,您无法通过在网站上点击来导航到艺术文件,但是如果您已经知道地址,则可以在浏览器中将其调出。同样,技术(或懒惰的)用户意识到也可以使用像 wget 这样的自动化网络浏览器“抓取”该网站。

wget Linux 命令技术上是一个网络浏览器,尽管它不允许您像使用 Firefox 那样进行交互式浏览。相反,wget 会访问互联网并检索一个文件或一组文件,然后将它们下载到您的硬盘驱动器。然后,您可以在 Firefox 或文本编辑器中打开这些文件,或者任何最合适的应用程序,并查看内容。

通常,wget 需要知道要获取的特定文件。如果您在安装了 wget 的 Linux 或 macOS 上,您可以尝试通过下载 example.com 的索引页来完成此过程。

$ wget example.org/index.html
[...]
$ tail index.html

<body><div>
    <h1>Example Domain</h1>
    <p>This domain is for illustrative examples in documents. 
    You may use this domain in examples without permission.</p>
	<p><a href="http://www.iana.org/domains/example">More info</a></p>
</div></body></html>

为了抓取 Open Clip Art Library,我使用了 --mirror 选项,以便我可以将 wget 指向仅包含艺术作品的目录,以便它可以下载该目录中的所有内容。此操作导致连续四天(96 小时)的持续下载,最终获得了超过 100,000 个 SVG 文件,这些文件由 5,000 多名社区成员贡献。不幸的是,任何没有正确元数据的文件作者都无法恢复,因为此信息被锁定在数据库中无法访问的文件中,但是 CC0 许可意味着这个问题技术上无关紧要(因为 CC0 文件不需要署名)。

对下载文件的随意分析还显示,其中近 45,000 个是同一个文件的副本(网站的徽标)。这是由指向网站徽标的重定向(原因不明)引起的,仔细解析可以提取原始目标。又过了 96 小时,OCAL 上发布的所有剪贴画都被恢复了,直到它的最后一天:总共约 156,000 张图像。

SVG 文件往往很小,但这仍然是一项巨大的工作,带来了一些非常实际的问题。首先,需要几个 GB 的在线存储空间,以便可以将艺术作品提供给其以前的社区。其次,需要一种搜索艺术作品的方法,因为手动浏览 55,000 个文件是不现实的。

很明显,社区真正需要的是一个平台。

构建新平台

一段时间以来,网站 Public Domain Vectors 一直在发布公共领域的矢量艺术。虽然它仍然是一个受欢迎的网站,但开源用户通常只将其用作艺术的次要来源,因为那里的大多数文件都是 EPS 和 AI 格式,这两种格式都与 Adobe 相关联。这两种文件格式通常都可以转换为 SVG,但会损失一些功能。

当 Public Domain Vectors 网站的维护者(Vedran 和 Boris)听到 Open Clip Art Library 丢失的消息时,他们决定创建一个面向开源社区的网站。他们忠于形式,选择了开源 Laravel 框架作为后端,这为该网站提供了管理仪表板和用户访问权限。该框架功能强大且开发完善,还使他们能够快速响应错误报告和功能请求,并根据需要升级网站。他们正在构建的网站名为 FreeSVG.org,并且已经是一个强大而繁荣的公共艺术作品库。

从那时起,他们一直在上传 Open Clip Art Library 中的所有剪贴画,甚至还在上传过程中勤奋地标记和分类艺术作品。作为 Public Domain Vectors 的创建者,他们还在贡献自己的 SVG 格式图像。他们的目标是成为互联网上具有 CC0 许可的 SVG 图像的主要资源。

贡献

FreeSVG.org 的维护者意识到他们已经继承了重要的管理责任。他们正在努力为网站上的所有图像添加标题和描述,以便用户可以轻松找到艺术作品,并且一旦准备就绪,就会将此文件提供给社区,他们坚信关于艺术作品的元数据与艺术作品本身一样属于创作和使用艺术作品的人们。他们也意识到可能会出现无法预料的情况,因此他们定期备份他们的网站和内容,并打算在他们的网站出现故障时向公众提供最新的备份。

如果您想为 FreeSVG.org 的 Creative Commons 内容做出贡献,请下载 Inkscape 并开始绘画。世界上有很多公共领域的艺术作品,例如 历史广告塔罗牌故事书,都等待着被转换为 SVG,因此即使您对自己的绘画技巧没有信心,也可以做出贡献。访问 FreeSVG 论坛 与其他贡献者联系并获得支持。

公共资源的概念非常重要。Creative Commons 使每个人受益,无论您是学生、教师、图书馆员、小企业主还是 CEO。如果您不直接贡献,那么您始终可以帮助推广它。

这就是自由文化的优势:它不仅可以扩展,而且当更多人参与时会变得更好。

吸取的惨痛教训

从 Open Clip Art Library 的消亡到 FreeSVG.org 的兴起,开放文化社区吸取了一些惨痛的教训。为了后代,以下是我认为最重要的教训。

维护您的元数据

如果您是内容创作者,请帮助未来的档案管理员,并在您的文件中添加元数据。大多数图像、音乐、字体和视频文件格式都可以将 EXIF 数据嵌入其中,其他格式在创建它们的应用程序中具有元数据输入界面。请勤奋地用您的姓名、网站或公共电子邮件以及许可证标记您的作品。

制作副本

不要假设其他人正在进行备份。如果您关心公共数字内容,那么请自己备份它,否则不要指望它永远可用。上传到互联网的任何东西都是永恒的说法可能是真的,但这并不意味着它永远对您可用。如果 Open Clip Art Library 文件没有再次秘密可用,那么任何人都不太可能从网络上的随机位置或全球各地人们硬盘上的个人存储中成功找到所有 55,000 张图像。

创建外部渠道

如果一个社区由一个网站或物理位置定义,那么一旦失去对该空间的访问权限,该社区就会解散。如果您是一个由单个组织或网站驱动的社区的成员,那么您有责任与您关心的人分享联系信息,并建立一个即使该网站不可用也能进行沟通的渠道。

例如,Opensource.com 本身维护着邮件列表和其他站外渠道,供其作者和 корреспондент 相互交流,无论网站是否干预甚至存在。

自由文化值得为之努力

互联网有时被视为懒人的社交俱乐部。您可以随时登录,在疲倦时关闭,并且可以漫步到您想要的任何社交圈。

但实际上,自由文化可能是艰苦的工作。它并不难在难以参与的意义上,而是您必须努力维护的东西。如果您忽略您所在的社区,那么在您意识到之前,社区可能会枯萎和消退。

花点时间环顾四周,确定您是哪些社区的一部分,如果可以的话,告诉别人您感谢他们为您的生活带来的东西。同样重要的是,请记住您也在为您的社区的生活做出贡献。

接下来阅读
Seth Kenlon
Seth Kenlon 是一位 UNIX 极客、自由文化倡导者、独立多媒体艺术家和 D&D 爱好者。他曾在电影和计算机行业工作,并且经常同时工作。

8 条评论

很棒的文章,Seth!我想知道 Open Clipart 发生了什么事。我曾在我的许多演示文稿中使用过它,然后在我为 All Things Open 准备演讲时,我沮丧地发现它消失了。感谢您分享 https://FreeSVG.orghttps://publicdomainvectors.org/ 的链接。我已经将它们加入书签并广泛分享。

这是一篇写得很好的有趣文章。我将使用 freesvg.org 来满足我所有的塔罗牌需求(上面有数百张卡片!)

是的,我认为网站上有两副塔罗牌。可能更多。很高兴这对您有帮助!

回复 Subhash Shastri

一篇非常有趣的文章。我特别赞赏指出吸取的教训以及如何最大限度地减少出现单点故障的可能性。感谢分享!

嗨,Seth,
一个与此主题无关的问题(但相关主题的评论已关闭!)
我在哪里可以找到 pygaming 系列的第七部分,即平台之后的那个部分?我真的很喜欢它,我想尽快完成这个系列。

感谢提问!我将优先发布该系列中剩余的文章。我不确定是否有人在阅读它们!

回复 Catosh

一个引人入胜的故事。谢谢你!

Creative Commons License本作品采用 Creative Commons Attribution-Share Alike 4.0 International License 许可。
© . All rights reserved.