开源文本分析工具揭示被改写的新闻

尚无读者喜欢这篇文章。
Platform wars: software patents in a new light

Opensource.com

Churnalism US 是一个新的网络工具和浏览器扩展,允许任何人将您阅读的新闻与现有内容进行比较,以揭示可能的剽窃实例。 它是与 Media Standards Trust 的联合项目。

只需向 Churnalism 网站 输入链接或文本块,或者让浏览器扩展在后台运行,以便在 Churnalism 的文档缓存中找到任何文本匹配项时通知您。 它们包括维基百科中的大多数文章、来自 PR Newswire、PR News Web、EurekaAlert!、国会领导办公室、白宫、财富 500 强公司抽样、著名的慈善基金会等等的新闻稿。 适用于 ChromeInternet ExplorerFirefox(完整批准待定)的浏览器扩展允许 Churnalism 从常见新闻网站的白名单中提取文章文本,并在您阅读的内容可能从其他来源复制时通知您。 这种情况很少发生,但并非史无前例。 就在上周,著名的 Churnalism Beta 测试员和 Sunlight Labs 主管 Tom Lee 通过 Churnalism 发现路透社过早发布了 仍然活着的人乔治·索罗斯的讣告,该讣告大量借鉴了他维基百科页面上的引言集。

要观看如何使用 Churnalism 网络工具和扩展程序的视频演练,请观看 Sunlight Academy 上的这个 两分钟教程,其中介绍了 Churnalism 的开发者 Kaitlin Devine

Sunlight 的 Churnalism 基于 同名的英国网站,并由 名为 SuperFastMatch 的开源文本分析技术 驱动,这两者均由出色的 Media Standards Trust 开发。 要深入了解该项目背后的底层技术和流程,请查看 Churnalism 的另一位开发者 Drew Vogel这篇详细文章

安装扩展程序后,您可以了解从其他地方复制的文本的来源和非来源流动。 从我使用 Churnalism 的经验来看,我发现许多关于科学主题的文章严重依赖新闻稿和研究摘要。 例如,以 BBC 网站上关于癫痫和偏头痛的 这篇文章 为例。 Churnalism 发现很大一部分文本来自 EurekaAlert! 中的这篇 新闻稿,并通过页面顶部的条带通知告知我。 通过点击通知上的“显示我”按钮,Churnalism 会并排显示文章和可能的匹配项,并突出显示复制的文本以便于比较

Churnalism analysis example

检测来自其他来源的影响和语言共享的最佳方法是安装浏览器扩展程序并继续阅读新闻。 您将慢慢开始发现语言的重叠,例如在 这份 CBS 新闻报道这篇 NY Daily News 文章NBC 新闻上的这篇文章 中看到的重叠,或者可能发现 Churnalism 的反向应用,例如 这篇《纽约时报》文章,它在维基百科文章中被大量引用。

我们理解扩展程序从您阅读的内容中提取文本的隐私敏感性,因此我们将 Churnalism 设计为高度可定制的,并且永远不会保留可识别的信息,例如您的 IP 地址。 您可以通过进入浏览器扩展程序的设置轻松更改 Churnalism 运行的站点。 我们提供了一个主要新闻网站的基本白名单、本地新闻附属机构列表以及允许 Churnalism 在任何 URL 中包含新闻或文章的网站上运行的功能,但所有这些都可以删除或精简(或扩展!)为您感兴趣的任何网站。

我们很高兴将这个项目公之于众,并希望继续改进底层软件,因为大型语料库文本匹配有一些令人兴奋的潜在应用。 我们使用 SuperFastMatch 技术查看示范法,它推动了诸如 我们对 ALEC 如何分发“不退让法”立法 以供多个不同州采用的调查等故事。

如果您发现任何有趣的 Churnalism 匹配项,请告诉我们!

最初发布在 Sunlight Foundation 博客上。 在 Creative Commons 许可下转载。

标签
User profile image.
Nicko Margolies 是 Sunlight Foundation 的项目协调员。 他在项目公开之前与 Sunlight 的内部开发人员密切合作,并帮助确保顺利过渡到发布。 他在凯尼恩学院获得历史学文学学士学位,并在杜邦环岛的贫民窟长大。

评论已关闭。

Creative Commons License本作品根据 Creative Commons 署名-相同方式共享 3.0 未本地化许可协议获得许可。
© . All rights reserved.