语音辅助技术非常流行;目前已有 25 亿 台此类设备在使用,预计到 2023 年将增加两倍,达到 80 亿台。尽管主流语音辅助技术存在 隐私和安全漏洞,但这种增长似乎势不可挡。
其中一个漏洞是“开窗”漏洞,例如,恶意人员走过打开的窗户并喊“嘿,解锁门!”,即可进入房屋。研究人员还发现了 Alexa 和 Google 的 数千个误报唤醒词,这可能是注入恶意命令的攻击途径。有些人提出了通过电视注入次声波指令的风险。亚马逊可能已经在利用频率操纵来防止 Alexa 在其广告期间被激活。而且,与任何连接网络的计算机设备一样,都存在后门和其他常见漏洞的风险。
开源保障隐私和安全
开源语音助手,如 Mycroft AI,为通过设计保障安全和隐私提供了一条途径。从本质上讲,开源软件鼓励代码审查,以揭露漏洞。
我工作的公司 Mycroft 的理念是,语音辅助技术可以是安全的。我们制定了 处理已披露的常见漏洞和风险 (CVE) 的流程。作为一种开发者工具,我们非常依赖 SSH 等系统,并始终鼓励在设备上更改默认密码,包括在设置向导中。我们还将意图解析、技能和文本到语音 (TTS) 等功能转移到设备上,而其他主要参与者则在云端执行这些功能。对于精通技术的家庭用户,我们很快将发布必要的组件,以便在防火墙后的家庭环境中运行整个体验。我们希望让用户尽可能地控制软件。
声纹识别使 AI 能够通过声音区分人,应该可以缓解“开窗”和误报唤醒词漏洞,因为它使用户能够为特定人员分配锁、购买和其他敏感功能的权限。所有这些都可以通过双因素身份验证或使用一次性口语密码的更深层次的语音生物识别技术来加强。Google 和 Amazon 已在其助手中部署了一些声纹识别技术,我们正在与一些在该领域展现出前景的公司进行合作。唤醒词检测的改进将限制可用误报的列表。在正确设计的反馈循环中,误报不太可能起作用,因为它会在 Mycroft 的 Precise 标记器等技术中被标记。
开源促进创新
从历史上看,鼓励实验的方式是通过开源。这就是真正创新发生和新技术被构建的方式。
我们为创新者提供了使用语音助手技术进行实验的机会,并减少了附加条件。开源使软件成为社区的共同努力。例如,Mycroft 不是一个由 16 人组成的团队,其中只有 9 名技术成员,而是拥有数千名开发人员提供反馈、构建新功能并为核心软件做出贡献。并且由于我们的许可,创新者可以轻松地将他们新的、出色的实现转化为业务。
更深层次地来说,开放意味着这项技术可以完全代表用户,而不仅仅是提供它的公司。语音助手有能力改变人们与所有技术的互动方式。语音将以目前尚未想象的方式改变家庭、办公室、移动设备和公共场所。
我们希望人们提出的问题是:“我希望这项技术完全为我的最佳利益服务,还是为零售商或搜索和数据公司的最佳利益服务?” 我们认为大多数人会选择前者。我们知道,提供前者的唯一方法是保持开放、透明和社区驱动。
语音助手功能
Mycroft 与其他语音助手的功能相同,但方式不同。大多数语音助手的 语音栈 使用设备上的唤醒词检测,然后将其余交互发送到云端进行处理,并将响应流式传输回扬声器。
Mycroft 将大部分功能转移到运行软件的设备上。我们使用设备上的唤醒词检测来监听命令。当检测到唤醒词时,命令被记录下来并发送到云端进行语音转文本转录。文本文件转录完成后,将发送回设备,在设备上执行自然语言处理、技能处理和语音合成。
技能赋予 Mycroft 能力。我们一直在稳步地从内部团队和社区向新的 Mycroft 技能市场 添加技能。Mycroft 可以控制多个音乐源,连接到众多物联网平台,从 Wikipedia 和 Wolfram|Alpha 等 12 个来源获取通用信息,玩游戏,掷骰子,讲故事,运行速度测试等等。
我们将 Mycroft 模块化,因此用户可以轻松地更换部件。例如,我们目前提供两个唤醒词和三种声音,并且还在增加更多,但 Mycroft 也可以运行来自任何提供商(云端或本地)的自定义唤醒词和 TTS 声音。
如果您想了解 Mycroft 的工作原理,请观看展示 Mycroft 技能试用 和 社区贡献 的视频,请访问 YouTube。
评论已关闭。