我为什么选择 FLAC 音频

还没有读者喜欢这篇文章。
Sheet music with geometry graphic

照片由 Jen Wike Huger 拍摄

在本文中,我将重点关注数字格式的音乐。此外,因为我是一个 Linux 爱好者,我将从 Linux 的角度来探讨这个话题。

大多数人都听说过 MP3 格式。它是两个例子的体现:首先,它不是一个开放格式,因为许多组织声称拥有它的专利。其次,它是一种“有损”格式。有损格式通过丢弃一些信号分量来压缩原始信号。这种压缩的最初理由是为了使音乐文件更小且更易于分发。与此相反,还有“无损”格式,它可以被压缩(不丢弃原始信号)或不被压缩。光盘 (CD) 上呈现的数字音乐是无损格式的一个例子(假设它是音频 CD,而不是保存了 MP3 的数据 CD)。

还值得一提的是,有两种主要的数字音乐编码方式:脉冲编码调制 (PCM) 和 Δ-Σ 调制 (DSM)。直到最近,大多数数字音乐都使用 PCM 编码;但索尼和飞利浦建立了一个基于 DSM 的标准,称为 DSD,并在超级音频 CD (SACD) 光盘上实现了它。少量但不断增长的音乐可以以这种标准下载。关于更详细的差异,我们将留给维基百科来解释。

我们这些关心软件自由的人应该更喜欢完全自由的格式,例如 Ogg Vorbis(有损)和 FLAC(无损,压缩)。我们尤其应该避免包含数字版权管理 (DRM) 选项的文件格式。理论上,人们可能会认为 DRM 只是一种防止未经授权使用(盗窃?)某人知识产权的机制。然而,某些供应商使用 DRM 来迫使其客户使用他们的软件,有时甚至是硬件。再次,维基百科有一篇关于整个格式业务的很好的详细文章。

但是,决定格式不是——或者至少不应该是——首要考虑的问题。相反,我们每个人对音乐的使用都有不同的目标。我将解释我的目标,然后进一步解释这些目标如何影响我对文件格式的决定。

首先,并且为了强调,我是一个坚定的软件自由支持者。这意味着我更喜欢 Ogg 或 FLAC 格式的数字音乐。任何由于专利或商业秘密而限制访问的格式对我来说都几乎没有或根本没有兴趣。

其次,我的音乐收藏可以追溯到 20 世纪 60 年代。我仍然保留着多年前购买的大部分 LP(有时会感到尴尬),而让我感到非常愉快的一件事是,其中一些旧 LP 在现代模拟播放设备上仍然听起来多么棒。我喜欢认为,像戴夫·布鲁贝克的Time Out这样的音质优良的 LP,最初录制于 1959 年,仍然听起来非常清新和清晰,部分原因是录制它的人员用他们的设备做了出色而细致的工作。因此,当我现在购买音乐时,无论是在 LP 上还是作为音乐下载,我都尽量获得尽可能好的录音质量。

因此,我强烈偏好购买数字无损格式而不是有损格式。事实上,如果某样东西仅以有损格式提供,我通常不会费心购买它。而且,我不仅购买无损格式,而且在有更高分辨率的情况下,我购买的分辨率也高于“CD 标准”。当然,我首选的无损格式是 FLAC!

让我们花点时间谈谈分辨率。CD 上的音乐以 44.1kHz 的采样率和 16 位的字长呈现。理论上,这意味着 CD 上录制的最大的声音是最小的声音的 216 倍,即 65,536 倍。这意味着,如果您有一个显示完整动态范围的录音,并将音量调高到刚好能听到最安静的部分,那么最响亮的部分将会非常响亮,以至于会超过听觉疼痛阈值。

此外,奈奎斯特-香农采样定理告诉我们,44.1kHz 的采样率足以保留高达 20kHz 的声音频率(“kHz”是“千赫兹”或“每秒周期数”的缩写),据说这是听力极佳的人类可听到的上限。

那么,为什么我认为我需要高于 CD 标准的分辨率呢?

很简单。以 96kHz 采样率和 24 位字长呈现的录音,比 44.1/16 版本提供了更大的“空间”来容纳原始模拟信号——不仅仅是最响亮的声音和最安静的声音。这意味着录音不必达到如此接近最大值的水平,以至于偶尔会超过它。(超过最大值的信号被称为“削波”,削波会引入原始录音中不存在的各种难听的声音。)此外,音乐中的安静声音有更多的位来表示它们。

例如,马可尼联盟的呼吸重塑通常低于最大值 25dB。dB,或分贝,是实际电平(在本例中为 -25dB)与参考电平 0dB 之间的比率。低于参考电平 -25dB 的信号将四个最高有效位设置为零。因此,在 -25dB 下的 16 位字长的音乐只有 12 位的信号值,而在 24 位字长中,它有 19 位的信号值。埃里克·惠特acre 的 塔利斯学者演唱的圣礼拜堂的音量在 -35dB 到 -40dB 之间波动,在 16 位字长的情况下,信号只有 10 位或更少。24 位字长为录音工程师提供了更大的自由度来录制播放的音乐,而无需压缩音乐以使其适应 16 位动态范围。

至于采样率,96kHz 采样率可用于高达 45kHz 左右的音频频率,而 192kHz 可用于高达 90kHz 左右的频率,远远超出被认为是人类能力上限的频率。然而,拥有额外的带宽意味着在数字化之前必须应用于模拟信号的滤波可以比 44.1kHz 采样率的情况更柔和。柔和的滤波器通常比更突兀的滤波器更受音频特性的欢迎。The Well Tempered Computer 在这个主题上有几篇不错的文章

购买高分辨率素材的另一个理由:我的经验表明,当音乐以高分辨率格式发布时,它通常在生产链中得到很好的照顾,并保留了原始的动态范围(响亮就是响亮,安静就是...),以及音乐的生命力,而不会在音乐中引入一堆伪影——噪音!

总之:当我购买数字音乐下载时,我以 FLAC 格式购买,并尽量获得 24 位文件和 88.2kHz 或 96kHz 采样率。我的音乐文件要花钱。我为什么要愿意接受劣质的有损文件?我为什么要愿意让供应商将我锁定在特定的软件和硬件平台中?

Chris Hermansen portrait Temuco Chile
自从 1978 年从不列颠哥伦比亚大学毕业以来,我几乎总是离不开电脑,自 2005 年以来一直是全职 Linux 用户,1986 年至 2005 年一直是全职 Solaris 和 SunOS 用户,在那之前是 UNIX System V 用户。

40 条评论

值得阅读这篇文章,您可能会惊讶地了解到高分辨率音频并非如人们所吹嘘的那样:https://xiph.org/~xiphmont/demo/neil-young.html

另请注意,您不知道这些文件是从哪个来源创建的。如果是原始录音室母带,那是一回事。但我怀疑大量可供下载的文件是从 44.1/16 原始文件创建的。在那种情况下,它们只是浪费空间。

顺便说一句,在过去的十年左右,我一直在将我自己的音乐翻录成 FLAC 格式。

感谢您的评论。我实际上已经读过那篇文章,它并没有让我感到惊讶。它没有提到的是,当音乐以更高的分辨率录制时,转换为较低分辨率是一个不必要且破坏信息的步骤。我更喜欢原始版本,并且我更喜欢购买旨在处理更高分辨率内容的设备。

很容易判断您的音乐是否是从较低分辨率源升频的——频谱图会显示给您。在这种情况下,我说要求退款。

回复 作者:Tet (未验证)

很棒的文章。我倾向于让我的耳朵来判断什么需要什么样的采样率,所以我没有规则,除了一个经验法则,那就是我的耳朵应该对声音的深度和范围感到满意。我最喜欢的一些录音是我自己制作并将黑胶唱片转换为 48khz flac 格式的。

很棒的文章,祝你好运,试图将人们转变为音响发烧友的世界观 ;-)

感谢您的评论,塞斯!

我想知道我是不是不小心“举报”了您而不是“回复”——如果是这样,那真是太尴尬了。

您关于将人们转变为音响发烧友世界观的评论——多么具有预见性啊!

回复 作者:sethkenlon

这篇文章中有几个实质性的错误和遗漏,反映出对数字音频编码和心理声学的理解不足。

文章正确地指出 CD 是一种无损格式,然后赞扬了几十年前录音的 LP 发行版,但没有说明 CD 可以比 LP 更忠实地再现原始母带上的录音(更少的噪音、失真等)。

“CD 上录制的最大的声音是最小的声音的 65,536 倍”——这并没有正确描述响度的感知或测量方式。响度是主观的,也取决于频率,并且大致成对数关系,而不是与数据电平成线性关系。另一方面,CD 信号在正负之间摆动,从 +32768 到 -32767。此外,在数字录音中,低电平随机噪声,称为“抖动”,被添加到音频信号中(并且可能已经由于麦克风前置放大器噪声而存在),以实际允许再现低于 1 位电平的信号。噪声可以放置在人类不敏感的高频范围内,从而显着扩展动态范围。

至于 24 位字长和高于再现最高可听频率所需的数据速率,两者在增加可以记录的潜在动态范围方面基本上具有相同的效果,通过增加位数来实现,并且对于必须处理不同电平并将音轨混合在一起的录音工程师可能很有用——但在最终发行版中不会产生可听到的差异。在任何正常的收听电平下,16 位都涵盖了从主观静音到震耳欲聋的响度范围,而且很可能麦克风前置放大器嘶嘶声与音频一起录制,已经远高于 16 位可以再现的最低电平。

如果录音没有使用最高的 4 位或更多位,那么很简单,它的母带制作就很差。

20 kHz 左右,上下浮动一两个 kHz 是,而不是“被认为是”人类可听到的上限,即使对于听力没有受到磨损的年轻人也是如此。暗示更高的频率可能很重要是音频设备制造商经常使用的策略,他们向客户过度推销,除非这些客户恰好是狗或蝙蝠!

突兀的滤波器可能设计得很糟糕,以至于会产生可听见的失真(类似回声),但即使是 44.1 kHz CD 采样率(理论截止频率为 22.05 kHz)也允许携带高达 20 KHz 的响应,而滚降仍然足够柔和,以至于不会产生这种可听见的失真。是的,更高的采样率可以用于录音和播放系统中的数字滤波器,但录音的采样率不必像滤波器中使用的那样高。

呼。

约翰,感谢您的评论。

我觉得不太舒服把这个论坛变成辩论工具。话虽如此,您提出了一些我不能容忍的说法。

首先,“没有使用最高的 4 位或更多位的录音是母带制作很差的”。我提到的录音确实使用了最高的位,但它们的电平通常要低得多。这并不是缺陷的迹象,而是作曲家预期动态的迹象。

其次,重点是,在主要安静且偶尔出现动态峰值的音乐中,较少的位用于表示低电平信号;并且使用 16 位来捕获动态峰值会留下更少的位来捕获低电平信号;反过来,这意味着在这些低电平信号中,失真比相同录音在 24 位时更显着。从另一个角度来看,如果音乐是以 24 位录制的,我为什么要满足于 16 位的演绎?

第三,您关于滤波器的采样率高于录音的采样率的评论……滤波发生在离散化之前,以减少混叠。

最后,我认为您通常误解了我的观点:我更喜欢更高的速率/更高的位深度,主要是因为它们通常——至少在我的经验中是这样——表明在生产链中采取了更多的谨慎措施。有太多的音乐“在那里”,更多的是生产过程的产物,而不是原始表演的产物,这体现在应用的压缩上(对于 FM 和 AM 广播市场??? 以及对于那些将听音乐等同于戴着耳机在嘈杂的街道上行走的人)。我提倡将聆听作为主要活动,因此使用高质量的软件和工具。

回复 作者:约翰·S·艾伦 (未验证)

关于最高的 4 位或更多位:接受您的观点;许多流行音乐录音中的音量压缩和彻底削波非常不幸。但是,降低 4 位仅降低 24 分贝,并且在简单抖动录音中,噪声水平之上仍然保留约 68 分贝,在具有最佳噪声整形抖动(如索尼超级位图录音中)的录音中,噪声水平之上仍然保留 90 分贝。即使使用简单的抖动,麦克风前置放大器噪声和房间噪声也很可能掩盖抖动噪声;对于 90 分贝,即使在非常响亮的收听电平下,抖动也是完全听不见的。

“反过来,这意味着在这些低电平信号中,失真比相同录音在 24 位时更显着。” 低电平失真发生在早期使用具有非线性传递函数和/或不良或无抖动转换器制作的数字录音中。关于失真的讨论仍在流传,但正确的数字化 *没有* 失真。音频信号沉入抖动产生的极低电平嘶嘶声中。这已在数学上得到证明,并在实践中得到证明。

“从另一个角度来看,如果音乐是以 24 位录制的,我为什么要满足于 16 位演绎?” 因为没有可听到的差异,并且因为更高的数据速率浪费带宽。

“第三,您关于滤波器的采样率高于录音的采样率的评论……滤波发生在离散化之前,以减少混叠。” 正确,当在录音中使用高采样率时,模拟滤波可以不那么陡峭。但是,然后陡峭的数字滤波可以将传输或存储的录音中的采样率降低到低至 44.1 k 而不会产生可听到的影响。在播放时,可以再次乘以采样率,以便使用逆过程:陡峭的数字滤波器,温和的模拟滤波器。滤波很便宜:昂贵的是数据存储或流媒体。

“最后,我认为您通常误解了我的观点:我更喜欢更高的速率/更高的位深度,主要是因为它们通常——至少在我的经验中是这样——表明在生产链中采取了更多的谨慎措施。” 正如我在第一条评论中同意的那样,在录音期间使用更高的位深度和采样率是有意义的,当处理不可预测的电平变化和混合多个音轨时——但是不需要在 CD 上录制或流式传输的数据中使用更高的位深度和采样率。除此之外,即使是最高质量的有损数据压缩方法也已通过听力测试和与未压缩信号的减法比较表明,产生了完全听不见的变化。

至于您对开源压缩优于 MP3 的偏好,Lame(代表“Lame 不是 MP3 编码器”)编码器与 Fraunhofer 编码器的关系是否与 Linux 与专有 Unix 的关系相同?我使用 Lame,文件与 MP3 兼容,而且从来没有人向我追讨版税。

回复 作者:clhermansen

约翰,感谢您的评论。

我的文章的目的不是捍卫 96/24 与 44.1/16 的内在属性,而是真正建议人们考虑更高分辨率的东西,因为——至少在我的经验中是这样——它通常比楔入 CD 或 MP3 或任何其他格式的东西更好地进行母带制作,并且更忠实于原始版本。

尽管如此,还是说几句简短的评论,然后我保证不再多说。

MP3 文件:我不想要它们。首先是因为它们使用有损压缩,其次是因为它们不是开放标准。在另一条评论中,您会看到它们可能不再受专利约束。如果是这种情况,那么这个问题可能就没有意义了,我想;但我不够聪明,无法理解它们是否是免费的。至于是否有人追讨您的版税,那不是我的问题。一些闭源软件公司曾威胁或起诉一些开源软件公司,因为后者创建的开源软件违反了前者持有的专利。这限制了我作为开源潜在消费者的自由,因此只要有可能,我就会尝试使用不受专利影响的软件。也许我是在唐吉诃德式的幻想;就这样吧。

“正确的数字化没有失真”——在这里您错了。所有数字化都存在离散化误差,这是由于用有限数量的位表示或多或少连续的数据(模拟数据)而产生的。位数越小,离散化误差越大。抖动将离散化误差转化为噪声,而噪声就是失真。以下是维基百科文章 https://en.wikipedia.org/wiki/Quantization_%28signal_processing%29 中的一段精彩引述

“然而,上述计算 [信噪量化误差] 假设输入通道已完全填满。如果情况并非如此——如果输入信号很小——则相对量化失真可能非常大。为了规避这个问题,可以使用模拟压缩器和扩展器,但这些也会引入大量失真,尤其是在压缩器与扩展器不匹配的情况下。此类压缩器和扩展器的应用也称为压扩”

请注意提及“如果输入通道未满”。

“陡峭的数字滤波可以将传输或存储的录音中的采样率降低到低至 44.1 k 而不会产生可听到的影响”和“滤波很便宜:昂贵的是数据存储或流媒体”和“更高的数据速率浪费带宽”和“不需要在 CD 上录制或流式传输的数据中使用更高的位深度和采样率”——好吧,我还能说什么呢;您的首要任务是以高采样率进行量化,然后应用 FIR 滤波器或类似滤波器来节省存储和/或方便流式传输。我的不是;我的目的是以尽可能接近原始格式的格式获取我的音乐——只是不要费心应用 FIR 滤波器,并给我原始格式,最好是 24 位。我真的不想购买 44.1/16 或 256kbps MP3 格式的音乐,如果它们有 96/24 格式的话。如果我出于某种原因需要这些格式,我可以随时自己降采样。

我的人生音乐体验是,一直有人在创作优美的音乐,而且几乎一直有人通过损害其保真度来包装它,从而妨碍我对优美音乐的欣赏——高速卡带复制;8 轨磁带;用于制作质量低劣的 LP 的第 10 代母带,这些 LP 使用大量回收废乙烯基;粗心转换的模拟音乐匆忙地放到 CD 上;音乐被压缩到极限,使其在 AM 广播中听起来更响亮;音乐转换为 128kB AAC 文件,以便它可以放在我不拥有也不想拥有的设备上;等等,等等。现在有人愿意给我非常接近母带的东西,我想购买它并欣赏它的所有辉煌。我想支持那个市场。我希望 Pono 和 HDTracks 和 ProStudioMasters 能够成功(尽管我希望他们有一个更开放的下载过程),因为他们通常都关心提供高质量的音乐。如果他们链条的一部分是 96/24 或 192/24,对我来说也没问题。

我对音乐的关注是聆听和热爱它,而不是担心它占用多少磁盘空间。那些告诉我我必须更喜欢适合 CD 或可以在下载中流式传输的音乐,而不是未经挤压和压缩的 96/24 重制版的人...

回复 作者:约翰·S·艾伦 (未验证)

很有趣,因为几天前我浏览了一篇来自 2011 年的 Xiph 文章,标题为“24/192 音乐下载……以及为什么它们毫无意义”:http://people.xiph.org/~xiphmont/demo/neil-young.html

此外,您没有谈到您用来收听这些 FLAC 文件的设备。我相信这需要相当特定的设备(和出色的耳朵)才能以正确的方式收听这些文件。是否会有关于此的后续文章?

皮埃尔,感谢您的评论。

我将在接下来的两篇文章中谈谈我的设备体验——第一篇是关于笔记本电脑,然后是关于“家庭立体声音响”。

您提到的 Xiph 文章从“我们的耳朵不需要这种更高分辨率的东西”的角度出发。我的主要观点是,更高分辨率的东西通常表明生产链更倾向于产生高质量的结果。我的次要观点是,我想听的音乐通常是以这种更高的分辨率录制的,那么我为什么要让别人在卖给我之前把它扔掉呢?

最后,Xiph 文章中关于劣质设备在高分辨率信号存在下表现不佳的观点有一个很好的解决方案——不要购买劣质设备!

回复 作者:皮埃尔·E. (未验证)

感谢您的回复,克里斯!期待阅读您的下一篇文章。

回复 作者:clhermansen

令人惊讶的是,您不需要高端音频设备就能听到差异。我最近在我的 10 年旧车上安装了一个辅助输入。这辆车确实配备了“高级”音频系统,但所有这些都意味着有一个额外的放大器和 Infinity 扬声器,而不是非放大的普通扬声器。

同一音乐的 256k MP3 和 FLAC 之间存在非常明显的差异。事实上,如此之大,以至于我花了几天时间用 FLAC 格式重新翻录我的 CD 收藏。我不是一个花数千美元购买音频设备的人,但我确实知道我会在任何可能的地方使用 FLAC。

回复 作者:皮埃尔·E. (未验证)

感谢您的评论,乔什。

关于设备,您可以购买并出售它,如果您有兴趣和预算,可以升级换代。理论上,更好的设备应该让您的所有音乐听起来更好(尽管有些音乐录音太差,我认为不算数)。当您决定想要更好的东西时,很难升级换代 MP3 下载。我赞扬您将 CD 重新翻录为 FLAC;我希望您喜欢您的“新音乐”!

回复 作者:乔什 (未验证)

感谢您的评论,塞斯!

我站在您“让耳朵来判断”这一边,但可以肯定的是,我们可以用这种说法开始争论!

至于将人们转变为音响发烧友的世界观,比我优秀的人已经尝试过了!但我希望在一个建立在“开放”概念之上的论坛中,至少一些读者会足够开放,愿意给更好的音质一个机会……

关于您的黑胶翻录,您做了什么?独立的 USB-唱机前置放大器,还是将您的声卡连接到您的立体声磁带输出,还是……?什么软件?

再次感谢!

很棒的文章。也很喜欢您用作示例的音乐。

24/192 音乐下载……以及为什么它们毫无意义
https://people.xiph.org/~xiphmont/demo/neil-young.html

感谢您的评论,埃里克。

其他人已经在上面提到了这一点,事实上,我在写我的文章之前不久读过这篇文章并重新阅读了它。

我真的没有兴趣试图反驳那篇文章,除了最后关于设备无法处理更高分辨率音乐的评论,对此我的回应是“那就买更好的设备”。

我提倡的是 1) 以您可以获得的最佳形式获得音乐,这可能是通过翻录 CD 或 LP,以及 2) 考虑更高分辨率的下载,因为在我的经验中,它们通常表明生产链更好,比大众市场 MP3 或 AAC 结果,甚至 CD 更忠实于原始版本。当然,这并非总是如此。只是值得考虑。

回复 作者:埃里克 (未验证)

尤其是在录音期间,24 位音频允许更多“动态余量”来补偿没有获得恰到好处的音量,这种观点是有道理的。一旦音乐完成母带制作,这应该不再必要,但您始终可以争辩说,无法保证母带是完美的。

然而,数字滤波器用于音频录制(有限脉冲响应滤波器)会引起相位偏差的想法是不正确的。模拟低通滤波器可能会这样做,但 FIR 滤波器不会这样做,无论你设法使它们多么接近“砖墙”。用示波器进行的测试证明了这一点。采样率与您可能使用的模拟滤波器的类型之间没有关系。一些早期的 CD 播放器具有“砖墙”模拟滤波器,这会因相位偏差而导致失真。这个问题通过使用数字滤波器和更温和的模拟滤波器得到了解决。

我还注意到在“音质优良的电脑”文章中,他们声称 44.1 kHz 音频通过“插值”被升采样到 48 kHz。然而,这是一种误述。插值意味着您对样本所在位置的计算仅仅是一种估计。声波是可预测的,因此计算它在任意两个已知样本之间的位置不是估计;它是实际的。我想理论上,你不能确定声波以哪个样本结束,但只要它在奈奎斯特频率范围内,无论如何都不会有任何区别。

CFWhitman,感谢您的评论。

数字滤波器,即使是像 FIR 滤波器这样好的滤波器,也只能在信号数字化后应用。

并且包含高于离散化率 1/2 的内容的信号将存在混叠。因此需要在离散化之前应用模拟滤波器,以消除(或至少大幅减少)高于奈奎斯特频率的模拟内容。

具体来说,如果您有一个模拟信号包含高于 20kHz 的能量(例如铙钹产生的能量),您必须在以 44.1kHz 等频率将其转换为数字信号之前应用模拟滤波器来减少或消除该能量。您不能使用 FIR 滤波器来完成此操作,因为 FIR 滤波器是数字的。

恕我直言,您对 44.1 kHz 到 48 kHz 转换的理解是不正确的。唯一已知的值是在采样点。任何尝试确定中间值(在采样点之间)的尝试都是插值,而这正是您将信号从一个采样率转换为更高采样率时需要做的。

考虑一下:使用 44.1kHz 采样,每 0.0000226757... 秒收集一个样本。也就是说,我们收集的样本在

1/44100 = 0.00002267573696145124 秒
2/44100 = 0.00004535147392290249 秒
3/44100 = 0.00006802721088435374 秒
4/44100 = 0.00009070294784580498 秒
5/44100 = 0.00011337868480725623 秒

等等。

为了提供 48kHz 信号,我们需要在以下时间点提供信号

1/48000 = 0.00002083333333333333
2/48000 = 0.00004166666666666666
3/48000 = 0.00006250000000000000
4/48000 = 0.00008333333333333333
5/48000 = 0.00010416666666666666

生成这些值的唯一方法是在 44.1kHz 样本之间进行插值。例如,我们可以使用线性插值。在这种情况下,2/48000“样本”点的值将是

S(2/48000) = (2/48000 - 1/44100) * (S(2/44100) - S(1/44100)) / (2/44100 - 1/44100)

其中 S(2/44100) 表示在 t = 2/44100 时采集的样本信号,S(1/44100) 表示在 t = 1/44100 时采集的样本。

当然,也可以使用其他插值方案。

回复 ,作者是 CFWhitman

关于采样率,长期以来一直以高采样率进行录音。我的评论仅与播放有关。一旦录音数字化,您就可以安全地应用数字滤波器并以低得多的采样率进行母带处理,而不会丢失相关数据。

关于插值,您的评论是不相关的(除非线性插值永远不会被使用;那将是一种猜测,而且是很糟糕的猜测)。只要您有足够的采样点来准确地重建声波,您就可以准确地预测声波上的任何采样点。

正如我在上一篇文章的评论中提到的,这在原理上类似于预测直线上的点。一旦你有了直线的端点,你就可以用相对简单的数学方法预测任何中间点。对于声波,一旦你有了足够的样本来准确描述声波,你就可以完美地准确预测两个样本之间的任何点,尽管数学方法没有那么简单。

回复 ,作者是 clhermansen

恕我直言,我对插值的评论并非不相关。“插值”是用于确定已知值之间存在的未知值的正确数学术语。您使用“预测”一词,例如“您可以准确预测声波上的任何采样点”或“这在原理上类似于预测直线上的点”或“您可以完美地准确预测两个样本之间的任何点”,实际上正是“插值”。

此外,选择插值的阶数——线性、二次、三次等——每一种都需要更多的点来求解插值系数,无论是分段多项式还是其他,都不会提高对插值点值的预测精度。事实上,插值函数形状的选择完全是美学上的。

当您应用低通滤波器来限制原始信号的带宽,然后对该带宽限制信号进行采样时,您丢弃了最初在插值点发生的实际值,因此您无法说明您的结果相对于原始信号的准确性。您所知道的只是您在采样点对滤波信号的测量是精确的。当您预测两个样本之间的点时,您所做的只是猜测。如果您幸运的话,您的猜测会悦耳。它们不会是准确的。

恕我直言,我建议您进一步研究插值问题,也许可以访问 https://en.wikipedia.org/wiki/Interpolation;或者,如果您愿意,我仍然收藏了我的数值分析教科书,可以为您提供章节和出处。

回复 ,作者是 CFWhitman

从数学角度来看,您在填充此数据集时所做的事情是插值。然而,从工程学的角度来看,这是一种误述(请注意,这与我之前使用的词相同)。也就是说,当在数学中使用“插值”一词时,它意味着计算集合中丢失的数据,它是纯数学,谁会说数据是不准确的呢?从工程学的角度来看,对于填充集合中的样本,“插值”通常意味着用数学公式猜测或估计无法准确预测的点。“插值”一词通常不用于工程学中计算可以精确数学预测的数据。

您不必猜测声波中丢失的点。对这些点的计算不是猜测;它们是精确的数字。声波对于每个频率只能有一种形状。它不会变化。您可以使用三角学来预测已知样本之间的所有点。如果声波在两个已知点之间可以随机变化形状,那么奈奎斯特频率甚至不足以准确记录它们。您需要更快地采样它们,才能开始准确地表示它们。基本上,今天存在的数字录音根本无法工作。

这并不是说这个过程中不会出现错误,但这就是过采样的目的。与提高采样频率相比,过采样在消除或补偿错误方面做得更好,并且没有提高采样频率可能带来的缺点。

回复 ,作者是 clhermansen

CFWhitman,也许我们在这里争论得太多了,但您的陈述是不正确的。

首先,您似乎认为使用“三角学来预测已知样本之间的所有点”与插值有所不同。事实上,它恰好是线性插值。并且找到连接另外两个点的直线上的一个点最多是“精确”的,而不是“准确”的。准确性需要知道在该时间点实际发生的值,而我们已经通过滤波和采样将其丢弃。所以我们永远不会是准确的。

其次,“如果声波在两个已知采样点之间可以随机变化形状,那么奈奎斯特频率甚至不足以准确记录它们”——这正是问题所在!声波在两个已知采样点之间确实会发生变化,而且不一定是线性模式。当应用滤波时,我们正在消除这些变化。奈奎斯特频率仅足以对滤波后的音乐进行采样,而不一定是对原始音乐进行采样。

想想以 44.1kHz 或 48kHz 录制打击乐器。如果您查看这篇文章 http://www.drummerworld.com/forums/showthread.php?t=66957,您会看到铙钹的频谱内容高达 40kHz 甚至更高。因此,将此内容放入 44.1 或 48kHz 信号的唯一方法是应用低通滤波器。现在考虑在 44.1kHz 下这样做,滤波器在 20kHz 处滚降。您已经消除了 20kHz 以上的所有频谱内容(信号)。如果您然后尝试从 44.1kHz 信号生成 48kHz 信号,您可以很容易地看到,在新“样本”点处预测的值缺少在滤波中丢弃的必要频谱信息,因此永远只能凭借运气与原始信号一致。

您可以反驳说“但是这一切都超出了人类听觉范围”,但这并不是重点。重点是预测采样点之间的值永远不是准确的;它只是对原始波形的近似,我们永远不知道它会有多好。

第三,您的评论“您需要更快地采样它们,才能开始准确地表示它们”恰恰是重点——您确实需要以比 44.1kHz 高得多的速率对音乐进行采样,才能获得对音乐的准确近似。同样,无论您、我还是我的狗是否能听到这一点,都与重点无关。

过采样与计算采样点之间信号值的合理近似值无关。

回复 ,作者是 CFWhitman

我不想就此没完没了地争论下去,但我会尽量把它说得更清楚。

关于插值,我不想争论语义。我想明确正在发生的事情。从数学的角度来看,从技术上讲,任何时候你计算你没有收集到的数据,那都是插值,就像从技术上讲,所有正方形都是矩形一样,即使在脱离语境的情况下将正方形称为矩形会产生误导。

“事实上,它恰好是线性插值。”

不,那是不正确的。正弦波不是线性计算的。三角学不仅仅是线性插值。声波是可预测的。只要您有足够的数据来准确描述波,就可以准确计算丢失的数据。

“您可以反驳说‘但是这一切都超出了人类听觉范围’,但这并不是重点。重点是预测采样点之间的值永远不是准确的;它只是对原始波形的近似,我们永远不知道它会有多好。”

您刚刚抛弃了现代数字录音理论,该理论已经应用了三十多年。超出我们试图捕捉范围的声波与讨论无关。为什么要引入它们?如果您愿意,您可以捕捉它们,但您需要达到这些频率的奈奎斯特速率才能做到这一点(顺便说一下,在我上一篇文章中,我应该说奈奎斯特速率,而不是频率,频率是相关的,但实际上不是我想要的术语)。如果您不这样做,那么您甚至无法开始计算它们的波形。出于实际目的,铙钹碰撞中您听不到的部分与您正在捕捉到的部分是不同的声波。

也许您应该进一步了解过采样的作用。

我将总结一下。如果您的说法是正确的,那么已经应用了三十多年的数字录音理论就是一堆垃圾。奈奎斯特速率毫无意义,而那些声称您需要 192kHz 文件才能获得准确声音的人可能低估了这一点。另一方面,如果数字录音理论是正确的,那么您只需要奈奎斯特速率给您的采样点数量,就可以准确预测所有中间的点。

回复 ,作者是 clhermansen

CFWhitman,我永远不会抛弃现代数字录音理论。您一直在试图“把话塞进我嘴里”,但我从未说过这些话。我没有理由批评奈奎斯特-香农定理或任何与采样信号相关的内容。

该定理告诉我们,我们需要以多快的速率对带宽受限的信号进行采样,以便能够无错误地重建相同的带宽受限的信号。但是,当我们首先对输入信号进行滤波以限制其带宽时,我们会丢弃任何高于滤波器频率的信号,这样我们就不会在结果中得到混叠。因此,重建的信号实际上可能与采样的带宽受限信号相同(或在现实世界的限制和字长给定的情况下几乎相同)。

然而,如果我们以 44.1kHz 和 88.2kHz 对原始信号进行数字化,那么 88.2 信号中存在大量频谱信息,而 44.1 信号中不存在这些信息。因此,当我们尝试将 44.1 信号转换为 88.2 信号时,我们不会得到相同的结果(无法“找回”被滤波消除的信息)。

换句话说,如果我们能够安排两次数字化,使 44.1 个样本恰好落在每隔一个 88.2 样本上,我们就无法从 44.1 个样本中确定另外一半 88.2 个样本。我们可以“猜测”(插值)一个值,使用线性插值或使用 sinc 函数或任何其他类型的重建滤波器,但最终我们丢弃了信息,并且无法将其找回。

两者之间的差异是否显着?我不打算讨论这个问题,那是尼尔·杨争论的事情。

这让我想起来!我不会再对此说什么了,因为这与我一直试图表达的观点相去甚远——我更喜欢我的音乐尽可能接近原始音乐(而不是下采样以适应 CD 或适合在 56Kb 调制解调器上下载的大小)。如果其他人不认同我的观点,那就这样吧!

回复 ,作者是 CFWhitman

我没有把话塞进你嘴里。重点是,如果奈奎斯特-香农定理是正确的,那么可听频率将被精确地再现。因此,当您将捕获的内容升采样到任何更高的速率时,您不必猜测信号可听部分(旨在捕获的部分)的更高速率的采样点。该定理表明,您已经完美地捕获了信号的该部分,因此可以完美地准确预测捕获的声波上的任何点(无论如何,这在理论上是正确的)。如果您无法预测这些点,那么该理论就是不正确的。

高于 20kHz 的信号(或高于您使用的奈奎斯特速率限制您的任何频率)根本没有被准确捕获。您没有足够的采样点来猜测丢失的点(这就像试图仅用一个端点重建一条直线)。但是,没有理由关心那些丢失的部分。仍然可以完美地准确地将 44.1kHz 捕获的可听部分升采样到 48 kHz(不涉及猜测)。没有人关心丢失的(听不见的)部分。它们已被滤除。链接的文章表明,您无法在不“猜测”丢失的采样点的情况下做到这一点,因为它们位于您捕获的点之间。那是不正确的。当然,任何出于嘲笑以外的目的而绘制阶梯状声波图的文章都不是由理解奈奎斯特-香农定理的人写的。

回复 ,作者是 clhermansen

我读了一些关于这方面的资料,意识到我在上一篇文章中所说的一些内容已经过时了。它反映了 30 年前 CD 推出时的状况。然而,当前的数字录音设备可以记录音频,而无需通过任何类型的模拟滤波器。相反,信号以高采样率数字化,并通过数字滤波器,然后才以更实用的采样率保存。显然,许多较新的音乐最初甚至没有以高于 48kHz 的速率录制(尽管当然使用了 24 位,并且对于母带处理之前的阶段是必要的)。

回复 ,作者是 clhermansen

CFWhitman,我再次感谢您就 24 位字长或高于 CD 分辨率对于正确欣赏音乐播放是不必要的这一观点提出的意见。我相信本文的其他读者可以使用他们自己的标准来做出自己的判断。

同时,我将借此机会提醒您和其他人,我对这一切的看法是:1) 非常动态的音乐(我有几个例子)可能不适合 16 位字长;2) 我的经验是,以更高分辨率和采样率发布的录音可能经过了精心制作,以最大限度地提高其音乐价值;3) 我选择不购买以旨在减少带宽和存储消耗的格式制作的音乐,在 56kB 调制解调器和 20Mb 硬盘驱动器的时代。如果其他人不认同我的观点,那就这样吧!

回复 ,作者是 CFWhitman

我在这里的重点与 16 位与 24 位文件无关。我只是顺便提一下,在母带处理之前,您确实需要使用 24 位文件。之后就值得商榷了(并不是说我绝对不同意)。

回复 ,作者是 clhermansen

FYI:MP3 此时几乎可以肯定没有专利。在 MP3 规范发布之前提交的最后一份美国专利已经到期。
https://plus.google.com/116809495975386153151/posts/4KJ1hwUT8Gh

很高兴知道,Josh。我阅读了您在 G+ 上的免责声明,我相信您不会介意我对此持保留态度!

回复 ,作者是 Joshua J Cogliati(未验证)

一篇令人愉快且具有启发意义的文章 - 以及后续辩论。

感谢所有付出努力的人。

有一个段落我不明白

“很容易判断您的音乐是否是从较低分辨率的来源升采样的 - 频谱图会告诉您。”

所以我下载了最新的 Bowers & Wilkins Society-of-Sound 下载内容之一。

Audacity 说这是一个 88200Hz 立体声 32 位浮点录音。

但是 Audacity 频谱图在 20KHz 以上急剧下降,在 22KHz 左右下降 -90db。

因此,如何从频谱图中推断出采样率和比特率(在这种情况下,我会说它指示 16 位,44.1KHz?)

诚挚地

我可能在那里太轻率了!抱歉。让我试着更明确一点。

首先,我首选的 Linux 音乐播放器是 Guayadeque,它会告诉我正在播放的音乐的比特率。所以现在我正在听 Afro Celt Sound System 的 Whirly Reel,来自他们的第一张专辑,从我拥有的 CD 中翻录的。Guayadeque 向我显示比特率约为 800kbps。现在我正在听 Ali Farka Touré 和 Toumani Diabete 的 Kenouna,这是不久前免费下载的 MP3。Guayadeque 向我显示比特率为 256kbps。现在我正在听 Beaten by Them 的 Damp Sky 1,这是从 Linn Records 获得的他们专辑 Invisible Origins 的 96/24 下载。Guayadeque 向我显示比特率为 2700kbps。

所以我可以从 Guayadeque 了解字长和采样率(组合)。有趣的是,不久前我购买了 Ronn McFarlane 的 Indigo Road 的下载。这应该是 96/24,但它显示的比特率为 1200kbps(只有我根据例如我上面提到的 Invisible Origins 预期的比特率的一半)。我联系了供应商;他们调查后告诉我,它实际上是 96/16!嗯。嗯,肯定有什么不对劲。就此测试而言,它也可能是 44.1/24。

好吧,频谱方面呢?我喜欢“spek”实用程序 http://spek.cc/,因为它对音乐的可视化会告诉您很多关于那里有什么——或者没有什么!正如您所说,在更高分辨率的东西中,20kHz 以上的东西往往不多,但还是有一些的。

我下载了一个 96/24 的 Buena Vista Social Club 同名专辑。查看 Chan Chan,可以看到与音乐相关的信号一直延伸到大约 35kHz,然后在此之上什么也没有。请注意,任何高于 20kHz 的东西都非常接近 -120db 及以下,但是当高电平的东西存在间隙时,高频、低电平的东西也会出现匹配的间隙。

我下载了一个 96/24 的 Counting Crows August and Everything after。查看 Mr. Jones,在 20kHz 和更低的泛音(高达 30kHz)处,有相当多的 -60 - -70dB。在 40-48kHz 之间,还有一个相当恒定的噪声源,约为 -100db,我敢打赌那是磁带偏置或类似的东西。

Darcy James' Secret Society 的一张非常动态的爵士专辑 Brooklyn Babylon,在 44.1/16 下清楚地显示,泛音在略低于 22kHz 处被突然截断。听得见吗?抱歉,我不打算争论这个问题 :-)

所以试试这两款出色的软件,看看你的想法!

回复 ,作者是 rutherfordpaul(未验证)

我正在将我最喜欢的电影从蓝光重新编码为 mkv 文件,我选择以 FLAC 格式存储音频
它是无损的、多声道的,并且适用于我测试过的所有视频播放器

听起来很酷,Danny!我想当你说“视频播放器”时,你的意思是像 VLC 这样的软件视频播放器,而不是你的家庭影院接收器上的 USB 端口?

感谢您的评论!

回复 ,作者是 Danny3(未验证)

好吧,我被说服了。请您推荐一些购买 FLAC 格式音频的地方吗?我再也不会买 MP3 了。

谢谢!

Joseph,感谢您的评论!

我住在加拿大,我们的选择比英国或美国(例如)受到更多限制。但这里有一些我经常购买 FLAC 音乐的网站

https://bandcamp.com/
https://bleep.com/(有时也有 24 位 WAV)
http://www.linnrecords.com/
http://www.gimell.com/
https://ca.7digital.com/(或您所在国家的网站;这里越来越倾向于 FLAC)

还有很多其他的;您应该回顾一下本文的评论,因为有读者提出了各种建议。

当您对特定艺术家感兴趣时,要做的另一件事是查看他们的官方或粉丝网站,或有时是他们的唱片公司网站,看看他们是否建议 FLAC 的来源。这可能需要一些侦探工作...

还有一些网站以 FLAC 格式销售,但需要 Windows 或 OS/X 下载器。好消息是他们的目录相当不错,但坏消息是您必须使用 Wine 或借用别人的电脑,至少才能进行下载。

https://www.hdtracks.com/
http://store.acousticsounds.com/superhirez
http://www.prostudiomasters.com/(加拿大网站)

别忘了,有时以合理的价格获得 FLAC 的好方法是购买 CD 并翻录它!如今 CD 通常非常便宜……而且您至少有一个备份,直到狗拿到它为止……

最后——不要对 MP3 说“永远不”。有时除了有损格式之外,没有其他明显的方式来获得一段音乐。所以如果你必须这样做...

祝您收听愉快!

回复 ,作者是 Joseph S(未验证)

知识共享许可协议本作品根据知识共享署名-相同方式共享 4.0 国际许可协议获得许可。
© . All rights reserved.