为什么我选择 FLAC 音频

还没有读者喜欢这篇文章。
Sheet music with geometry graphic

Jen Wike Huger 拍摄

在本文中,我将重点关注数字格式的音乐。此外,因为我是一个 Linux 爱好者,我将从 Linux 的角度来探讨这个话题。

大多数人都听说过 MP3 格式。它是以下两件事的例子:首先,它不是开放格式,因为许多组织声称拥有其专利。其次,它是一种“有损”格式。有损格式通过丢弃一些信号成分来压缩原始信号。这种压缩的最初理由是为了使音乐文件更小、更易于分发。相比之下,还有“无损”格式,它可以压缩(不丢弃原始信号)或不压缩。以光盘 (CD) 形式呈现的数字音乐是无损格式的一个例子(假设它是音频 CD,而不是保存了 MP3 的数据 CD)。

还值得一提的是,有两种主要的数字音乐编码方式:脉冲编码调制 (PCM) 和 Δ-Σ 调制 (DSM)。直到最近,大多数数字音乐都使用 PCM 编码;但索尼和飞利浦建立了一个基于 DSM 的标准,称为 DSD,并在超级音频 CD (SACD) 光盘上实现了它。少量但越来越多的音乐可以以这种标准下载。关于它们之间更详细的区别,我们将留给维基百科来解释。

我们这些关心软件自由的人应该更喜欢完全自由的格式,例如 Ogg Vorbis(有损)和 FLAC(无损,压缩)。我们尤其应该避免包含数字版权管理 (DRM) 选项的文件格式。理论上,人们可能会认为 DRM 只是一种防止未经授权使用(盗窃?)他人知识产权的机制。然而,某些供应商使用 DRM 来迫使其客户使用他们的软件,有时甚至是硬件。再次强调,维基百科有一篇很好的详细文章介绍了整个格式业务。

但是,决定格式不应该——或者至少不应该是——首要关注的问题。相反,我们每个人对音乐的使用都有不同的目标。我将解释我的目标,然后进一步解释这些目标如何影响我对文件格式的决定。

首先,并且为了强调,我非常支持软件自由。这意味着我更喜欢 Ogg 或 FLAC 格式的数字音乐。任何因专利或商业秘密而限制访问的格式对我来说几乎或根本没有吸引力。

其次,我的音乐收藏可以追溯到 20 世纪 60 年代。我仍然保留着多年前购买的大部分 LP(有时会让我感到尴尬),其中一件让我非常愉快的事情是,在现代模拟播放设备上,这些旧 LP 中的一些仍然听起来非常棒。我喜欢认为,像戴夫·布鲁贝克 (Dave Brubeck) 的 Time Out 这样音质出色的 LP,最初录制于 1959 年,至今听起来仍然令人难以置信地清新和清晰,部分原因是录制它的人员使用他们的设备做了出色而细致的工作。因此,当我现在购买音乐时,无论是在 LP 上还是作为音乐下载,我都尽量获得尽可能好的录音质量。

因此,我强烈偏好购买数字无损格式,而不是有损格式。事实上,如果某物仅以有损格式提供,我通常不会费心购买它。而且我不仅购买无损格式,而且在可用时,我购买的分辨率也高于“CD 标准”。当然,我首选的无损格式是 FLAC!

让我们花一点时间谈谈分辨率。CD 上的音乐以 44.1kHz 的采样率和 16 位的字长呈现。理论上,这意味着 CD 上录制的最大的声音是最小的声音的 216 倍,即 65,536 倍。这意味着,如果您的录音显示了完整的动态范围,并且您将音量调高到刚好可以听到最安静的部分,那么最响亮的部分将非常响亮,以至于会超过听觉疼痛阈值。

此外,奈奎斯特-香农采样定理 告诉我们,44.1kHz 的采样率足以保留高达 20kHz 的声音频率(“kHz”是“千赫兹”的缩写,即每秒周期数),据说这是听力极佳的人类听觉上限。

那么,为什么我认为我需要比 CD 标准更高的分辨率呢?

很简单。以 96kHz 的采样率和 24 位的字长呈现的录音,比 44.1/16 版本提供了更大的“空间”来容纳原始模拟信号——不仅仅是最响亮的声音和最柔和的声音。这意味着录音不必处于如此接近最大值的水平,以至于偶尔会超过它。(超过最大值的信号被称为“削波”,削波会引入原始录音中不存在的各种难听的声音。)此外,音乐中的安静声音有更多的位来表示它们。

例如,Marconi Union 的 Breathing Retake 通常低于最大值 25dB。dB,或分贝,是实际电平(在本例中为 -25dB)与参考电平 0dB 之间的比率。低于参考值 -25dB 的信号的四个最高有效位设置为零。因此,在 -25dB 的 16 位字长音乐中,只有 12 位的信号值,而在 24 位字长中,则有 19 位的信号值。Eric Whitacre 的 塔利斯学者 (Tallis Scholars) 演奏的 Sainte-Chapelle 以 -35dB 到 -40dB 的速度运行,这在 16 位字长的情况下,给信号留下了 10 位或更少的位。24 位字长为录音工程师提供了更大的自由度来录制播放的音乐,而无需压缩音乐以使其适应 16 位的动态范围。

至于采样率,96kHz 的采样率可用于高达 45kHz 左右的音频频率,而 192kHz 可用于高达 90kHz 左右的频率,远远超过人们认为的人类能力的上限。然而,拥有额外的带宽意味着,在模拟信号数字化之前必须应用于模拟信号的滤波可以比 44.1kHz 采样率的情况温和得多。温和的滤波器通常比更突兀的滤波器更受音频特性方面的青睐。《The Well Tempered Computer》网站上有 几篇关于这个主题的好文章

购买高分辨率素材的另一个理由是:我的经验告诉我,当音乐以高分辨率格式发布时,它通常在生产链中得到很好的照顾,并保留了原始的动态范围(响亮就是响亮,安静就是……)和音乐的生命力,而不会向音乐中引入大量人为因素——噪音!

总之:当我购买数字音乐下载时,我购买 FLAC 格式,并尝试获得 24 位文件和 88.2kHz 或 96kHz 采样率。我的音乐文件是花钱买的。我为什么要愿意接受质量差的有损文件?我为什么要愿意让供应商将我锁定在特定的软硬件平台上?

Chris Hermansen portrait Temuco Chile
自从 1978 年毕业于不列颠哥伦比亚大学以来,我几乎总是离不开电脑。自 2005 年以来,我一直是全职 Linux 用户,从 1986 年到 2005 年,我一直是全职 Solaris 和 SunOS 用户,在那之前,我是 UNIX System V 用户。

40 条评论

值得阅读这篇文章,您可能会惊讶地发现,高分辨率音频并非完全像吹捧的那样:https://xiph.org/~xiphmont/demo/neil-young.html

另请注意,您不知道这些文件是从哪个来源创建的。如果是原始工作室母带,那是一回事。但我怀疑,可供下载的大量文件是从 44.1/16 的原始文件创建的。在那种情况下,它们只是浪费空间。

仅供参考,在过去的十年左右,我一直在将自己的音乐翻录到 FLAC。

谢谢您的评论。我实际上读过那篇文章,它并没有让我感到惊讶。它没有提到的是,当以更高的分辨率录制音乐时,转换为较低分辨率是一个不必要的且破坏信息的步骤。我更喜欢原始文件,并且我更喜欢购买旨在处理更高分辨率内容的设备。

很容易判断您的音乐是否是从较低分辨率的源文件升频的 - 频谱图会显示出来。在这种情况下,我会说要求退款。

回复 作者:Tet (未验证)

很棒的文章。我倾向于让我的耳朵来判断什么需要什么样的采样率,所以我没有规则,除了经验法则,即我的耳朵应该对声音的深度和范围感到满意。我最喜欢的一些录音是我自己制作并编码为 48khz flac 格式的黑胶唱片转录。

很棒的文章,祝您好运,试图将人们转变为发烧友的世界观 ;-)

这篇文章中有几个实质性的错误和遗漏,反映了对数字音频编码和心理声学的理解不足。

文章正确地指出 CD 是一种无损格式,然后赞扬了几十年前录音的 LP 发行版,但没有说明 CD 可以比 LP 更忠实地再现原始母带上的录音(更少的噪音、失真等)。

“CD 上录制的最大声音是最小声音的 65,536 倍”——这并没有正确描述响度是如何感知或测量的。响度是主观的,也取决于频率,并且大致呈对数关系,而不是与数据电平成线性比例关系。另一方面,CD 信号在正负之间摆动,从 +32768 到 -32767。而且,在数字录音中,低电平随机噪声,称为“抖动”,被添加到音频信号中(并且可能由于麦克风前置放大器噪声而已经存在),实际上允许再现低于 1 位电平的信号。可以将噪声放置在人类不敏感的高频范围内,从而显着扩展动态范围。

至于 24 位字长和高于再现最高可听频率所需的数据速率,两者在增加可以记录的潜在动态范围方面具有基本相同的效果,通过增加位数,并且对必须处理不同电平并将音轨混合在一起的录音工程师很有用——但在最终发行版中不会产生可听到的差异。在任何正常的收听水平下,16 位都涵盖了从主观静音到震耳欲聋的响度范围,并且最有可能的是,麦克风前置放大器嘶嘶声与音频一起录制,已经远高于 16 位可以再现的最低电平。

如果录音没有使用最高的 4 位或更多位,那么很明显,它是糟糕的母带处理。

20 kHz 左右是,而不是“被认为是”人类听觉的上限,即使是那些听力没有受到磨损的年轻人也是如此。暗示更高的频率可能很重要是音频设备制造商经常使用的策略,他们过度向客户推销他们的产品,除非这些客户碰巧是狗或蝙蝠!

突兀的滤波器设计不良可能会产生可听到的失真(类似回声),但即使是 44.1 kHz CD 采样率(理论截止频率为 22.05 kHz)也允许携带高达 20 KHz 的响应,同时滚降仍然足够平缓,以至于不会产生这种可听到的失真。是的,在录音和播放系统的数字滤波器中可以使用更高的采样率,但录音的采样率不必与滤波器中使用的采样率一样高。

哇。

约翰,谢谢你的评论。

我不完全赞同将这个论坛变成辩论工具。话虽如此,你提出了一些我不能接受的观点。

首先,“没有使用最高的 4 位或更多位的录音是糟糕的母带处理”。我提到的录音确实使用了最高的位,但它们的电平通常要低得多。这并不是缺陷的迹象,而是作曲家预期动态的指示。

其次,重点是,在主要安静且偶尔有动态峰值的音乐中,较少的位用于表示低电平信号;并且使用 16 位来捕获动态峰值会留下更少的位来捕获低电平信号;反过来,这意味着在这些较低电平信号中的失真比相同 24 位录音中的失真要显着得多。从另一个角度来看,如果音乐是以 24 位录制的,我为什么要满足于 16 位的演绎?

第三,您关于滤波器的采样率高于录音的采样率的评论……滤波发生在离散化之前,以减少混叠。

最后,我认为您总体上误解了我的观点:我更喜欢更高的速率/更高的位深度,主要是因为它们通常——至少在我的经验中是这样——表明在生产链中采取了更多的谨慎措施。有太多的音乐“在那里”,与其说是原始表演,不如说是生产过程的产物,这体现在应用的压缩中(针对调频和调幅无线电广播市场???以及那些将听音乐等同于戴着耳机走在嘈杂的街道上的人)。我提倡将听音乐作为主要活动,因此提倡使用高质量的软件和工具。

回复 作者:John S. Allen (未验证)

关于最高的 4 位或更多位:我接受这个观点;许多流行音乐录音中的音量压缩和彻底削波非常不幸。然而,低 4 位仅比正常电平低 24 分贝,而在简单抖动录音中,噪音电平之上仍然有大约 68 分贝,在具有最佳噪声整形抖动(如索尼超级位图录音中)的录音中,噪音电平之上仍然有 90 分贝。即使使用简单的抖动,麦克风前置放大器噪声和房间噪声也可能掩盖抖动噪声;在 90 分贝的情况下,即使在非常响亮的收听水平下,抖动也完全听不见。

“反过来,这意味着在这些较低电平信号中的失真比相同 24 位录音中的失真要显着得多。” 低电平失真发生在早期使用具有非线性传递函数和/或不良或无抖动转换器制作的数字录音中。关于失真的讨论仍在继续,但正确的数字化中 *没有* 失真。音频信号沉入抖动产生的极低电平嘶嘶声中。这已在数学上得到证明,并在实践中得到证实。

“从另一个角度来看,如果音乐是以 24 位录制的,我为什么要满足于 16 位的演绎?” 因为没有可听到的差异,而且更高的数据速率浪费带宽。

“第三,您关于滤波器的采样率高于录音的采样率的评论……滤波发生在离散化之前,以减少混叠。” 正确,当在录音中使用高采样率时,模拟滤波可以不那么陡峭。然而,然后陡峭的数字滤波可以将传输或存储的录音的采样率降低到低至 44.1 k,而不会产生可听到的影响。在播放时,可以再次乘以采样率,以便使用逆过程:陡峭的数字滤波器,温和的模拟滤波器。滤波很便宜:昂贵的是数据存储或流式传输。

“最后,我认为您总体上误解了我的观点:我更喜欢更高的速率/更高的位深度,主要是因为它们通常——至少在我的经验中是这样——表明在生产链中采取了更多的谨慎措施。” 正如我在第一个评论中同意的那样,在录音期间,当处理不可预测的电平变化和混合多个音轨时,使用更高的位深度和采样率是有意义的——但记录在 CD 或流式传输的数据中不需要更高的位深度和采样率。除此之外,即使是最高质量的有损数据压缩方法也已通过聆听测试和与未压缩信号的减法比较证明——产生完全听不见的变化。

至于您对开源压缩而不是 MP3 的偏好,Lame(代表“Lame 不是 MP3 编码器”)编码器与 Fraunhofer 编码器的关系是否与 Linux 与专有 Unix 的关系相同?我使用 Lame,文件与 MP3 兼容,而且从来没有人来找我收取版税。

回复 作者:clhermansen

谢谢您的评论,约翰。

我的文章的目的不是为 96/24 与 44.1/16 的内在属性辩护,而是真正建议人们考虑更高分辨率的东西,因为——至少在我的经验中是这样——与塞进 CD 或 MP3 或其他格式的东西相比,它通常经过更好的母带处理,更忠实于原始文件。

尽管如此,还有一些简短的评论,然后我保证不再多说了。

MP3 文件:我不想要它们。首先,因为它们使用有损压缩,其次,因为它们不是开放标准。在另一条评论中,您将看到它们可能不再受专利约束。如果是这种情况,我想这个问题就变得毫无意义了;但我不够聪明,无法理解它们是否自由。至于是否有人因版税付款而追捕过您,那不是我的问题。一些闭源软件公司曾威胁或起诉一些开源软件公司,原因是后者创建的开源软件违反了前者持有的专利。这限制了我作为开源软件潜在消费者的自由,因此,只要有可能,我就会尝试使用不受专利影响的软件。也许我是在做堂吉诃德式的事情;就这样吧。

“正确的数字化中没有失真”——在这里你错了。所有数字化都存在离散化误差,这是由于用有限数量的位来表示或多或少连续的数据(模拟数据)而产生的。位数越小,离散化误差越大。抖动将离散化误差转化为噪声,而噪声就是失真。以下是维基百科文章 https://zh.wikipedia.org/wiki/%E9%87%8F%E5%8C%96_(%E4%BF%A1%E5%8F%B7%E5%A4%84%E7%90%86) 中的一段精彩引述

“然而,以上计算 [信噪量化误差] 假设输入通道已完全填满。如果情况并非如此 - 如果输入信号很小 - 相对量化失真可能会非常大。为了规避这个问题,可以使用模拟压缩器和扩展器,但这些也会引入大量的失真,特别是当压缩器与扩展器不匹配时。这种压缩器和扩展器的应用也称为压扩”

请注意提到“如果输入通道未满”。

“陡峭的数字滤波可以将传输或存储的录音的采样率降低到低至 44.1 k,而不会产生可听到的影响”和“滤波很便宜:昂贵的是数据存储或流式传输”和“更高的数据速率浪费带宽”和“记录在 CD 或流式传输的数据中不需要更高的位深度和采样率”——好吧,我还能说什么呢;您的首要任务是以高采样率量化,然后应用 FIR 滤波器或类似滤波器来节省存储空间和/或方便流式传输。我的不是;我的目的是以尽可能接近原始格式的格式获取我的音乐——只是不要费心应用 FIR 滤波器,并给我原始文件,最好是 24 位。我真的不想购买 44.1/16 或 256kbps MP3 格式的音乐,如果它们有 96/24 格式的话。如果我出于某种原因需要这些格式,我可以随时自己进行降采样。

我的音乐生活经验是,一直有人创作优美的音乐,而且几乎一直有人通过损害其保真度来包装它,从而妨碍我对优美音乐的欣赏——高速盒式磁带复制;8 轨磁带;用于制作使用大量回收废塑料制成的劣质 LP 的第 10 代母带;粗心转换的模拟音乐匆忙地放在 CD 上;为了使音乐在调幅广播中听起来更响亮而将其压缩到极限;转换为 128kB AAC 文件的音乐,以便它可以放在我不拥有也不想拥有的设备上;等等,等等。现在有人愿意给我一些非常接近母带的东西,我想购买它,并以其全部辉煌来聆听它。我想支持这个市场。我希望 Pono 和 HDTracks 和 ProStudioMasters 取得成功(尽管我希望他们有一个更开放的下载过程),因为他们通常关心提供高质量的音乐。如果他们的链条的一部分是 96/24 或 192/24,对我来说没问题。

我对音乐的关注是聆听和喜爱它,而不是担心它占用多少磁盘空间。那些告诉我我必须更喜欢适合 CD 或可以在下载中流式传输的音乐,而不是没有被挤压和压缩的 96/24 重制版……的人

回复 作者:John S. Allen (未验证)

有趣的是,因为几天前我浏览了一篇 2011 年的 Xiph 文章,标题为“24/192 音乐下载……以及它们为什么没有意义”:http://people.xiph.org/~xiphmont/demo/neil-young.html

此外,您没有谈到您用来收听这些 FLAC 文件的设备。我相信它需要相当专业的设备(和灵敏的耳朵)才能以正确的方式收听这些文件。会有关于此的后续文章吗?

Pierre,谢谢您的评论。

我将在接下来的两篇文章中谈论我的设备体验——第一篇关于笔记本电脑,然后是关于“家庭立体声音响”。

您提到的 Xiph 文章从“我们的耳朵不需要这种更高分辨率的东西”的角度出发。我的主要观点是,更高分辨率的东西通常表明生产链更倾向于产生高质量的结果。我的次要观点是,我想听的音乐通常是以这种更高的分辨率录制的,那么我为什么要让别人在卖给我之前把它扔掉呢?

最后,Xiph 文章中关于劣质设备在高分辨率信号存在下表现不佳的观点有一个很好的解决方案——不要购买劣质设备!

回复 作者:Pierre E. (未验证)

令人惊讶的是,您不需要高端音频设备就能听到差异。我最近在我的 10 年旧车上安装了一个辅助输入。这辆车确实配备了“高级”音频系统,但所有这些都意味着有一个额外的放大器和 Infinity 扬声器,而不是非放大的普通扬声器。

256k MP3 和相同音乐的 FLAC 之间存在非常明显的差异。事实上,如此明显,以至于我花了几天时间用 FLAC 重新翻录我的 CD 收藏。我不是一个会花费数千美元购买音频设备的人,但我确实知道我会在任何可能的地方使用 FLAC。

回复 作者:Pierre E. (未验证)

谢谢您的评论,Josh。

关于设备的一件事是,您可以购买它并出售它,如果您有兴趣并且预算充足,可以升级换代。理论上,更好的设备应该让您的所有音乐听起来更好(尽管有些音乐录制得太差,我认为这不算)。当您决定想要更好的东西时,很难升级换代 MP3 下载。我赞扬您将 CD 重新翻录为 FLAC;我希望您享受您的“新音乐”!

回复 作者:Josh (未验证)

谢谢您的评论,Seth!

在“让耳朵成为评判标准”这一点上,我站在您这边,但可以肯定的是,我们可以用这种说法开始一场争论!

至于将人们转变为发烧友的世界观,比我更优秀的人都尝试过了!但我希望在一个建立在“开放”概念之上的论坛中,至少有一些读者会足够开放,愿意给更好的音质一个机会……

关于您的黑胶唱片翻录,您做了什么?独立的 USB 唱机前置放大器,还是将您的声卡连接到您的立体声磁带输出,还是……?什么软件?

再次感谢!

很棒的文章。也很喜欢您用作例子的音乐。

24/192 音乐下载……以及它们为什么没有意义
https://people.xiph.org/~xiphmont/demo/neil-young.html

谢谢您的评论,Erik。

其他人也在上面提到了这一点,事实上,我在写这篇文章之前一段时间就读过这篇文章,并重新阅读了它。

我真的没有兴趣试图反驳那篇文章,除了最后关于设备无法处理更高分辨率音乐的评论,对此我的回应是“那就买更好的设备”。

我提倡的是 1) 以您能获得的最佳形式获取音乐,这可能是通过翻录 CD 或 LP,以及 2) 考虑更高分辨率的下载,因为根据我的经验,与大众市场 MP3 或 AAC 结果,甚至 CD 相比,它们通常表明生产链更好,更忠实于原始文件。当然,这并不总是正确的。这只是值得考虑的事情。

回复 作者:Erik (未验证)

在录音期间,尤其是 24 位音频允许更多“动态余量”以补偿音量未调到最佳状态的观点是有道理的。一旦音乐经过母带处理,这应该不再是必要的,但您总是可以争辩说不能保证母带是完美的。

然而,录制音频中使用的数字滤波器(有限脉冲响应滤波器)会引起相位偏差的想法是不正确的。模拟低通滤波器可以做到这一点,但 FIR 滤波器不会这样做,无论您设法使它们多么接近“砖墙”。用示波器进行的测试证明了这一点。采样率与您可能使用的模拟滤波器的类型之间没有关系。一些早期的 CD 播放器具有“砖墙”模拟滤波器,由于相位偏差而导致失真。这通过使用数字滤波器和更温和的模拟滤波器得到解决。

我还注意到在“The Well Tempered Computer”文章中,他们声称 44.1 kHz 音频通过“插值”升频到 48 kHz。然而,这是一种误解。插值意味着您对样本应该在的位置所做的计算只是一个估计。声波是可预测的,因此计算它在任何两个已知样本之间将位于的位置不是估计;它是实际的。我想理论上,您无法确定声波以哪个样本结束,但只要它在奈奎斯特频率范围内,无论如何都不会有任何区别。

CFWhitman,谢谢您的评论。

数字滤波器,即使是像 FIR 滤波器这样的好滤波器,也只能在信号数字化后应用。

而包含高于离散化率 1/2 的内容的信号将存在混叠。因此,需要在离散化之前应用模拟滤波器,以消除(或至少大大减少)奈奎斯特频率以上的模拟内容。

具体来说,如果您有一个包含高于 20kHz 能量(例如铙钹产生的能量)的模拟信号,您必须在以例如 44.1kHz 的频率将其转换为数字信号之前,应用一个模拟滤波器来减少或消除该能量。您不能使用 FIR 滤波器来执行此操作,因为 FIR 滤波器是数字滤波器。

关于这一点,您对 44.1 到 48kHz 转换的解释是不正确的。唯一已知的值是在采样点。任何尝试确定中间值 - 采样点之间 - 都是插值,这正是您需要做的事情,才能将信号从一个采样率转换为更高的采样率。

考虑一下:使用 44.1kHz 采样,每 0.0000226757... 秒收集一次样本。也就是说,我们在

1/44100 = 0.00002267573696145124 秒
2/44100 = 0.00004535147392290249 秒
3/44100 = 0.00006802721088435374 秒
4/44100 = 0.00009070294784580498 秒
5/44100 = 0.00011337868480725623 秒

等等。

为了提供 48kHz 信号,我们需要提供一个信号,频率为

1/48000 = 0.00002083333333333333
2/48000 = 0.00004166666666666666
3/48000 = 0.00006250000000000000
4/48000 = 0.00008333333333333333
5/48000 = 0.00010416666666666666

生成这些值的唯一方法是在 44.1kHz 采样点之间进行插值。 例如,我们可以使用线性插值。 在这种情况下,2/48000 “采样” 点的值将是

S(2/48000) = (2/48000 - 1/44100) * (S(2/44100) - S(1/44100)) / (2/44100 - 1/44100)

其中 S(2/44100) 表示在 t = 2/44100 时刻采集的采样信号,S(1/44100) 表示在 t = 1/44100 时刻采集的采样信号。

当然,也可以使用其他插值方案。

回复 ,作者是 CFWhitman

关于采样率,长期以来一直以高采样率进行录音。 我的评论仅与回放有关。 一旦录音被数字化,您可以安全地应用数字滤波器,并以低得多的采样率进行母带处理,而不会丢失相关数据。

关于插值,您的评论是不相关的(除了线性插值永远不会被使用;那将是一种猜测,而且是很糟糕的猜测)。 只要您有足够的采样点来准确地重建声波,您就可以准确地预测声波上的任何采样点。

正如我在上一篇文章的评论中提到的,这在原理上类似于预测直线上的点。 一旦您有了直线的端点,您就可以用相对简单的数学方法预测其间的任何点。 对于声波,一旦您有足够的样本来准确描述声波,您就可以完美地预测两个样本之间的任何点,尽管数学方法没有那么简单。

回复 ,作者是 clhermansen

恕我直言,我对插值的评论并非不相关。“插值”是用于确定已知值之间存在的未知值的正确数学术语。 您使用“预测”一词,例如“您可以准确预测声波上的任何采样点”或“这在原理上类似于预测直线上的点”或“您可以完美地预测两个样本之间的任何点”,实际上正是“插值”。

此外,选择插值的阶数——线性、二次、三次等——每种都需要更多的点来求解插值系数,无论是分段多项式还是其他,都不会增加对插值点值的预测精度。 事实上,插值函数形状的选择完全是美学的。

当您应用低通滤波器对原始信号进行带宽限制,然后对该带宽限制信号进行采样时,您抛弃了原始信号在插值点实际发生的值,因此您无法说明结果相对于原始信号的准确性。 您所知道的只是您在采样点对滤波信号的测量是准确的。 当您预测两个样本之间的点时,您所做的只是猜测。 如果您幸运的话,您的猜测会是悦耳的。 但它们不会是准确的。

恕我直言,我建议您进一步研究插值问题,也许可以访问 https://en.wikipedia.org/wiki/Interpolation;或者,如果您愿意,我仍然保留着我的数值分析教科书,可以为您提供章节和条目。

回复 ,作者是 CFWhitman

从数学的角度来看,当您填充此数据集时,您正在做的是插值。 然而,从工程的角度来看,这是一种误称(请注意,这与我之前使用的词相同)。 也就是说,当在数学中使用“插值”一词时,它意味着计算集合中丢失的数据,这是纯粹的数学,谁会说数据是不准确的呢? 从工程学的角度来看,对于填充集合中的样本,“插值”通常意味着使用数学公式猜测或估计无法准确预测的点。“插值”一词通常不用于工程学中计算可以用数学方法准确预测的数据。

您不必猜测声波中缺失的点。 这些点的计算不是猜测;它们是精确的数字。 每个频率的声波只能有一种形状。 它不会改变。 您可以使用三角学来预测已知样本之间的所有点。 如果声波可以在两个已知点之间随机变化形状,则奈奎斯特频率甚至不足以准确记录它们。 您需要更快地采样它们,才能开始准确地表示它们。 基本上,今天存在的数字录音根本无法工作。

这并不是说这个过程中不会出现错误,但这就是过采样的用途。 过采样在消除或补偿错误方面比提高采样频率做得更好,并且没有提高采样频率可能带来的缺点。

回复 ,作者是 clhermansen

CFWhitman,也许我们在这里争论过度了,但您的陈述是不正确的。

首先,您似乎认为使用“三角学来预测已知样本之间的所有点”在某种程度上与插值不同。 事实上,它完全是精确的线性插值。 找到连接其他两个点的线上的点最多是“精确”的,而不是“准确”的。 准确性需要知道该时间点实际发生的值,而我们已经通过滤波和采样将其丢弃了。 所以我们永远不会是准确的。

其次,“如果声波可以在两个已知采样点之间随机变化形状,则奈奎斯特频率甚至不足以准确记录它们”——这正是问题所在! 声波在两个已知采样点之间确实会发生变化,并且不一定是线性模式。 当应用滤波时,我们正在消除这些变化。 奈奎斯特频率仅足以对滤波后的音乐进行采样,而不一定是对原始音乐进行采样。

想想以 44.1kHz 或 48kHz 提供打击乐器录音。 如果您查看这篇文章 http://www.drummerworld.com/forums/showthread.php?t=66957,您会看到铙钹的频谱成分高达 40kHz 甚至更高。 因此,将这些频谱成分放入 44.1 或 48kHz 信号的唯一方法是应用低通滤波器。 现在想想在 44.1kHz 下这样做,使用一个在 20kHz 处滚降的滤波器。 您已经消除了 20kHz 以上的所有频谱成分——信号。 如果您随后尝试从 44.1kHz 信号生成 48kHz 信号,您可以很容易地看到,新的“采样”点的预测值缺少在滤波中被抛弃的必要频谱信息,因此将永远只能靠运气与原始信号一致。

您可以反驳说“呸,但这都超出了人类听觉范围”,但这并不是重点。 重点是预测采样点之间的值永远不准确; 它只是对原始波形的近似,我们永远不知道它会好到什么程度。

第三,您的评论“您需要更快地采样它们,才能开始准确地表示它们”正是重点——您确实需要以比 44.1kHz 高得多的速率对音乐进行采样,才能获得对音乐的准确近似。 同样,您或我或我的狗是否能听到这一点是题外话。

过采样与计算采样点之间信号值的合理近似值无关。

回复 ,作者是 CFWhitman

我不想没完没了地谈论这件事,但我会尽力把它说得更清楚。

关于插值,我不想争论语义。 我想明确正在发生的事情。 从技术上讲,任何时候您计算您没有收集的数据,从数学的角度来看,那都是插值,就像从技术上讲,所有正方形都是矩形一样,即使在脱离上下文的情况下将正方形称为矩形会产生误导。

“事实上,它完全是精确的线性插值。”

不,那是不正确的。 正弦波不是线性计算的。 三角学不仅仅是线性插值。 声波是可预测的。 只要您有足够的数据来准确描述波形,就可以准确地计算缺失的数据。

“您可以反驳说‘呸,但这都超出了人类听觉范围’,但这并不是重点。 重点是预测采样点之间的值永远不准确; 它只是对原始波形的近似,我们永远不知道它会好到什么程度。”

您只是抛弃了现代数字录音理论,该理论已经应用了三十多年。 超出我们试图捕获范围的声波与讨论无关。 为什么要引入它们? 如果您想捕获它们,您可以捕获它们,但您需要达到这些频率的奈奎斯特率才能做到这一点(顺便说一句,在我上一篇文章中,我应该说奈奎斯特率,而不是频率,频率是相关的,但不是我真正想表达的术语)。 如果您不这样做,那么您甚至无法开始计算它们的波形。 出于实际目的,铙钹碰撞中您听不到的部分与您正在捕获的部分是不同的声波。

也许您应该进一步了解过采样实现了什么。

我将总结一下。 如果您是正确的,那么已经应用了三十多年的数字录音理论就是一堆垃圾。 奈奎斯特率毫无意义,而那些声称您需要 192kHz 文件才能获得准确声音的人可能低估了。 另一方面,如果数字录音理论是正确的,那么您只需要奈奎斯特率给出的那么多采样点就可以准确地预测其间的所有点。

回复 ,作者是 clhermansen

CFWhitman,我永远不会抛弃现代数字录音理论。 您一直在试图“把我不曾说过的话塞进我的嘴里”。 我没有理由批评奈奎斯特-香农定理或与信号采样相关的任何内容。

该定理告诉我们,我们需要以什么速率对带宽限制信号进行采样,以便能够无误差地重建相同的带宽限制信号。 但是,当我们首先过滤输入信号以限制其带宽时,我们会抛弃任何高于滤波器频率的信号,这样我们就不会在结果中得到混叠。 因此,重建的信号实际上可能与被采样的带宽限制信号相同(或在现实世界的局限性和字长限制下几乎相同)。

然而,如果我们以例如 44.1kHz 和 88.2kHz 对原始信号进行数字化,则 88.2 信号中存在 44.1 信号中不存在的大量频谱信息。 因此,当我们尝试将 44.1 信号转换为 88.2 信号时,我们不会得到相同的结果(无法“找回”被滤波消除的信息)。

换句话说,如果我们能够安排两次数字化,使 44.1 采样点正好落在每隔一个 88.2 采样点上,我们就无法从 44.1 采样点中确定另一半 88.2 采样点。 我们可以“猜测”(插值)一个值,使用线性插值或使用 sinc 函数或任何其他类型的重建滤波器,但最终我们抛弃了信息,并且无法将其找回。

两者之间的差异是否显着? 我不会去讨论这个问题,那是尼尔·扬要争论的。

这让我想起来! 我不会再就此发表任何言论了,因为这离我一直试图表达的观点太远了——我更喜欢让我的音乐尽可能接近原始状态(而不是为了适应 CD 或适应通过 56Kb 调制解调器下载的方便尺寸而进行降采样)。 如果其他人不同意我的观点,那就这样吧!

回复 ,作者是 CFWhitman

我没有把您不曾说过的话塞进您的嘴里。 重点是,如果奈奎斯特-香农定理是正确的,那么可听频率将被精确地再现。 因此,当您将捕获的内容升采样到更高的速率时,您不必猜测信号的可听部分(旨在捕获的部分)的更高速率的采样点。 该定理说,您已经完美地捕获了信号的该部分,因此可以完美地(理论上)预测捕获的声波上的任何点。 如果您无法预测这些点,那么该理论就是不正确的。

高于 20kHz 的信号(或高于您使用的奈奎斯特率限制您的任何频率)根本没有被准确捕获。 您没有足够的采样点来猜测缺失的点(这就像试图用一个端点重建一条直线)。 但是,没有理由关心那些缺失的部分。 仍然可以完美地(不涉及猜测)将 44.1kHz 捕获的可听部分升采样到 48 kHz。 没有人关心缺失的(听不见的)部分。 它们已被过滤掉。 链接的文章表明,您不能在不“猜测”缺失的采样点的情况下做到这一点,因为它们介于您捕获的采样点之间。 那是不正确的。 当然,任何展示阶梯状声波图(除非是为了嘲笑它)的文章都不是由理解奈奎斯特-香农定理的人写的。

回复 ,作者是 clhermansen

我稍微阅读了一些关于这方面的内容,意识到我在上一篇文章中说的一些内容已经过时了。 它反映了 30 年前 CD 推出时的状况。 然而,当前的数字录音设备可以在不经过任何类型的模拟滤波器的情况下录制音频。 相反,信号以高采样率数字化,并在以更实用的采样率保存之前通过数字滤波器。 显然,许多较新的音乐甚至最初的录制速率都没有高于 48kHz(尽管 24 位当然被使用,并且对于母带处理之前的阶段是必要的)。

回复 ,作者是 clhermansen

CFWhitman,我再次感谢您就 24 位字长或高于 CD 分辨率对于正确欣赏音乐播放是不必要的所提供的意见。 我相信本文的其他读者可以使用他们自己的标准来做出自己的判断。

同时,我将借此机会提醒您和其他人,我对所有这一切的看法是:1) 非常动态的音乐(我有几个例子)可能不适合 16 位字长; 2) 我的经验是,以更高分辨率和采样率发布的录音可能以最大化其音乐价值的方式制作; 3) 我选择不购买以旨在减少带宽和存储消耗(在 56kB 调制解调器和 20Mb 硬盘的时代)的格式发布的音乐。 如果其他人不同意我的观点,那就这样吧!

回复 ,作者是 CFWhitman

我在这里的重点与 16 位与 24 位文件无关。 我只是顺便提一下,在母带处理之前,您确实需要使用 24 位文件。 之后就值得商榷了(并不是说我绝对不赞同)。

回复 ,作者是 clhermansen

FYI:MP3 在这一点上几乎可以肯定是无专利的。 在 MP3 规范发布之前提交的最后一批美国专利已经过期。
https://plus.google.com/116809495975386153151/posts/4KJ1hwUT8Gh

很高兴知道,Josh。 我读了您在 G+ 上的免责声明,我相信您不会介意我对此持保留态度!

回复 ,作者是 Joshua J Cogliati (未验证)

一篇令人愉快且具有启发性的文章——后续辩论也是如此。

感谢所有付出努力的人。

有一段我不明白

“很容易判断您的音乐是否是从较低分辨率的源升采样的——频谱图会告诉您。”

所以我拿了一个最新的 Bowers & Wilkins Society-of-Sound 下载。

Audacity 说这是一个 88200Hz 立体声 32 位浮点录音。

但是 Audacity 频谱图在 20KHz 以上急剧下降,在 22KHz 左右下降 -90db。

因此,如何从频谱图中推断出采样率和比特率(在这种情况下,我会说它指示 16 位,44.1KHz?)

诚挚地

我可能在那里太轻率了! 对不起。 让我试着更明确一点。

首先,我首选的 Linux 音乐播放器是 Guayadeque,它告诉我正在播放的音乐的比特率。 所以现在我正在听 Afro Celt Sound System 的 Whirly Reel,来自他们的第一张专辑,从我拥有的 CD 中翻录的。 Guayadeque 向我显示大约 800kbps 的比特率。 现在我正在听 Ali Farka Touré 和 Toumani Diabete 的 Kenouna,这是一个不久前免费下载的 MP3。 Guayadeque 向我显示 256kbps 的比特率。 现在我正在听 Beaten by Them 的 Damp Sky 1,这是从 Linn Records 获得的他们专辑 Invisible Origins 的 96/24 下载。 Guayadeque 向我显示 2700kbps 的比特率。

所以我可以从 Guayadeque 了解字长和采样率(组合)。 有趣的是,不久前我购买了 Ronn McFarlane 的 Indigo Road 的下载。 这据说是 96/24,但它显示的比特率是 1200kbps(只有我期望的一半,例如我上面提到的 Invisible Origins)。 我联系了供应商; 他们对此进行了调查,并告知我它实际上是 96/16! 嗯。 肯定有什么不对劲。 就此测试而言,它也可能是 44.1/24。

好吧,频谱方面呢? 我喜欢 “spek” 实用程序 http://spek.cc/,因为它对音乐的可视化告诉您很多关于那里有什么——或者没有什么! 正如您所说,在高分辨率的东西中,20kHz 以上往往不多,但还是有一点。

我有一个 Buena Vista Social Club 同名专辑的 96/24 下载。 查看 Chan Chan,有与音乐相关的信号一直到大约 35kHz,然后上面什么都没有。 请注意,任何高于 20kHz 的频率都相当于是 -120db 及以下,但是当高电平的东西中存在间隙时,高频、低电平的东西中也存在相应的间隙。

我有一个 Counting Crows August and Everything after 的 96/24 下载。 查看 Mr. Jones,一直到 20kHz 都有相当多的 -60 - -70dB,并且还有远高于此的泛音,高达 30kHz。 在 40-48kHz 之间也存在一个相当恒定的噪声源,约为 -100db,我敢打赌那是磁带偏置或类似的东西。

Darcy James' Secret Society 的一张非常动态的爵士专辑 Brooklyn Babylon,在 44.1/16 下清晰地显示,泛音在略低于 22kHz 的地方被突然截断。 可听见吗? 不想争论这个问题,抱歉 :-)

所以请试用一下这两款出色的软件,看看您怎么看!

回复 ,作者是 rutherfordpaul (未验证)

我正在将我最喜欢的电影从蓝光重新编码为 mkv 文件,我选择以 FLAC 格式存储音频
它是无损的、多声道的,并且适用于我测试过的所有视频播放器

听起来很酷,Danny! 我猜当您说“视频播放器”时,您指的是 VLC 等软件视频播放器,而不是您家庭影院接收器上的 USB 端口?

谢谢您的评论!

回复 ,作者是 Danny3 (未验证)

好吧,我被说服了。 您能推荐一些购买 FLAC 格式音频的地方吗? 我再也不会买 MP3 了。

谢谢!

Joseph,感谢您的评论!

我住在加拿大,我们的选择比英国或美国(例如)受到更多限制。 但这里有一些我经常购买 FLAC 音乐的网站

https://bandcamp.com/
https://bleep.com/ (有时也有 24 位 WAV)
http://www.linnrecords.com/
http://www.gimell.com/
https://ca.7digital.com/ (或您所在国家的网站;这里越来越流行 FLAC)

还有很多其他的;您应该回顾一下本文的评论,因为有许多读者提出了建议。

另一件要做的事情是,当您对特定艺术家感兴趣时,查看他们的官方网站或粉丝网站,或者有时查看他们的唱片公司网站,看看他们是否建议 FLAC 的来源。 这可能需要一些侦探工作...

还有一些网站以 FLAC 格式销售,但需要 Windows 或 OS/X 下载器。 好消息是他们的目录相当不错,但坏消息是您必须使用 Wine 或借用别人的电脑,至少才能完成下载。

https://www.hdtracks.com/
http://store.acousticsounds.com/superhirez
http://www.prostudiomasters.com/ (加拿大网站)

别忘了,有时以合理的价格获得 FLAC 的好方法是购买 CD 并翻录它! 如今 CD 通常非常便宜……而且您至少有一个备份,直到狗拿到它为止……

最后——不要对 MP3 说“永不”。 有时除了有损格式之外,没有其他明显的方法可以获得一段音乐。 所以如果您必须...

祝您收听愉快!

回复 ,作者是 Joseph S (未验证)

Creative Commons 许可协议本作品根据 Creative Commons Attribution-Share Alike 4.0 International License 许可。
© . All rights reserved.