有损压缩,到底压缩了什么?
Dango AI · 2026-01-14 预告教程
有损压缩,到底压缩了什么?

音频压缩算法的诞生,就是为了解决音频文件“太大”了的问题。原始未压缩音频,比如CD格式的PCM音频,会完整记录声音信号的每一个细节,代价就是一首几分钟的歌曲就可能占据几十MB存储空间,在上古互联网时代,大家都是用“小水管”冲浪时,这么大的文件显然是个“奢侈品”。

为了让音频文件能适配当时的“小水管”,人们发明了音频压缩算法——核心思路就是“精简数据”,压缩分为两个派系,无损压缩以及有损压缩。

无损压缩顾名思义,不损伤任何音频内容的前提下,尽量减少音频体积,就像是把文件放到“压缩包”里一样,解压出来和原始文件是完全一致的不会有任何改动或破坏,FLAC就是这种格式的代表。

而有损压缩则为了追求极致的压缩效率,它移除一些人耳“不敏感”的声音,从而对“声音本身”做手脚,以“人耳基本可接受”为底线,破坏了原始声音的内容,而支撑这种思路的关键技术,就是心理声学

简单来说,心理声学研究的是人类听觉系统的感知规律,核心是揭示“人耳并非能捕捉所有声音细节”这一特性。最典型的就是听觉掩蔽效应:当一个较强的声音与一个微弱的声音同时存在时,弱音会被强音“掩盖”,人耳无法察觉弱音的存在;此外,人耳对高频声音的感知灵敏度本就偏低,尤其是16kHz以上的高频细节,多数人对其感知都较为模糊(并且随着年龄增长,人对高频的敏感度将进一步降低😵)。这些听觉特性本是人体生理结构的客观表现,却被有损压缩算法当成了“精简数据”的突破口。

MP3作为有损压缩的典型代表,其核心操作就是基于心理声学模型对音频内容进行“精准裁剪”——它内置了心理声学模型判定哪些音频成分是“不敏感、可丢弃”的。比如,在一段包含人声和吉他伴奏的音频中,人声的中低频成分强度较高,会掩盖掉吉他泛音中的微弱高频成分,MP3算法就会直接将这些被掩盖的高频成分从频谱中剔除;对于那些本身强度较低、且处于人耳感知盲区的高频频谱,算法更是会毫不犹豫地裁剪掉,甚至会通过“高频滚降”的方式,直接舍弃16kHz以上的大部分频谱内容。

这种看似“高效”的频谱裁剪,实则是对音频信号的不可逆破坏。原始音频的频谱本是连续且完整的,不同频率成分相互配合,才构成了乐器的质感、人声的气息感和音乐的空间纵深感。而MP3算法的裁剪过程,会直接导致频谱出现“断层”——高频部分的缺失让声音失去了通透感,比如镲片的清脆尾音、小提琴的泛音细节都会变得模糊不清;更严重的是,算法在裁剪频谱时,无法精准区分“可感知”与“不可感知”的边界,往往会连带裁掉部分本应保留的微弱细节。

更致命的是,有损压缩的破坏是叠加性的。如果对已经经过MP3压缩的音频再次进行有损压缩,算法会基于已经残缺的频谱再次进行“裁剪”,原本被保留的细节会进一步丢失,频谱会变得更加混乱,还会产生新的“压缩失真”——比如声音边缘出现毛刺感、低频部分出现浑浊感,这些失真都是不可逆的,会彻底破坏原始音频的音质,就像是经典的表情包图片被流传过“N手”,变得“越来越模糊”一样,音频也在各种资源网站中流传,经过了不知道多少次的压缩,又或者被转成“无损格式”而假装是“无损音频”一样,导致现在网络上的各类音频群魔乱舞,团子曾做过内部分析,我们在某常见音乐播放器软件下载了1000首歌曲,并且设置成“无损格式”的下载模式,但经过分析,下载的FLAC文件里,仍有将近23%的文件是披着FLAC外壳,但实际内容是已经被有损压缩过的音频😱

当然,在压缩不严重的歌曲(比如320kbps的MP3编码),除非使用频谱分析去查看(点击查看团子“如何区别有损”的教程),否则绝大多数人即便搭配上再好的收听设备,也很难区别出和无损的区别,但有损的音频毕竟是“有损”,对于那些发烧友或收藏家来说,都是不可接受的存在。

“心理声学”对人耳来说可以接受,但对“冰冷冷”的机器来说则是致命的,因为音频的“轻微的、人耳可忽略的”内容对人耳来还算过得去,可这些看似无关紧要的细节,恰恰是AI进行精准分析、处理和学习的核心依据。AI不像人类听觉那样靠“感知模糊性”判断声音,它依赖的是音频完整的频谱数据、连续的信号变化和细微的特征差异,每一个被有损压缩裁剪掉的微弱频谱、每一处被破坏的信号过渡,都会直接导致AI获取的“数据样本”出现缺失和失真,尽管团子已经在各类有损音频中进行训练、即便您上传有损文件团子也会尽量的处理,但最终输出的性能仍然距离“无损音频”差一大截,这也是为什么团子一直希望小伙伴们能直接上传无损音频来获得最佳的处理体验🧐

如果您对自己的音频没有信心,团子推出了每日免费使用的“音质损伤分析”功能,小伙伴可以自行测试自己的音频是否为无损音频,又或者是“有损转成无损”的“假无损”文件,点我使用>>