有损音频修复【V1-Max】模型现已可用

团子AI · 2026-03-28 新功能

在将近两个月的研发和打磨，我们很荣幸的宣布，有损音频修复的全新模型（代号V1-Max）现已发布😇

如何使用？

即日起，您上传到团子有损音频修复功能的文件，将默认使用全新的模型，无需手动切换，原有模型已弃用。

有什么改进？

V1-Max中的“Max”顾名思义，新的模型架构参数量更大，并且提升了4倍的修复分辨率以及相较前代约170%的算力成本，这也带来了显著的质量提升。

我们将依次介绍本次升级的改进之处。

全面支持低采样率失真的修复

V1模型作为我们初代的版本，设计之初用来对“有损编码音频”进行修复，如MP3、OGG等编码器导致的音频损伤的修复。我们设计时并未考虑到采样率丢失的问题，也就是低采样率（<44100hz）文件天然的就会丢失高频信息，在经过大量用户反馈后，我们立即着手研发并添加对低采样率修复的支持，V1-Max主要改进也在此处。

实际上，“低采样率”修复问题要远比“有损编码”修复简单的多，低采样率文件并不是“破损”的，仅仅是高频信息丢失，在频谱上看起来像是从某个频点开始被“一刀切”，在此之上的高频不存在，目前业界存在低采样率修复的解决方案（如AudioSR），不过这些方案都是需要手动或自动计算出频谱裁剪点（cutoff），然后修复的音频高频部分重新“贴”回原有低采样率音频，这势必会导致音频的声音出现失真，并且频谱的裁剪点的区域有很明显的伪造感和接缝感。

得益于我们自研的DLAF神经网络架构，团子的有损音频修复功能无需提供任何的人工参数输入（比如上文提到的裁剪点），一键全自动修复您的音频，输出的声音听着没问题、频谱“看”起来也不会有任何伪造感，而“有损编码”是更为复杂的逆问题，它不但高频会有裁剪、中低频也会有破损和能量缺失，但团子的网络仍然可以完美重建任何中、低、高频的破损区域，相对来说“低采样率”问题对我们的架构来说更是“小菜一碟”👻

Raw

0:00

/0:07

0:00

/0:07

0:00

/0:07

（三个音频从上到下分别为：下采样损伤原曲、V1、V1-Max的输出结果）

可以听到，由于V1并不能识别上采样损失，所以无法修复此问题，而V1-Max则可以重建清晰动听的高频声音。

全面支持抖动损伤修复

我们曾在之前的文章中介绍过音频的各类参数都是用来干什么的，其中有一项为“位深度”的参数，决定了音频每一帧音量的精度。

而为了节省音频文件的大小，一般会将母带的32bit深度降低到16bit深度，而直接降低位深度会导致量化失真的问题，为了抵抗这种失真，需要对音频进行“抖动”处理，原理复杂这里不进行过多介绍，从“后果”简单来说，抖动在频谱上看起来会让歌曲出现很厚重的“底噪”，尤其是高频区域更会出现很多“迷之噪音”。

这种噪音会破坏高频的信息，让高频的细节声音被噪音“掩埋”。

在V1-Max模型中，我们也加入了对抖动噪声的修复，当您的音频存在抖动噪音时，团子会移除中低频的轻微底噪、以及高频的严重抖动底噪，最后重建被底噪“遮挡”的声音纹理，听觉上，这会让您的音频整体“底噪”声音更小，带来更清爽的输出体验。

全面支持更复杂的损伤输入

一个音频可能未必只有一种损伤类型，甚至包含了无损、有损编码损伤、抖动损伤、采样丢失损伤等声音混合的可能性，团子的V1-Max进一步支持混合型的音频损伤输入，无论您的音频只有一种损失，又或者有多种混合的损伤问题，您无需关心损伤的类型和位置，只需一键，一切交给团子的DLAF神经网络全自动修复即可。

大幅减少爆音问题

在V1完成的最终阶段，我们发现团子的输出在某些歌曲可能会存在“爆音”问题，听起来像是在原曲之上存在咔哒(click)声或者噼啪(pop)声音，尤其是音量本身就很大的原曲部分更有可能出现此问题，这种爆音并非由团子产生，而是原曲本身就包含这些声音或者因为有损编码器的引入导致的，由于没有特殊处理，团子会“忠于原曲”去重建这些爆音。受限于V1研发接近完成，我们只能提供一种无奈的后处理爆音的能力，但这种后处理会衰弱原曲打击乐器的清脆程度。

团子的团队非常在意这个情况，在V1-Max中，我们着重的解决了此问题——现在团子也会将爆音作为某种损伤去修复，在我们的测试中，99%爆音问题基本消失，因此您无需在使用后处理去移除爆音并避免因此导致的打击乐“发闷”问题。

对于后处理的开关，我们仍然保留，但标记为“不推荐/已废弃”，将在未来的V2算法移除此开关，从V1-Max模型开始起，团子不推荐使用后处理功能以免降低输出的音频质量。

更清脆的高频

我们收到一些用户的反馈，说部分歌曲“频谱看起来像是那么回事”，但听起来仍然有一定“发闷”问题，在V1-Max中，我们加强了高频重建的力度，这会让高频的能量更丰富，尤其我们关注了打击乐器的响脆程度，V1-Max输出的打击乐器的高频会更加紧实、清脆。

Demo0 lossy

0:00

/0:06

Demo0 dango v1

0:00

/0:06

Demo0 dango v2

0:00

/0:06

（三个音频从上到下分别为：有损原曲、V1、V1-Max的输出结果）

可以听到，V1-Max的打击乐器会更加响脆，细心的小伙伴还有可能发现V1的打击乐器会伴随一定的“爆音”，而V1-Max则不存在此问题👻

另外，我们还对人声进行了特别优化，提高了人声高频的“气流音”的清晰程度，人声重建更清晰、更自然。

更精确的相位重建

我们在V1模型中发现在歌曲音量较轻的区域，可能在频谱的某些频点出现某些“横线”伪影，在V1-Max中我们已经严格修复了此问题。

另外，在某些声音较大的区域，V1的算法输出的声音可能出现“弹舌”感或者“沙沙”感，这是我们网络的相位重建不准确导致的，在V1-Max中我们针对性的改进了部分架构，可以更加准确的重建歌曲相位信息，并成功的解决了上述问题。

接下来？

V1-Max作为我们有损音频修复的大乘之作，经过进一步的打磨，完美解决了V1发布后的几个痛点，团子的研发团队对它非常满意😇

团子的有损音频修复功能，是我们对音频“复杂重建”领域探索迈出的史诗级的第一步，接下来团子会吸收该功能的研发的心得，提升团子的其他功能的最终输出性能，又或者提供更多的音频修复方面功能，还请小伙伴们敬请期待😇

我们深知V1-Max并不是终点，不过目前我们会暂时“毕业”此功能，着重去研发其他功能，您可以在每月初的研发日志关注我们的研发动向。

返回到团子博客