
在将近两个月的研发和打磨,我们很荣幸的宣布,有损音频修复的全新模型(代号V1-Max)现已发布😇
如何使用?
即日起,您上传到团子有损音频修复功能的文件,将默认使用全新的模型,无需手动切换,原有模型已弃用。
有什么改进?
V1-Max中的“Max”顾名思义,新的模型架构参数量更大,并且提升了4倍的修复分辨率以及相较前代约170%的算力成本,这也带来了显著的质量提升。
我们将依次介绍本次升级的改进之处。
全面支持低采样率失真的修复

V1模型作为我们初代的版本,设计之初用来对“有损编码音频”进行修复,如MP3、OGG等编码器导致的音频损伤的修复。我们设计时并未考虑到采样率丢失的问题,也就是低采样率(<44100hz)文件天然的就会丢失高频信息,在经过大量用户反馈后,我们立即着手研发并添加对低采样率修复的支持,V1-Max主要改进也在此处。
实际上,“低采样率”修复问题要远比“有损编码”修复简单的多,低采样率文件并不是“破损”的,仅仅是高频信息丢失,在频谱上看起来像是从某个频点开始被“一刀切”,在此之上的高频不存在,目前业界存在低采样率修复的解决方案(如AudioSR),不过这些方案都是需要手动或自动计算出频谱裁剪点(cutoff),然后修复的音频高频部分重新“贴”回原有低采样率音频,这势必会导致音频的声音出现失真,并且频谱的裁剪点的区域有很明显的伪造感和接缝感。
得益于我们自研的DLAF神经网络架构,团子的有损音频修复功能无需提供任何的人工参数输入(比如上文提到的裁剪点),一键全自动修复您的音频,输出的声音听着没问题、频谱“看”起来也不会有任何伪造感,而“有损编码”是更为复杂的逆问题,它不但高频会有裁剪、中低频也会有破损和能量缺失,但团子的网络仍然可以完美重建任何中、低、高频的破损区域,相对来说“低采样率”问题对我们的架构来说更是“小菜一碟”👻
(三个音频从上到下分别为:下采样损伤原曲、V1、V1-Max的输出结果)
可以听到,由于V1并不能识别上采样损失,所以无法修复此问题,而V1-Max则可以重建清晰动听的高频声音。
全面支持抖动损伤修复
我们曾在之前的文章中介绍过音频的各类参数都是用来干什么的,其中有一项为“位深度”的参数,决定了音频每一帧音量的精度。
而为了节省音频文件的大小,一般会将母带的32bit深度降低到16bit深度,而直接降低位深度会导致量化失真的问题,为了抵抗这种失真,需要对音频进行“抖动”处理,原理复杂这里不进行过多介绍,从“后果”简单来说,抖动在频谱上看起来会让歌曲出现很厚重的“底噪”,尤其是高频区域更会出现很多“迷之噪音”。

这种噪音会破坏高频的信息,让高频的细节声音被噪音“掩埋”。
在V1-Max模型中,我们也加入了对抖动噪声的修复,当您的音频存在抖动噪音时,团子会移除中低频的轻微底噪、以及高频的严重抖动底噪,最后重建被底噪“遮挡”的声音纹理,听觉上,这会让您的音频整体“底噪”声音更小,带来更清爽的输出体验。
全面支持更复杂的损伤输入
一个音频可能未必只有一种损伤类型,甚至包含了无损、有损编码损伤、抖动损伤、采样丢失损伤等声音混合的可能性,团子的V1-Max进一步支持混合型的音频损伤输入,无论您的音频只有一种损失,又或者有多种混合的损伤问题,您无需关心损伤的类型和位置,只需一键,一切交给团子的DLAF神经网络全自动修复即可。
大幅减少爆音问题
在V1完成的最终阶段,我们发现团子的输出在某些歌曲可能会存在“爆音”问题,听起来像是在原曲之上存在咔哒(click)声或者噼啪(pop)声音,尤其是音量本身就很大的原曲部分更有可能出现此问题,这种爆音并非由团子产生,而是原曲本身就包含这些声音或者因为有损编码器的引入导致的,由于没有特殊处理,团子会“忠于原曲”去重建这些爆音。受限于V1研发接近完成,我们只能提供一种无奈的后处理爆音的能力,但这种后处理会衰弱原曲打击乐器的清脆程度。
团子的团队非常在意这个情况,在V1-Max中,我们着重的解决了此问题——现在团子也会将爆音作为某种损伤去修复,在我们的测试中,99%爆音问题基本消失,因此您无需在使用后处理去移除爆音并避免因此导致的打击乐“发闷”问题。
对于后处理的开关,我们仍然保留,但标记为“不推荐/已废弃”,将在未来的V2算法移除此开关,从V1-Max模型开始起,团子不推荐使用后处理功能以免降低输出的音频质量。
更清脆的高频
我们收到一些用户的反馈,说部分歌曲“频谱看起来像是那么回事”,但听起来仍然有一定“发闷”问题,在V1-Max中,我们加强了高频重建的力度,这会让高频的能量更丰富,尤其我们关注了打击乐器的响脆程度,V1-Max输出的打击乐器的高频会更加紧实、清脆。
(三个音频从上到下分别为:有损原曲、V1、V1-Max的输出结果)
可以听到,V1-Max的打击乐器会更加响脆,细心的小伙伴还有可能发现V1的打击乐器会伴随一定的“爆音”,而V1-Max则不存在此问题👻
另外,我们还对人声进行了特别优化,提高了人声高频的“气流音”的清晰程度,人声重建更清晰、更自然。
更精确的相位重建
我们在V1模型中发现在歌曲音量较轻的区域,可能在频谱的某些频点出现某些“横线”伪影,在V1-Max中我们已经严格修复了此问题。
另外,在某些声音较大的区域,V1的算法输出的声音可能出现“弹舌”感或者“沙沙”感,这是我们网络的相位重建不准确导致的,在V1-Max中我们针对性的改进了部分架构,可以更加准确的重建歌曲相位信息,并成功的解决了上述问题。
接下来?
V1-Max作为我们有损音频修复的大乘之作,经过进一步的打磨,完美解决了V1发布后的几个痛点,团子的研发团队对它非常满意😇
团子的有损音频修复功能,是我们对音频“复杂重建”领域探索迈出的史诗级的第一步,接下来团子会吸收该功能的研发的心得,提升团子的其他功能的最终输出性能,又或者提供更多的音频修复方面功能,还请小伙伴们敬请期待😇
我们深知V1-Max并不是终点,不过目前我们会暂时“毕业”此功能,着重去研发其他功能,您可以在每月初的研发日志关注我们的研发动向。













