
10.0后经过了16个月周期,我们很荣幸的和您介绍我们的次世代作品——搭载了团子自研的DangoNet5神经网络架构的11.0系列伴奏人声提取算法。
太长懒得看?快速的和您介绍全新的11代算法:
- 听感大升级:乐器恢复程度史无前例级别的极大提升,全新算法默认输出就比 10.0 『保守』算法更加清脆饱满,残留不增反减。
- 现在我们的SDR(源失真比)达到了18.41dB,分离质量相较10.0算法(18.00dB)相对提升了51%。
- 2倍注意力长度提升,现在AI一次可以关注更长的歌曲上下文。
- 30%额外AI学习素材引入,增加了大量困难样本,对各类音乐支持更好。
- 不止MP3,现在对所有的有损音乐支持都更好,对轻微压缩的有损音乐可以达到接近于无损质量的提取能力。
持续学习的AI
尽管从10代到11代的研发周期长达16个月(创下团子版本迭代的最长记录),但技术升级工作从未间断:自10.0发布起我们就持续收集训练素材,并通过官方反馈工具、客服工单和邮件等渠道系统化整理用户建议。在本次升级中,我们不仅新增了30%的训练素材,更重要的是实施了难度分级学习策略——通过分析素材学习难度曲线,优先强化"困难"内容的学习权重,而"简单"内容则维持常规训练强度。这种精准优化使得11.0系列算法在SDR指标上达到18.41dB(当然团子的全新研发的分离架构也立了大功😏),较10代的18.00dB提升0.41dB。虽然增幅小于9代到10代0.7dB的跨越式进步,但必须强调的是:在当前技术瓶颈下,每0.1dB的性能提升都需要突破性的创新。
双倍注意力引入
由于音频本身的属性,信息密度极大,很难将其高维化或者进行信息压缩,所以和其他类型的AI不同的是,分离类AI要想分离一首歌曲,首先需要将歌曲“切块”,切成数个片段,每个片段持续数秒钟,并且依次的输入到AI中,AI每次处理“一块”歌曲,最后将处理好的数个块再拼接到一起。
这势必会造成一个问题——AI每次分离时,它的“视野”只有那区区几秒钟的歌曲片段,当我们听到一个声音类似人声、又有点像是乐器时,我们会向前或者向后听几秒这段声音,来判断这个声音的归属,但AI只能在有限时间的小范围内去理解歌曲。
目前的技术仍然很难将完整、变长的歌曲一口气交给AI,但团子本次的DangoNet5架构中,还是扩容了相对于10.0大约2.04倍长度的上下文容量,直接带来的好处譬如对于更长的人声尾音支持效果更好,我们举个例子:
从上至下分别为10代算法、11代算法和原曲。
在10代中,歌曲会沿着中间切块成2个部分,而第二部分(歌曲后半段)很明显无法对人声的长尾音做出有效消除,因为AI也无法理解这部分的声音是“某种乐器”还是“人声尾音”,只能保守处理不消除,而11代中,整个歌曲片段都会进入AI的“大脑”中,当处理后半段时,可以参考前半段的信息,来识别出该区域为“人声尾音”并持续消除这段声音。
我们还增加了约五千万的模型参数量,使得模型的“脑容量”相对于上一版本再次增加了约25%,AI可以记忆更多类型的歌曲,对歌曲的处理效果也会更好,当然,更多的参数量和更大的上下文,会导致我们的计算成本和计算时间线性的增加,但我们对模型的运行进行了极致的优化,现在的处理速度相较10.0持平,小伙伴们无需担心处理速度问题😏
听感再次升级——前所未有的饱满
上面说的改进都是更少的人声、乐器“误判”能力,对于小伙伴们来说可能需要一定量的使用才能感知和10.0的区别,但本段的改进则不是这些“虚无缥缈”的内容,而是任何歌曲和10.0对比都能显著发现的事实——👻👻
团子一直和其他算法最显著的不同就是“听感”,其他算法无论介绍的如何天花乱坠,当使用并试听时都会让人“皱眉”,要么发闷发糊,声音非常明显的不自然,要么充满杂音残留,虽然人声主体消除了,但总觉得有“不对劲”的杂音充斥在伴奏里。
团子一直在寻找一种最佳听感的平衡,我们发现,如果让AI输出的更加激进、杂音更少,那么AI的输出内容势必会失真且发闷发糊,反过来,如果让AI输出更清脆、更饱满的声音,那么输出的内容就会夹杂许多不可控的“杂音”,导致输出听起来似乎很饱满,但都是由“杂音”填充而成,仔细一听完全无法使用。
团子默认输出的“智能”算法,就尝试取长补短,既要一定的饱满,又要求不能有任何杂音,这在大部分的歌曲中的体验都非常好,并且我们还额外提供了“保守”、“激进”的两种算法,以供用户自由选择或者后期编辑。
但实际上,这仍然是一种妥协,我们仍然在提高网络的性能,有朝一日能做到既要“保守”的饱满,又要“激进”的纯净,没错,11.0算法搭载的DangoNet5神经网络架构,就是为此而生的,让妥协成为历史。
全新的架构采用了更强的感知和恢复技术,现在,我们11.0默认的输出(智能)就已经比10.0的(保守)算法听觉更加饱满,同时我们的能量保护模块也再次提升,现在声音整体都会更加饱满,不会出现人声出现后,伴奏突然开始发闷的问题。
当然,更加饱满只是解决了一个问题,另一个问题也就是杂音——在11.0的(智能)输出中,杂音和伪影问题比10.0(智能)更少。

上方是10.0(保守)和11.0(智能)的音频频谱对比图,以一首比较轻的钢琴曲为例,可以更好的对比频谱和声音内容:
- 黄色区域:高频伪影问题,出现在10.0算法中的高频区域,在轻音乐中比较明显,可以看到11.0的频谱更加平滑,减少突兀能量(瞬态)失真问题。
- 红色区域:人声形状残留。尽管10.0中团子已经移除了99.9%的人声音量,但还可能在部分音频中残留人声形状,如果放大到最大的声音可能仍会听到,在11代中此问题有效缓解。
- 蓝色区域:高频恢复能力。11代的(智能)算法对高频的还原能力甚至比10代的针对乐器饱满的(保守)算法恢复能力更强。
等下,这还不算完!😏
尽管11.0的(智能)算法就已经比10.0的(保守)算法更加清脆饱满,但团子在11.0中仍然提供三种输出,11.0的(保守)算法将为您带来从未有过的饱满听觉,该版本会提供进一步饱满听觉并尽量减少残留,以供部分用户的极限使用情况。同时11.0(保守)也解决了10.0(保守)算法中出现了类似高频齿音的“呲呲”声问题,这是因为团子的能量保护模块会误判为人声的齿音是类似Hit的乐器从而保留,导致音频中出现了很多“不存在”的呲呲鼓组声音,11代中此问题得到100%解决。

上方是11.0(保守)和11.0(保守)的音频频谱对比图,以一首电子音乐为例:
- 红色区域:10代中的鼓组竖线有一圈“模糊”的光晕,导致鼓组听起来模糊不够清脆。
- 蓝色区域:11代的对合成器的高频恢复能力更强,您也可以自行对比任意乐器的高频恢复能力,11代普遍拥有很大增幅空间,输出的乐器高频更动听保真。
有损?没问题
团子从10.0开始就针对一些非常见的音频进行专门的处理,比如音量过大的“爆音”声、有损MP3的压缩等,这些都会导致输出的音质大幅度下降。
在11代中,我们进一步的扩大了有损音频的定义范围,从原本的MP3变为了各类通用的有损音频,当然,这一切得益于我们之前希望研发但失败了的【有损音频恢复】功能,我们在该功能的实验中的一部分架构移植到了11代算法中。
现在,团子可以支持各类的有损压缩类型的处理,对那些压缩“不太严重”的有损音频,提取的性能可以接近于无损版音频质量,并且我们对有损音频的“高频颗粒”内容删除更多,有效缓解了有损音频输出时高频偶尔莫名其妙的“滋咔”声音问题,但可能在严重压缩的音频中仍然存在此问题。
尽管团子将问题“简化”,来让很多用户无需过多考虑即可获得尽可能完美的提取体验,但团子仍然建议您上传无损音频,以提供最佳的提取质量,具体您可以阅读我们的扩展文章。
后续呢?
和10代上线机制相同,我们首先发布【伴奏人声提取】功能,而【更好人声提取】和【和声保留】会在后续发布,每个算法可能需要1-2个月时间的训练😇
根据我们的预测,我们的更好人声提取与和声保留算法,均会有非常大的提升空间,团子的DangoNet5架构由于输出更加饱满且杂音更少,对【更好人声提取】的提升会非常大,届时人声的输出质量和纯净度会大幅提升,而我们的新架构以及更长的注意力机制,也会对【和声保留】算法进行一个较大的提升,因为长注意力的引入,理论来说会对主唱与和声的判断能力更强。