【25年04月】团子AI研发日志

团子AI · 2025-05-06 预告

11.0正式开始研发

本月我们开始了“伴奏人声提取”功能11.0的开发，10.0到现在已经有了一年之久，经过一年的技术沉淀，我们将在11.0中研发一个更好的提取架构。

目前我们已经完成了小规模验证阶段，开始了正式训练过程。我们着重于以下内容的改进：

更高提取性能

相比于上一代，我们再次添加了约30%的训练数据，基于我们全新研发的DangoNet5架构，进一步增加了0.5亿的参数量，我们预计本代算法最终大概能获得18.4~18.6左右的SDR分数，虽然这在我们团队的预料之中，但这个成绩仍然令人惊讶，尽管相对于9代到10代的提升（0.7左右SDR），本代提升会稍微小一些（0.4~0.6SDR），但我们之前也探讨过，SDR和“听感”的关联并不高，也许低的SDR能代表输出较为糟糕，但相似的SDR可能在听觉上相差非常大。本代我们主要解决一些和人声类似的乐器的混淆问题，导致这些乐器错误的移除，尽管这个问题是老生常谈，并且经过整整10代算法的算法去调教，但这仍然是我们努力的目标，我们在10代的大量反馈中，发现电吉他的一些尖啸、一些带有和人声类似共振的合成器、甚至是一些“突发”声音，比如木吉他弹奏时，手指或衣物轻轻擦弦导致的很小的“唰”的声音，有时也会被意外的认为是“人声”并被移除，我们推测仍然是团子的“见识”过少，仍有可提升空间，所以我们再次添加了大量的训练数据，这将有效的减少上述的意外情况，让伴奏更加完整。

基于事件的提取

DangoNet5的感受野相对于上一代将进一步提升，这会让团子对某些长尾人声提取性能进一步提升，同时我们注意力模块增加了事件注意力机制，可以让团子在听到某些声音时决定是否提取这一个事件，如笛子的吹奏和唱歌时，都会有一个“吸气”的声音，目前的AI仅能遇到“吸气”就无脑移除，但有些歌曲的间奏部分并没有人声，比如只有笛子的SOLO，这时该吸气声音应该属于笛子的部分，新的架构可以自主决定某些声音是否移除，有效的提升了整体性能，保证伴奏不会被破坏。

WMIR5代恢复模块——全新饱满听觉架构

团子的“听感”一直作为我们的核心卖点之一，相比其他开源或商业算法，团子独家自研的DangoNet架构输出的伴奏清晰饱满，0伪影，0残留，0“杂音”感，我们发现，输出的音质总会倾向于某一种情况——要么饱满清晰，但就会带来杂音残留；要么更少残留，但会导致伴奏发闷发糊，尽管团子的WMIR架构一直在这种“左右摇摆”的情况中寻找一个平衡点，并且我们架构一次会输出三种声音来让用户自由抉择，并且我们的“智能”算法在大多数情况下可以输出较为完美的声音，饱满同时还拥有最小的残留杂音，这也是团子一直的核心卖点，不过这些仍然是某种无奈之举，谁都希望输出的伴奏“既要又要还要”——既非常饱满、清晰，但不会引入某些杂音伪影或者残留，那有没有什么办法可以取长补短呢？这是团子一直探索的事情。
不过这种问题即将结束了！全新的DangoNet5架构搭载新一代的恢复模块，我们完美解决了饱满听感下杂音过大的问题，新一代算法默认（智能）输出就比10.0的“保守”算法更加饱满，拒绝发闷发糊问题，伴奏恢复的更好，而且是实打实的输出更好的乐器内容，而不会出现某些不自然的人声残留，我们还对人声出现出的“衔接处”进行了特殊优化，减少了在没有人声时伴奏较好，但出现人声时伴奏会突然“变闷”的问题。当然，我们仍会在此基础上提供三种输出方案，供您在某些情况下的个性选择。

进一步的抗干扰能力

团子在第十代中加入了抗干扰能力，我们解决了用户上传的爆音、有损歌曲等“非正常”歌曲时，团子提取性能急剧下降的问题，在这一代，我们将进一步增加抗干扰能力，提升在有损压缩等极端环境下的提取能力，进一步减少中高频残留的“有损频谱颗粒”导致的在有损歌曲移除人声后，伴奏总有一些不自然的“咔哒”声或“水流”声的问题。

“去现场”能力正在筹备并实验中

我们拟定推出一个去除歌曲里“现场版”内容的功能，原本我们希望将它纳为“任意乐器分离”里的一个提取能力，但经过我们的评估，我们希望将此功能单独拆解，并制作为团子的一个全新功能——“现场声音去除（de-live）”，该功能会移除“现场版”歌曲里出现的鼓掌、拍手、欢呼、尖叫、嘈杂人声说话的内容，同时还会移除现场版歌曲的意外磕碰麦克风导致的“低音轰隆”的声音，同时还会移除现场版里过量的混响回声声音——而这一切将分开处理，我们会返回四个音轨：现场声、错误低音声、过量混响声以及原曲，您可以和类似“任意乐器分离”那样自由的调节这些音轨的声音，自由选择需要哪些声音、移除哪些声音。

“混响回声移除”预计将上线去回声能力

目前混响回声移除功能仅能移除混响或轻微回声能力，我们将推出同时移除混响+回声的能力，您可以自由选择是否移除混响的同时移除回声。目前我们将此功能计入我们的接下来的研发日程中。

接下来？

伴奏人声提取仍在训练过程中，预计6月份中旬或7月份上线“伴奏人声提取”能力，并在这之后的1个月内上线“更好人声提取”能力，随后的2个月左右会上线“和声保留”的能力，我们也在加快实验进度，希望团子最新的“生猛技术”能更早的和小伙伴们见面🤣还请耐心等待😇

返回到团子博客