【25年04月】团子AI研发日志
团子AI · 2025-05-06 预告
【25年04月】团子AI研发日志

11.0正式开始研发

本月我们开始了“伴奏人声提取”功能11.0的开发,10.0到现在已经有了一年之久,经过一年的技术沉淀,我们将在11.0中研发一个更好的提取架构。

目前我们已经完成了小规模验证阶段,开始了正式训练过程。我们着重于以下内容的改进:

更高提取性能

相比于上一代,我们再次添加了约30%的训练数据,基于我们全新研发的DangoNet5架构,进一步增加了0.5亿的参数量,我们预计本代算法最终大概能获得18.4~18.6左右的SDR分数,虽然这在我们团队的预料之中,但这个成绩仍然令人惊讶,尽管相对于9代到10代的提升(0.7左右SDR),本代提升会稍微小一些(0.4~0.6SDR),但我们之前也探讨过,SDR和“听感”的关联并不高,也许低的SDR能代表输出较为糟糕,但相似的SDR可能在听觉上相差非常大。本代我们主要解决一些和人声类似的乐器的混淆问题,导致这些乐器错误的移除,尽管这个问题是老生常谈,并且经过整整10代算法的算法去调教,但这仍然是我们努力的目标,我们在10代的大量反馈中,发现电吉他的一些尖啸、一些带有和人声类似共振的合成器、甚至是一些“突发”声音,比如木吉他弹奏时,手指或衣物轻轻擦弦导致的很小的“唰”的声音,有时也会被意外的认为是“人声”并被移除,我们推测仍然是团子的“见识”过少,仍有可提升空间,所以我们再次添加了大量的训练数据,这将有效的减少上述的意外情况,让伴奏更加完整。

基于事件的提取

DangoNet5的感受野相对于上一代将进一步提升,这会让团子对某些长尾人声提取性能进一步提升,同时我们注意力模块增加了事件注意力机制,可以让团子在听到某些声音时决定是否提取这一个事件,如笛子的吹奏和唱歌时,都会有一个“吸气”的声音,目前的AI仅能遇到“吸气”就无脑移除,但有些歌曲的间奏部分并没有人声,比如只有笛子的SOLO,这时该吸气声音应该属于笛子的部分,新的架构可以自主决定某些声音是否移除,有效的提升了整体性能,保证伴奏不会被破坏。

WMIR5代恢复模块——全新饱满听觉架构

团子的“听感”一直作为我们的核心卖点之一,相比其他开源或商业算法,团子独家自研的DangoNet架构输出的伴奏清晰饱满,0伪影,0残留,0“杂音”感,我们发现,输出的音质总会倾向于某一种情况——要么饱满清晰,但就会带来杂音残留;要么更少残留,但会导致伴奏发闷发糊,尽管团子的WMIR架构一直在这种“左右摇摆”的情况中寻找一个平衡点,并且我们架构一次会输出三种声音来让用户自由抉择,并且我们的“智能”算法在大多数情况下可以输出较为完美的声音,饱满同时还拥有最小的残留杂音,这也是团子一直的核心卖点,不过这些仍然是某种无奈之举,谁都希望输出的伴奏“既要又要还要”——既非常饱满、清晰,但不会引入某些杂音伪影或者残留,那有没有什么办法可以取长补短呢?这是团子一直探索的事情。
不过这种问题即将结束了!全新的DangoNet5架构搭载新一代的恢复模块,我们完美解决了饱满听感下杂音过大的问题,新一代算法默认(智能)输出就比10.0的“保守”算法更加饱满,拒绝发闷发糊问题,伴奏恢复的更好,而且是实打实的输出更好的乐器内容,而不会出现某些不自然的人声残留,我们还对人声出现出的“衔接处”进行了特殊优化,减少了在没有人声时伴奏较好,但出现人声时伴奏会突然“变闷”的问题。当然,我们仍会在此基础上提供三种输出方案,供您在某些情况下的个性选择。

左:11.0输出频谱(非最终上线版),右:10.0输出频谱

进一步的抗干扰能力

团子在第十代中加入了抗干扰能力,我们解决了用户上传的爆音、有损歌曲等“非正常”歌曲时,团子提取性能急剧下降的问题,在这一代,我们将进一步增加抗干扰能力,提升在有损压缩等极端环境下的提取能力,进一步减少中高频残留的“有损频谱颗粒”导致的在有损歌曲移除人声后,伴奏总有一些不自然的“咔哒”声或“水流”声的问题。

“去现场”能力正在筹备并实验中

我们拟定推出一个去除歌曲里“现场版”内容的功能,原本我们希望将它纳为“任意乐器分离”里的一个提取能力,但经过我们的评估,我们希望将此功能单独拆解,并制作为团子的一个全新功能——“现场声音去除(de-live)”,该功能会移除“现场版”歌曲里出现的鼓掌、拍手、欢呼、尖叫、嘈杂人声说话的内容,同时还会移除现场版歌曲的意外磕碰麦克风导致的“低音轰隆”的声音,同时还会移除现场版里过量的混响回声声音——而这一切将分开处理,我们会返回四个音轨:现场声、错误低音声、过量混响声以及原曲,您可以和类似“任意乐器分离”那样自由的调节这些音轨的声音,自由选择需要哪些声音、移除哪些声音。

“混响回声移除”预计将上线去回声能力

目前混响回声移除功能仅能移除混响或轻微回声能力,我们将推出同时移除混响+回声的能力,您可以自由选择是否移除混响的同时移除人声。目前我们将此功能计入我们的接下来的研发日程中。

接下来?

伴奏人声提取仍在训练过程中,预计6月份中旬或7月份上线“伴奏人声提取”能力,并在这之后的1个月内上线“更好人声提取”能力,随后的2个月左右会上线“和声保留”的能力,我们也在加快实验进度,希望团子最新的“生猛技术”能更早的和小伙伴们见面🤣还请耐心等待😇