【24年04月】团子AI研发日志
团子AI · 2024-05-01 预告
【24年04月】团子AI研发日志

久久久久久等了!废话少说,直接向小伙伴们公布4月份团子的研发进程😇(懒得想词了.jpg)

更好人声提取10.0正式上线

在4月初,我们发布了更好人声提取的10.0代版本算法,得益于我们训练数据的增加和架构大幅改进,它获得了11.65dB的SDR分数,相较上一代提升了0.4dB的成绩,全新的架构对人声更加敏感,相较于上一代,即便是歌曲中非常微弱的人声也能提取,同时新架构对和声的理解更强,上一代算法经常会出现“主唱被提取但和声断断续续”,而10.0算法可以更准确的连带着和声一起提取。

另外,我们也优化了听觉方面,借助我们自研的WMIR4恢复架构,现在生成出的人声更自然、“AI”的恍惚感更少,而新架构带来的注意力机制提升,允许团子提取出的人声“尾音”更丰富,如人声的混响、延迟效果器的尾部声音。

和声保留10.0仍在训练中

作为10.0家族的最后一员,和声保留算法目前仍在训练中,我们预想中全新的架构因为更好的神经网络注意力机制,会对和声的理解能力更强,从而达到更高的SDR(源失真比,越高代表越贴近真实伴奏)——实际上确实达到了更高的SDR,目前已经比上一代大约提升了0.3dB的成绩,尽管有所提升,但这个成绩并没有达到我们认可的预期。很遗憾的和各位小伙伴们说声抱歉,我们仍需继续修改、实验和训练,来挖掘那可能的即便1%的提升,这个过程可能仍需1-2个月时间,目前我们已经停止其他的训练(如电吉他等“任意乐器分离”功能的4.0版本实验),来将全部算力进行和声保留的研发过程,还请各位小伙伴们稍安勿躁,团子的每一项工具均以质量作为与众不同的核心卖点。即便为了提升 1% 的质量,团子也会不计成本的“堆料”,只为对质量有极端苛刻要求的你。😇

全新神秘算法【可控和声保留】

在和声保留的训练中,我们发现,团子目前(以及将要上线的)和声保留算法在绝大多数歌曲中都可以正常的移除主唱并保留和声,但在部分歌曲中,偶尔会出现以下问题:

  • 伴奏中和声丢失或断断续续:和声被当做主唱错误移除
  • 伴奏中和声和主唱“颠倒”:主唱被保留在伴奏中,和声却被移除

根据我们对用户反馈的分析和大量调查,我们发现,这些歌曲大多数都是因为“主唱”与“和声”的音量过于相近,导致AI无法正确的识别和声。在大多数的音乐编曲中,和声是在主唱的“下面”,衬托着主唱的存在——它的声音一般会比主唱更小,并且有些和声还会加一些让和声变的“模糊”的效果器(如镶边器、合唱器等)来“避开”和主唱人声打架的问题,而AI其实在大量的歌曲训练中已经自己总结出了上述的规律,大多数歌曲都遵循这一规律所以AI可以轻松的分辨出主唱和和声的区别——但这仅仅是作曲的一种通用“潜规则”,实际上和声的声音大小完全是作曲家说的算,所以在某些主唱与和声音量完全相同的歌曲中,规则就失效了,我们团子也“蒙圈”了。

那么,在这种规则失效的情况下,我们能不能控制AI强制认定某一个声音是主唱呢?

很荣幸的向您宣布,全新的团子【可控和声保留】因此研发,一般歌曲的结构中,主唱一定会有“独唱”的地方,也就是这个区域只有主唱没有和声——您只需要在原曲中框选几秒主唱“独唱”的地方,作为一种“条件”,团子会全自动识别该区域人声为主唱的声纹,并以此为条件分离整首歌曲,我们可以听一个案例:

audio-thumbnail
Snow orig
0:00
/0:07
audio-thumbnail
Snow cond1
0:00
/0:07
audio-thumbnail
Snow cond2
0:00
/0:07

上方分别是原曲、只保留人声A、只保留人声B

这首歌就是上文所述的“主唱与和声音量相同”的一首歌,严格来说,这是一首“双人合唱”歌曲,二者其实都是“主唱”,他们在整首歌中会互相交换唱歌,有时是A作为某个区域的主唱,B作为贴唱,有时反过来,而我们如果需要删除某个人声,保留另一个人声的话,只需要框选要删除的人声的独唱部分作为主唱条件,团子的神经网络即可自动删除。更乐观一点,该算法和我们预想的“多人声分离”已经走进了一步,您甚至可以用此算法删除音乐中的某个男声或女声,而保留其他声音,它将有无限的“可玩性”。

目前,算法仍处于实验状态,我们计划将在“和声保留”训练完成并发布后,再发布此算法。我们计划将此算法归入“在线编辑器”功能中,而不是单独的上传时选择的算法,您可以正常的使用“和声保留”算法,它本身就可以胜任99%的歌曲——而在某些提取效果不佳的地方,您可以进入我们的在线编辑器功能,框选并应用本【条件算法】,来作为高级用户的手动修复改进方案。由于此算法需要“重算”,需要消耗一定的点数使用,不过放心——我们也会为每首歌曲都提供一定的免费处理时长,足够您免费的进行“小缝小补”。

接下来呢?

在5月份,我们仍然会以“和声保留10.0”为研发重心,团子也非常希望该算法能以一个惊人的成绩展现在小伙伴们面前, 敬请期待😇😇