10.0和声保留正式发布;新【可控和声保留】算法也在路上
团子AI · 2024-05-12 新功能
10.0和声保留正式发布;新【可控和声保留】算法也在路上

作为搭载团子自研DangoNet4架构的10.0系列算法的最后一员——“和声保留”算法,在今日也正式和小伙伴们见面啦。

本代的和声保留花费的实验和训练时间都是团子史上最久的一版(尽管这并不算是一个好的“指标”🤣),借助于我们全新的DangoNet4架构与额外30%训练数据的增加,本代我们的和声保留的SDR分数(源失真比,越高代表越贴近真实伴奏)到达了16.03dB,而上一代则为15.49dB,相对的提升了0.54dB的巨额分数——数值是“虚无缥缈”的,让我们一起看看有什么实际提升。

更理解和声,更少犯错

本代中,我们再次重整了我们和声的训练数据,使AI训练的目标更加明确,使以前的一些Double轨(和主唱音调相同,相当于一个人唱“两次”)能被正确识别为主唱而不是和声轨从而正确移除,经过测试,新版算法在9代中许多困难提取歌曲都得到了不错的改善,在默认的“智能”算法下就可以胜任绝大多数歌曲,而无需用户手动切换到“激进”算法来强制移除主唱。

主唱移除的更干净

借助我们的DangoNet4架构的更好的注意力机制,现在AI拥有更好的“视野”,它可以从歌曲的前后几秒来分析当前需要移除的部分是否为主唱,在9代中,经常出现尽管主唱的干声移除,但它的效果器(如混响或延迟)仍然残留的问题,在10代中均得到大幅度改善。

另外,在歌曲只有主唱的部位,10代的提取性能也更加稳定,基本杜绝了前代通病的“咔哒声”或“气泡声”的残留问题。

和声更响亮

借助团子的WMIR4架构,我们可以“恢复”那些受损的伴奏声音,应用到和声保留则是可以提升和声的清晰程度,在10代中,我们不但能提取“和声”,同时也能保证“和声”吐字清晰,主要集中在两部分——齿音和高频的气流音的提升。

在大部分歌曲中,和声与主唱的歌词相同,即二者尽管音调不同,但歌词是一致的——在前代,歌词的齿音(如Si)会被当成主唱消除,这会导致和声丢失齿音,导致和声听起来有些不通透的感觉,人声高频的气流声(想象着您说一声“哈”字)同样如此。本代算法中,我们的WMIR架构会从主唱中“抢回”这些辅助声音,来进一步提升和声通透感。

全新神秘算法【可控和声保留】

在和声保留的训练中,我们发现,团子目前(以及将要上线的)和声保留算法在绝大多数歌曲中都可以正常的移除主唱并保留和声,但在部分歌曲中,偶尔会出现以下问题:

  • 伴奏中和声丢失或断断续续:和声被当做主唱错误移除
  • 伴奏中和声和主唱“颠倒”:主唱被保留在伴奏中,和声却被移除

根据我们对用户反馈的分析和大量调查,我们发现,这些歌曲大多数都是因为“主唱”与“和声”的音量过于相近,导致AI无法正确的识别和声。在大多数的音乐编曲中,和声是在主唱的“下面”,衬托着主唱的存在——它的声音一般会比主唱更小,并且有些和声还会加一些让和声变的“模糊”的效果器(如镶边器、合唱器等)来“避开”和主唱人声打架的问题,而AI其实在大量的歌曲训练中已经自己总结出了上述的规律,大多数歌曲都遵循这一规律所以AI可以轻松的分辨出主唱和和声的区别——但这仅仅是作曲的一种通用“潜规则”,实际上和声的声音大小完全是作曲家说的算,所以在某些主唱与和声音量完全相同的歌曲中,规则就失效了,我们团子也“蒙圈”了。

那么,在这种规则失效的情况下,我们能不能控制AI强制认定某一个声音是主唱呢?

很荣幸的向您宣布,全新的团子【可控和声保留】因此研发,一般歌曲的结构中,主唱一定会有“独唱”的地方,也就是这个区域只有主唱没有和声——您只需要在原曲中框选几秒主唱“独唱”的地方,作为一种“条件”,团子会全自动识别该区域人声为主唱的声纹,并以此为条件分离整首歌曲,我们可以听一个案例:

audio-thumbnail
Snow orig
0:00
/0:07
audio-thumbnail
Snow cond1
0:00
/0:07
audio-thumbnail
Snow cond2
0:00
/0:07

上方分别是原曲、只保留人声A、只保留人声B

这首歌就是上文所述的“主唱与和声音量相同”的一首歌,严格来说,这是一首“双人合唱”歌曲,二者其实都是“主唱”,他们在整首歌中会互相交换唱歌,有时是A作为某个区域的主唱,B作为贴唱,有时反过来,而我们如果需要删除某个人声,保留另一个人声的话,只需要框选要删除的人声的独唱部分作为主唱条件,团子的神经网络即可自动删除。更乐观一点,该算法和我们预想的“多人声分离”已经走进了一步,您甚至可以用此算法删除音乐中的某个男声或女声,而保留其他声音,它将有无限的“可玩性”。

目前,算法仍处于实验状态,我们计划将在“和声保留”训练完成并发布后,再发布此算法。我们计划将此算法归入“在线编辑器”功能中,而不是单独的上传时选择的算法,您可以正常的使用“和声保留”算法,它本身就可以胜任99%的歌曲——而在某些提取效果不佳的地方,您可以进入我们的在线编辑器功能,框选并应用本【条件算法】,来作为高级用户的手动修复改进方案。由于此算法需要“重算”,需要消耗一定的点数使用,不过放心——我们也会为每首歌曲都提供一定的免费处理时长,足够您免费的进行“小缝小补”。