10.0和声保留正式发布；新【可控和声保留】算法也在路上

团子AI · 2024-05-12 新功能

作为搭载团子自研DangoNet4架构的10.0系列算法的最后一员——“和声保留”算法，在今日也正式和小伙伴们见面啦。

本代的和声保留花费的实验和训练时间都是团子史上最久的一版（尽管这并不算是一个好的“指标”🤣），借助于我们全新的DangoNet4架构与额外30%训练数据的增加，本代我们的和声保留的SDR分数（源失真比，越高代表越贴近真实伴奏）到达了16.03dB，而上一代则为15.49dB，相对的提升了0.54dB的巨额分数——数值是“虚无缥缈”的，让我们一起看看有什么实际提升。

更理解和声，更少犯错

本代中，我们再次重整了我们和声的训练数据，使AI训练的目标更加明确，使以前的一些Double轨（和主唱音调相同，相当于一个人唱“两次”）能被正确识别为主唱而不是和声轨从而正确移除，经过测试，新版算法在9代中许多困难提取歌曲都得到了不错的改善，在默认的“智能”算法下就可以胜任绝大多数歌曲，而无需用户手动切换到“激进”算法来强制移除主唱。

主唱移除的更干净

借助我们的DangoNet4架构的更好的注意力机制，现在AI拥有更好的“视野”，它可以从歌曲的前后几秒来分析当前需要移除的部分是否为主唱，在9代中，经常出现尽管主唱的干声移除，但它的效果器（如混响或延迟）仍然残留的问题，在10代中均得到大幅度改善。

另外，在歌曲只有主唱的部位，10代的提取性能也更加稳定，基本杜绝了前代通病的“咔哒声”或“气泡声”的残留问题。

和声更响亮

借助团子的WMIR4架构，我们可以“恢复”那些受损的伴奏声音，应用到和声保留则是可以提升和声的清晰程度，在10代中，我们不但能提取“和声”，同时也能保证“和声”吐字清晰，主要集中在两部分——齿音和高频的气流音的提升。

在大部分歌曲中，和声与主唱的歌词相同，即二者尽管音调不同，但歌词是一致的——在前代，歌词的齿音（如Si）会被当成主唱消除，这会导致和声丢失齿音，导致和声听起来有些不通透的感觉，人声高频的气流声（想象着您说一声“哈”字）同样如此。本代算法中，我们的WMIR架构会从主唱中“抢回”这些辅助声音，来进一步提升和声通透感。

全新神秘算法【可控和声保留】

在和声保留的训练中，我们发现，团子目前（以及将要上线的）和声保留算法在绝大多数歌曲中都可以正常的移除主唱并保留和声，但在部分歌曲中，偶尔会出现以下问题：

伴奏中和声丢失或断断续续：和声被当做主唱错误移除
伴奏中和声和主唱“颠倒”：主唱被保留在伴奏中，和声却被移除

根据我们对用户反馈的分析和大量调查，我们发现，这些歌曲大多数都是因为“主唱”与“和声”的音量过于相近，导致AI无法正确的识别和声。在大多数的音乐编曲中，和声是在主唱的“下面”，衬托着主唱的存在——它的声音一般会比主唱更小，并且有些和声还会加一些让和声变的“模糊”的效果器（如镶边器、合唱器等）来“避开”和主唱人声打架的问题，而AI其实在大量的歌曲训练中已经自己总结出了上述的规律，大多数歌曲都遵循这一规律所以AI可以轻松的分辨出主唱和和声的区别——但这仅仅是作曲的一种通用“潜规则”，实际上和声的声音大小完全是作曲家说的算，所以在某些主唱与和声音量完全相同的歌曲中，规则就失效了，我们团子也“蒙圈”了。

那么，在这种规则失效的情况下，我们能不能控制AI强制认定某一个声音是主唱呢？

很荣幸的向您宣布，全新的团子【可控和声保留】因此研发，一般歌曲的结构中，主唱一定会有“独唱”的地方，也就是这个区域只有主唱没有和声——您只需要在原曲中框选几秒主唱“独唱”的地方，作为一种“条件”，团子会全自动识别该区域人声为主唱的声纹，并以此为条件分离整首歌曲，我们可以听一个案例：

Snow orig

0:00

/0:07

Snow cond1

0:00

/0:07

Snow cond2

0:00

/0:07

上方分别是原曲、只保留人声A、只保留人声B

这首歌就是上文所述的“主唱与和声音量相同”的一首歌，严格来说，这是一首“双人合唱”歌曲，二者其实都是“主唱”，他们在整首歌中会互相交换唱歌，有时是A作为某个区域的主唱，B作为贴唱，有时反过来，而我们如果需要删除某个人声，保留另一个人声的话，只需要框选要删除的人声的独唱部分作为主唱条件，团子的神经网络即可自动删除。更乐观一点，该算法和我们预想的“多人声分离”已经走进了一步，您甚至可以用此算法删除音乐中的某个男声或女声，而保留其他声音，它将有无限的“可玩性”。

目前，算法仍处于实验状态，我们计划将在“和声保留”训练完成并发布后，再发布此算法。我们计划将此算法归入“在线编辑器”功能中，而不是单独的上传时选择的算法，您可以正常的使用“和声保留”算法，它本身就可以胜任99%的歌曲——而在某些提取效果不佳的地方，您可以进入我们的在线编辑器功能，框选并应用本【条件算法】，来作为高级用户的手动修复改进方案。由于此算法需要“重算”，需要消耗一定的点数使用，不过放心——我们也会为每首歌曲都提供一定的免费处理时长，足够您免费的进行“小缝小补”。

返回到团子博客