
本月我们发布了伴奏人声提取系列的第九代算法,目前已经公开了“伴奏人声提取”和“更好人声提取”算法,而“和声保留”算法仍在训练中。
不幸的是,我们已经进行了数次实验,但“和声保留”的训练效果仍然没有得到我们的预期——这代表着和声保留的算法的发布可能进一步推迟(1~2个月以上)。
尽管我们也希望新的算法尽快和您见面,但我们也不想发布一个“瑕疵品”🥲,和声保留的推理任务要比“伴奏”+“人声”的任务更为复杂,因为伴奏和人声是两个“不相关”的标签,区分它们的特征相对来说要比“主唱”和“和声”更加简单,由于“和声”本身的界限较为复杂,比如正常的人声轨不一定只是拥有main(主唱)、back(贴唱),根据歌曲复杂度和曲风也可能拥有double(多个相同音调的人声来增强人声感情)、adlib(一些短的人声,比如突然的“哇哦”这样的声音)、vocoder(一种常见的人声效果器,让人声听起来像是机器人)、fx(一些杂七杂八特别重的效果器人声)等等,将这些多个音轨叠加的人声拆分,并规划为“哪些是人声”其实非常困难——而和声保留一般是根据立体声的声场/各个音轨人声音量大小等特征来进行学习的,如果歌曲的main和back使用相同的立体声声场,那有时候将很难区分。
9.0的“和声保留”是希望能改善这些情况进行更好的和声“区分”,但如果我们长期实验无法得到改进(相对于8.0来说),我们可能将放弃和声区分转而增强音质,而目前的DangoNet3本身就可以大幅度增强,根据实验时间,最坏可能我们会训练一个“相对8.0音质更好、但区分能力相近”的模型而上线(尽管如此也不算太坏就是了🤣)
接下来呢?
8月份我们将继续紧张的实验“和声保留”算法,来查看是否仍然拥有改进空间——即便如此,目前的8.0的“和声保留”算法仍然是先进且跨越世代的,您也可以继续使用8.0系列的“和声保留”算法来满足您的需求😇
另外,我们也在研发“反馈通道”,这是我们几个月前的承诺(咕咕咕🤣),将于8月份内上线。反馈通道对于团子的改进来说非常重要,用户可以框选出效果不佳的片段,团子将根据您的反馈内容来着重学习并进一步提升未来团子算法的音质,而且根据您反馈的片段的质量,我们可能会赠送付费点数,敬请期待!😇