4代钢琴、萨克斯或号（激进）：任意乐器分离已发布

团子AI · 2024-10-27 新功能

团子“任意乐器分离”的最后两款模型：4代钢琴、萨克斯或号（保守）已经全量发布。

钢琴：提升17%

钢琴本身作为我们训练的第三个模型，我们计划在第一批时就发布该模型，但在我们训练并大量的内部测试中，我们发现三代到四代的钢琴提升非常小（只有1%左右），这和其他的模型普遍提升5%~10%相比，提升量非常的小，并不符合我们的期待😥当然这种“挤牙膏”模型即便释放，小伙伴们也不会满意，于是我们将精力重点在如何提升钢琴性能上——我们增加了足足一倍的训练数据，并针对钢琴的特性进行大量优化微调，虽然这让该模型变成了最后释放的模型，但这一切都是值得的，在前代中，我们获得了5.16dB的SDR成绩，而本代中我们获得了6.07dB的成绩。新的四代钢琴性能相较于上一代，足足提高了17%！

（注意：我们增加了验证集数据量，使其覆盖的风格更广，这使得上一代的SDR产生偏移变动，不再是4.13dB而是5.16dB）

新的钢琴主要提升在三个部分：

和其他乐器打架情况更少：我们特别针对了和钢琴音色相近的铃（Bell）、木吉他的训练，现在新的钢琴模型不会错误的将木吉他内的音色当成钢琴提取了。
低音更准确：新的钢琴减少了低音幻觉问题，在前代钢琴中，经常会将低音Bass或其他包含低音的乐器的一部分“幻觉”成钢琴提取——而实际上这里本身就没有钢琴，只是模型幻觉认为这里包含钢琴甚至“塑造”出一个钢琴声音，这使得提取结果非常不准确且总有“很浓厚”的混乱低音钢琴声。在本代我们大量优化了这个问题，现在钢琴提取出来高音更清晰、低音不浑浊。
更精细：得益于我们新的DangoNet4算法，现在可以在更吵闹的声音中也能精细的提取出钢琴声音了。

我们以这首歌为例，本首歌包含了木吉他和钢琴同奏的情况：