4代萨克斯、号、提琴：任意乐器分离已发布

Dango AI · 2024-09-08 新功能

经过大量实验和训练，我们的任意乐器分离4代的第二批模型现已发布，一起来看看都有什么提升吧。

萨克斯或号：提升10%

上一代的萨克斯或号模型，我们获得了6.32dB的SDR（源失真比）分数，而本代我们经过训练素材和我们自研算法的双重加持下，我们得到了6.94dB的SDR分数，这表明4代的萨克斯输出的“结果”更加清晰且保真。

在本代萨克斯或号模型中，我们主要提升了“对抗”能力。我们发现3代的萨克斯模型经常会意外的提取出非萨克斯的声音，导致提取内容混乱或伴奏丢失乐器，本代我们主要对提琴和合成器进行了大量对抗训练，尤其是提琴——萨克斯或号一般经常和提琴一起出现，这被我们称为经典的“管弦乐”，本代我们着重的让AI学习了如何仔细区别非萨克斯的声音。

但我们在实验过程中发现，和3代的“超级奔放”、尽可能的提取萨克斯或类似萨克斯的声音不同，4代中我们添加大量对抗训练数据，会导致萨克斯的提取过于“谨慎”，即AI学习过多对抗样本导致过于谨慎、认为各种声音都不是萨克斯从而放弃提取——这甚至影响了正常的萨克斯提取能力。这对我们来说是个非常大的挑战，不过最终我们在大量的实验中寻找出了一个“平衡点”，让萨克斯既能正确提取、又不会将其他声音混淆。

这间接的导致了4代的萨克斯或号对“萨克斯或号本体”的提取能力相对于3代在某些极端歌曲内可能低一些，但瑕不掩瑜，4代因为大量的对抗训练，现在对其他类似的管弦乐器能区分的更好。

我们仍然以经典的萨克斯曲子《回家（Going home）》为例，尽管三代相对于二代来说提升非常明显、有效的减少了对其他乐器的混淆，但仍有残留，而4代中因为我们进一步的增加了对抗训练，可以有效的减少提取错误问题。

原曲：