4代钢琴、萨克斯或号(激进):任意乐器分离已发布
团子AI · 2024-10-27 新功能
4代钢琴、萨克斯或号(激进):任意乐器分离已发布

团子“任意乐器分离”的最后两款模型:4代钢琴、萨克斯或号(保守)已经全量发布。

钢琴:提升17%

钢琴本身作为我们训练的第三个模型,我们计划在第一批时就发布该模型,但在我们训练并大量的内部测试中,我们发现三代到四代的钢琴提升非常小(只有1%左右),这和其他的模型普遍提升5%~10%相比,提升量非常的小,并不符合我们的期待😥当然这种“挤牙膏”模型即便释放,小伙伴们也不会满意,于是我们将精力重点在如何提升钢琴性能上——我们增加了足足一倍的训练数据,并针对钢琴的特性进行大量优化微调,虽然这让该模型变成了最后释放的模型,但这一切都是值得的,在前代中,我们获得了5.16dB的SDR成绩,而本代中我们获得了6.07dB的成绩。新的四代钢琴性能相较于上一代,足足提高了17%!

(注意:我们增加了验证集数据量,使其覆盖的风格更广,这使得上一代的SDR产生偏移变动,不再是4.13dB而是5.16dB)

新的钢琴主要提升在三个部分:

  1. 和其他乐器打架情况更少:我们特别针对了和钢琴音色相近的铃(Bell)、木吉他的训练,现在新的钢琴模型不会错误的将木吉他内的音色当成钢琴提取了。
  2. 低音更准确:新的钢琴减少了低音幻觉问题,在前代钢琴中,经常会将低音Bass或其他包含低音的乐器的一部分“幻觉”成钢琴提取——而实际上这里本身就没有钢琴,只是模型幻觉认为这里包含钢琴甚至“塑造”出一个钢琴声音,这使得提取结果非常不准确且总有“很浓厚”的混乱低音钢琴声。在本代我们大量优化了这个问题,现在钢琴提取出来高音更清晰、低音不浑浊。
  3. 更精细:得益于我们新的DangoNet4算法,现在可以在更吵闹的声音中也能精细的提取出钢琴声音了。

我们以这首歌为例,本首歌包含了木吉他和钢琴同奏的情况:

audio-thumbnail
Piano raw
0:00
/0:11

3代提取如下:

audio-thumbnail
Piano3
0:00
/0:11

4代提取如下:

audio-thumbnail
Piano4
0:00
/0:11

可以发现,3代会将木吉他的低音部幻觉成“钢琴音色”并提取,并且3代会缺少部分钢琴note的提取,而4代提取更加清晰且准确。


另一首歌:

audio-thumbnail
Pianoaraw
0:00
/0:07

3代:

audio-thumbnail
Piano3a
0:00
/0:07

4代:

audio-thumbnail
Piano4a
0:00
/0:07

可以发现4代在嘈杂音乐中,仍然能完整提取钢琴内容,而3代会丢失很多钢琴note。

萨克斯或号(激进)

在萨克斯或号模型发布后,我们收到部分反馈,原4代模型由于过于保守,它会尽可能保护其他乐器不损坏,但相应的该模型本身的提取能力也在部分歌曲下降,甚至不如3代。

针对此问题,我们发布了激进版模型,该模型减少了对抗,使其提取能力和3代相似,会提取一切可能的萨克斯&号的音色。但相比3代,该模型仍然可以缓解错误提取问题——在各方面都算3代的“上位替代品”,并且提取能力也比较稳定。

经过我们的讨论,该模型现在成为4代的“标准”模型,而原4代模型更改为实验性模型。

原4代模型 “萨克斯或号”更名->“萨克斯或号(管弦对抗)”

“萨克斯或号(激进)”更名->“萨克斯或号”

您在接下来使用的模型默认为萨克斯或号(激进),如您需要在管弦乐使用并尽可能保护其他乐器,您可以在模型选择界面勾选“显示实验性/已过时模型”并选择“萨克斯或号(管弦对抗)”模型。