4代萨克斯、号、提琴:任意乐器分离已发布
Dango AI · 2024-09-08 新功能
4代萨克斯、号、提琴:任意乐器分离已发布

经过大量实验和训练,我们的任意乐器分离4代的第二批模型现已发布,一起来看看都有什么提升吧。

萨克斯或号:提升10%

上一代的萨克斯或号模型,我们获得了6.32dB的SDR(源失真比)分数,而本代我们经过训练素材和我们自研算法的双重加持下,我们得到了6.94dB的SDR分数,这表明4代的萨克斯输出的“结果”更加清晰且保真。

在本代萨克斯或号模型中,我们主要提升了“对抗”能力。我们发现3代的萨克斯模型经常会意外的提取出非萨克斯的声音,导致提取内容混乱或伴奏丢失乐器,本代我们主要对提琴和合成器进行了大量对抗训练,尤其是提琴——萨克斯或号一般经常和提琴一起出现,这被我们称为经典的“管弦乐”,本代我们着重的让AI学习了如何仔细区别非萨克斯的声音。

但我们在实验过程中发现,和3代的“超级奔放”、尽可能的提取萨克斯或类似萨克斯的声音不同,4代中我们添加大量对抗训练数据,会导致萨克斯的提取过于“谨慎”,即AI学习过多对抗样本导致过于谨慎、认为各种声音都不是萨克斯从而放弃提取——这甚至影响了正常的萨克斯提取能力。这对我们来说是个非常大的挑战,不过最终我们在大量的实验中寻找出了一个“平衡点”,让萨克斯既能正确提取、又不会将其他声音混淆。

这间接的导致了4代的萨克斯或号对“萨克斯或号本体”的提取能力相对于3代在某些极端歌曲内可能低一些,但瑕不掩瑜,4代因为大量的对抗训练,现在对其他类似的管弦乐器能区分的更好。

我们仍然以经典的萨克斯曲子《回家(Going home)》为例,尽管三代相对于二代来说提升非常明显、有效的减少了对其他乐器的混淆,但仍有残留,而4代中因为我们进一步的增加了对抗训练,可以有效的减少提取错误问题。

原曲:

audio-thumbnail
Sax raw
0:00
/0:07

三代:

audio-thumbnail
Sax 3
0:00
/0:07

四代:

audio-thumbnail
Sax 4
0:00
/0:07

进一步的,我们以《在中国大地上》这首歌为例:

原曲:

audio-thumbnail
2 sax raw
0:00
/0:07

三代:

audio-thumbnail
2 sax 3
0:00
/0:07

四代:

audio-thumbnail
2 sax 4
0:00
/0:07

可以发现在该片段中高音女声导致三代模型误认为是“萨克斯或号”的乐器从而错误消除,而四代中我们增加了人声的对抗训练,这让我们四代模型可以正确的提取歌曲里的目标乐器。

提琴:提升6%

上一代中我们得到了4.68dB的分数,而本代我们得到了4.96dB的分数,从量化上来说,相对提升了6%的分离质量。

4代模型相较于3代,对“高音”的提琴更加敏感,同时减少了对“低音”的大提琴敏感程度。和电吉他模型相同,我们发现3代模型中,提琴经常将错误的贝斯低音当成“大提琴”去提取(甚至还“幻觉”模拟出了大提琴的声音🤣),本代中我们增加了针对性方法,减少了提琴对于低音的错误混淆问题。

同样的,我们增加了4代提琴模型对于“合成器”以及高音提琴的敏感程度,现在4代模型可以更好的提取由电子合成器合成出的“string”乐器,这增强了针对电子音乐的提取能力;现在对高音的疑似“提琴”的声音也更加敏感,可以有效的提取3代中一些“残留”的高音提琴。

另外,提琴相较于其他几种乐器不同,它的release更长——也就是乐器会有较长的“拖尾音”,本代中,我们为提琴模型特殊的增加了更长的注意力机制,现在即便遇到长音的提琴也不会像是3代那样突然“断掉”提取,而是可以连贯的将整个音色提取出来了。

原曲:

audio-thumbnail
String raw
0:00
/0:07

三代:

audio-thumbnail
String 3
0:00
/0:07

四代:

audio-thumbnail
String 4
0:00
/0:07

可以听到,该歌曲中包含了“合成器”声音,而4代可以有效的提取并移除该声音,3代则“断断续续”的无法提取该声音。

接下来?

目前我们仍在训练“钢琴”、“笛子”两个模型,这会是4代模型中的最后两个。

钢琴模型经过我们的大量实验和“返工”,以及巨量的训练素材的添加(力大砖飞.jpg)、目前正在向着较好的趋势训练,有望获得较大提升。笛子模型我们正在开始实验,可能会成为最晚发布的模型。敬请期待😇