
大家好哇,又到了一月一次的研发日志环节了😇
本月我们仍在训练任意乐器分离的新版模型,目前一切都在稳步提升,我们引入的新训练素材以及我们自研的全新DangoNet3架构将新的提取能力提升了一大截,下面我们将公布本月的开发成果:
笛子
已训练完毕。前代我们得到的SDR指标为4.43dB(SDR,源失真比率,可以理解为SDR越大就越接近“原曲”的提取质量,也就“越好”),而这次训练完毕的本代算法,我们得到了6.00dB的指标,量化来说相当于提升了35%的音质,和萨克斯提升了40%的研发路径不同,萨克斯是因为我们新的算法从而得到了非常巨量的性能提升,而新的笛子的提升原因,主要是因为我们引入了非常多的“对抗训练”,前代中我们的笛子容易和一些乐器“打架”,错误的认为某些乐器也是笛子,从而错误的提取或删除它们,而本代我们加入了大量的“对抗训练”,让AI能理解更多“什么声音不是笛子”,减少错误的提取能力,实际上我们的工程师试听时也能明显发现笛子和提琴、吉他、人声“打架”的问题得到非常良好的改善,目前笛子提取出来的声音非常纯净,而且支持提取笛子独特的"气流声",不会有其他音轨的泄露问题。
提琴
已训练完毕。前代SDR为4.03dB,而本代我们提升至4.68dB,相当于提升了16%的音质,在我们的前代模型反馈中,提琴经常会和“电吉他”混淆,本代我们同样和笛子相同加入了大量的电吉他对抗样本,经过实验性能得到提升并且混淆问题也得到改善,同时,我们对提琴引入了特别的训练,部分歌曲的String音色可能音量较轻,导致模型难以识别和提取,本代我们让AI去学习了大量“小声音”,这对一些嘈杂的歌曲中提取提琴有所帮助。最后,我们对提琴的拟合能力进行了调整,现在提琴能更加“大胆”的从音乐里识别出对应的音色并提取,而前代可能对一些含糊的声音不会去提取。

电吉他
正在训练。电吉他作为我们的“压轴菜”之一,我们额外的筹备了3倍的训练素材,目前我们“提取乐器模型”已经训练完毕,正在训练“提取伴奏模型”,所以我们会介绍已经训练完毕的“提取乐器模型”。
前代我们获得了4.66dB的性能指标,而本代,我们已训练完毕的最终模型是5.82dB,相当于提升了25%的性能,这个性能提升令我们非常满意,训练素材是提升的一部分,而我们的算法在本次也“立了大功”,电吉他目前仍是1代模型,它的性能放在今日已经不足,前代电吉他经常出现四个问题:
- 严重伪影:吉他总是包含了高频的滋滋声,听起来非常刺耳但又不是吉他本身的声音,这是一代算法所限导致的
- 泄露问题:电吉他中总会隐隐约约听到其他乐器的声音,甚至是人声。
- 区分问题:电吉他仍然和部分木吉他混淆,容易提取出错误的音轨。
- 高频丢失:电吉他只能提取到7.5khz,高频丢失,因为算法的“惰性”导致电吉他并不提取高频
针对上面的三种情况,团子得到了新模型的定制改善目标,首先伪影的问题我们全新的DangoNet3本身就是拥有独家的“0伪影输出”模块,实际上训练后最终的输出也的确如此;泄露问题和区分问题因为我们大量“堆料”,引入了更多训练素材,让电吉他更能理解“什么是电吉他”以及“什么不是电吉他”,也得到了大量的改善,尤其介绍的是区分问题,我们将前代的素材以及本次的素材进行了非常耗时的重新整理,诸如类似Clear Guitar这种“很轻”的音色——听起来像是木吉他但实际上是轻微效果器的插电吉他,在前代中我们将其归类为“木吉他”,而本代我们将其归类为“电吉他”,相当于我们缩小了“木吉他”的音色范围,使其只提取最标准的纯净木吉他声音,同时扩大了“电吉他”的音色范围,在前代中我们对这些音色含糊处理,导致可能会让一些意外的其他音色泄露(甚至是琵琶),本代中我们定义了木吉他和电吉他的“边界”。同时,我们将一种特殊的电吉他排除到我们的电吉他模型,它一般称为“Bass Guitar”,相当于插电的“低音贝斯”,本身也能发出吉他的声音,但非常沉闷而且一般是当做“低音贝斯”而不是“吉他”,在前代中我们发现引入Bass Guitar会导致模型有时候错误的将一些Bass也提取出来,从而让剩下的伴奏“缺少低音”,本代我们也经过了重定义并得到了改善。
最后,高频问题我们也得到解决,现在的电吉他不会听起来“闷闷的”,而且非常清晰。

我们还和Demucs4的6轨模型中的“吉他”模型进行对比,由于Demucs的吉他模型是统一提取出“电吉他+木吉他”,而无法单独提取出某种吉他,所以为了方便对比,我们选取了只有“电吉他”歌曲进行对比,经过对比实验表明,团子的新模型相比Demucs模型提取能力更强,我们能在嘈杂的歌曲中提取出几乎听不到的电吉他元素,并且提取质量非常清晰,而Demucs只能提取出“虚无缥缈”的一些声音。而纵向对比团子的前代算法,我们新的模型高频更清晰、音色更纯净,没有其他音轨的泄露声音。
原曲:
Demucs4吉他模型(提取困难):
团子1.0老版本模型(发闷,泄露,有杂音):
团子3.0新模型(待上线):
木吉他
待训练。相比电吉他,木吉他的素材比较难以寻找,但我们本次仍然扩充了1倍的训练数据。按照目前的预期,将大约在11月中旬训练完毕。
以上就是团子本月的“任意乐器分离”研发进度,同时,我们也对团子进行了一些优化:
- 网站页面少量改版,网站的UI会变得更加合理且易用。
- 新的桌面端即将完成,我们会在任意乐器分离更新后的一两周内进行更新,新的桌面端更适合专业用户,支持上千首文件的批量处理,可以同时计算7个文件,并且可以无人托管的自动下载。
- 国际化。目前团子已经拥有部分海外使用的用户,人数已经达到了我们“需要支持”的程度,团子正在进行全站翻译,我们首先会支持英语,同时未来会引入Paypal等海外支付方式。
我们将在11月的中旬或下旬左右,完成任意乐器分离的更新内容,以及网站的UI改版和国际化的引入,非常感谢小伙伴们的支持🫠🫠🫠