久等了!👻
受到伴奏人声提取10代算法的研发成果影响,我们研发了全新的DangoNet4架构,并打算将其“反哺”至任意乐器分离——我们在6月份开始了4代的乐器分离研发进程,但遗憾的是,本次研发周期过长,因为我们在某些乐器的实验上遇到了阻力,和前几代“从无到有”不同,我们希望4代的模型均能将分离性能提升至“下一世代”,做到不但“有”,还要“好”的程度,和伴奏人声提取不同,任意乐器分离我们需要针对不同的乐器进行独特的优化,这对我们来说是个十足的挑战。
由于研发周期过长,我们决定先行发布已实验并训练完成的模型,同时我们也仍在努力的进行其他模型的开发和实验,还请小伙伴们敬请期待。一起看看本周期我们发布了哪些模型吧👻
人声4代:现代化的提取性能
我们发布了新的人声4代模型,新的模型支持“优化伴奏而不是乐器”(这里的乐器就是“人声”了👻)
新模型的性能达到了现代的源分离能力,它可以胜任基本的人声提取能力,同样的,它基于我们新的WMIR架构,杜绝了2代时在柔和的伴奏中能听到微弱人声的问题。同时,得益于伴奏人声提取功能,我们也为人声模型增加了大量训练素材,现在人声不但提取清晰,并且也会减少将伴奏错误当人声提取的问题。
但还请小伙伴们注意,“人声”模型较为“尴尬”,在任意乐器分离中,它仅能进行基础的人声或伴奏提取,它的性能远不如团子的招牌“伴奏人声提取”功能🧐如果您仅需要提取人声或伴奏,我们建议您使用伴奏人声提取功能进行代替,该功能的模型参数、性能、训练数据远比此模型要多。
电吉他:提升4%
上一代中,我们训练的电吉他SDR分数为5.82dB,本代我们追加了大量训练素材,使得电吉他的性能进一步的提升,达到了6.05dB的分数,4代电吉他相对3代在大多数歌曲的实验中均有提升:
- 减少和人声、贝斯的混淆:我们发现3代的电吉他的提取结果尽管听起来很“饱满”,但实际上它将很多属于贝斯的低音声音也错误的提取出来,这甚至使得提取结果过于沉闷而影响正常的扒带操作,本代我们着重减少了和贝斯之间的混淆,4代模型对于低音更加谨慎,不会错误的将不属于电吉他的低音也提取出来。
- 减少键盘乐器混淆:电吉他经常和键盘乐器一起出现,我们增加了对常见的键盘乐器声音的对抗训练,现在电吉他更能区分出“你”和“我”了。
- 频谱更干净:除了低音,我们也进一步的约束了高频的输出,现在电吉他的高频形状会更符合原始电吉他的形状(频谱层面)。
- 抗干扰模块已添加:和团子伴奏人声提取10代相同,电吉他在本代对低清或压缩文件进行了特别优化,现在遇到“远古”音质的音频,也能正确的识别其中的电吉他元素了。
从上至下分别是3代、4代和原曲,在原曲中该歌唱区域的和声被3代错误的当成电吉他而提取,4代因为增加了对抗训练得到改善。
木吉他:提升6%
木吉他从1代提升到3代时,提升了315%的性能,这一直被传为佳话,而本代尽管我们提升了6%看起来不多,但因为上一代我们就已经“触顶”了,本代我们同样经过素材+算法的双重加持,从5.74dB的SDR值提升到了6.08dB——
- 更精细,更敏感:本代我们进一步的提高了木吉他的提取敏感度,它可以在“吵闹”的歌曲中仍然精确的识别并提取其中的木吉他元素。
- 进一步增加“扫弦”的识别度:木吉他的灵魂之一来自于其“咔哒”的扫弦声音,本代我们进一步增加了对木吉他以及木吉他的各种对弦的“技巧”所发出的声音的识别程度。
- 减少鼓组错误识别:在部分歌曲中,我们发现木吉他会和鼓组“打架”导致将部分打击乐器错误当成木吉他识别并提取。本代我们加强了对鼓组的对抗训练,经过我们测试该问题已经成功的得到改善。
示例1:
从上至下分别是3代、4代和原曲,本代我们对“扫弦”的提取能力进一步提升,提取出的木吉他更加响脆清晰。
示例2:
从上至下分别是3代、4代和原曲,本代我们加强了木吉他的“敏感”提取能力,它现在可以在嘈杂的环境下(如当前歌曲的非常大的电吉他和人声情况下)仍然能提取出可靠的木吉他声音。
接下来?
目前,我们的训练仍然进行中,由于遇到研发阻力,我们的萨克斯、提琴和钢琴的模型训练非常困难,我们仍然在寻找突破的可能性,目前萨克斯的研发问题我们已经有所解决,有望成为下一个释放的模型,还请小伙伴们继续支持。