4代电吉他、木吉他、人声：任意乐器分离已发布

团子AI · 2024-08-27 新功能

久等了！👻
受到伴奏人声提取10代算法的研发成果影响，我们研发了全新的DangoNet4架构，并打算将其“反哺”至任意乐器分离——我们在6月份开始了4代的乐器分离研发进程，但遗憾的是，本次研发周期过长，因为我们在某些乐器的实验上遇到了阻力，和前几代“从无到有”不同，我们希望4代的模型均能将分离性能提升至“下一世代”，做到不但“有”，还要“好”的程度，和伴奏人声提取不同，任意乐器分离我们需要针对不同的乐器进行独特的优化，这对我们来说是个十足的挑战。

由于研发周期过长，我们决定先行发布已实验并训练完成的模型，同时我们也仍在努力的进行其他模型的开发和实验，还请小伙伴们敬请期待。一起看看本周期我们发布了哪些模型吧👻

人声4代：现代化的提取性能

我们发布了新的人声4代模型，新的模型支持“优化伴奏而不是乐器”（这里的乐器就是“人声”了👻）

新模型的性能达到了现代的源分离能力，它可以胜任基本的人声提取能力，同样的，它基于我们新的WMIR架构，杜绝了2代时在柔和的伴奏中能听到微弱人声的问题。同时，得益于伴奏人声提取功能，我们也为人声模型增加了大量训练素材，现在人声不但提取清晰，并且也会减少将伴奏错误当人声提取的问题。

但还请小伙伴们注意，“人声”模型较为“尴尬”，在任意乐器分离中，它仅能进行基础的人声或伴奏提取，它的性能远不如团子的招牌“伴奏人声提取”功能🧐如果您仅需要提取人声或伴奏，我们建议您使用伴奏人声提取功能进行代替，该功能的模型参数、性能、训练数据远比此模型要多。

电吉他：提升4%

上一代中，我们训练的电吉他SDR分数为5.82dB，本代我们追加了大量训练素材，使得电吉他的性能进一步的提升，达到了6.05dB的分数，4代电吉他相对3代在大多数歌曲的实验中均有提升：

减少和人声、贝斯的混淆：我们发现3代的电吉他的提取结果尽管听起来很“饱满”，但实际上它将很多属于贝斯的低音声音也错误的提取出来，这甚至使得提取结果过于沉闷而影响正常的扒带操作，本代我们着重减少了和贝斯之间的混淆，4代模型对于低音更加谨慎，不会错误的将不属于电吉他的低音也提取出来。
减少键盘乐器混淆：电吉他经常和键盘乐器一起出现，我们增加了对常见的键盘乐器声音的对抗训练，现在电吉他更能区分出“你”和“我”了。
频谱更干净：除了低音，我们也进一步的约束了高频的输出，现在电吉他的高频形状会更符合原始电吉他的形状（频谱层面）。
抗干扰模块已添加：和团子伴奏人声提取10代相同，电吉他在本代对低清或压缩文件进行了特别优化，现在遇到“远古”音质的音频，也能正确的识别其中的电吉他元素了。

Eguitar 3

0:00

/0:03

Eguitar 4

0:00

/0:03

Eguitar raw

0:00

/0:03

从上至下分别是3代、4代和原曲，在原曲中该歌唱区域的和声被3代错误的当成电吉他而提取，4代因为增加了对抗训练得到改善。

木吉他：提升6%

木吉他从1代提升到3代时，提升了315%的性能，这一直被传为佳话，而本代尽管我们提升了6%看起来不多，但因为上一代我们就已经“触顶”了，本代我们同样经过素材+算法的双重加持，从5.74dB的SDR值提升到了6.08dB——

更精细，更敏感：本代我们进一步的提高了木吉他的提取敏感度，它可以在“吵闹”的歌曲中仍然精确的识别并提取其中的木吉他元素。
进一步增加“扫弦”的识别度：木吉他的灵魂之一来自于其“咔哒”的扫弦声音，本代我们进一步增加了对木吉他以及木吉他的各种对弦的“技巧”所发出的声音的识别程度。
减少鼓组错误识别：在部分歌曲中，我们发现木吉他会和鼓组“打架”导致将部分打击乐器错误当成木吉他识别并提取。本代我们加强了对鼓组的对抗训练，经过我们测试该问题已经成功的得到改善。

示例1：