【24年09月】团子AI研发日志

团子AI · 2024-10-03 预告

团子以及团子的制作人员们首先祝大家国庆节快乐😇

在整个9月份，我们仍然在训练4代任意乐器分离，有细心的小伙伴问过我们为什么4代的研发时间要比3代慢得多——由于我们的新架构模型参数越来越大，堆料越来越足，导致训练新的模型将耗时更久，不过我们也追加了更多的训练设备来尽可能加速我们的训练进度。

第二批模型已释放

回到正题，在9月份我们发布了萨克斯与号、提琴两款模型，相比三代的性能，在SDR（源失真比）的量化角度来说，均获得了6%~10%的提升。

提琴模型我们特化了“注意力”机制，这大幅度减少了三代中提琴“断断续续”提取的问题，现在它可以根据歌曲的乐器上下文更好的提取提琴内容并且不会保证提琴提取的意外中断。另外我们也优化了提琴的低音和高音问题，现在提琴的低音提取会更加保守，而高音会更加激进——简单来说就是高音更加清晰、低音不会和贝斯等乐器“打架”。

萨克斯&号模型是我们耗费较大精力升级的一款模型，由于萨克斯或号经常与笛子或提琴在一起——通常被我们称为“管弦乐”，他们的音色较为相近，经常容易错误的将其他乐器识别为萨克斯并提取。本代我们专门进一步增加了大量了对抗训练，让该模型能在复杂的管弦乐中仍然提取出所需要的音色。但增加了大量对抗后，我们发现萨克斯提取变得极端的“保守”——它甚至会认为本身属于萨克斯的声音，也不再是萨克斯，这导致萨克斯本身的提取能力下降。这也是我们在本代中所遇到的难题，我们在大量微调后寻找了一个平衡点——既能对抗其他音色，又能正常提取萨克斯，这也就是我们所发布的4代萨克斯模型。

钢琴、笛子模型仍在训练

作为最后的两个模型，钢琴和笛子模型仍在训练中。

新版的钢琴我们增加了大量训练数据，这让钢琴的性能进一步的提升，并且减少了和Bell（铃）的错误提取问题。目前我们仍在训练中，预计在10月中旬或下旬发布。

笛子模型也同样的获得了一定的性能提升，笛子独特的气流声会导致笛子在声学的角度来说，和人类的“嗓子”声音很像——没错，人声在某种程度上来说和笛子声音非常像，并且我们发现三代模型中已经存在这个问题，部分人声会错误的认为是笛子从而被移除，在4代中我们已经解决了这个问题。另外和萨克斯相似，笛子也增加了大量的对抗，现在可以在管弦乐中更好的提取出需要的笛子音色了。笛子的训练即将结束，预计即将在近日发布。

萨克斯（激进）准备训练

我们收到小伙伴们的反馈，称4代的萨克斯在部分歌曲中，无法正确的提取萨克斯本身的音色，我们决定训练一个新的萨克斯模型，它会更加的激进——和三代模型类似，该模型首先确保能完整的提取萨克斯模型、其次考虑和其他乐器“冲突”的问题。我们在几个月前实验过程中其实已经制作了类似模型，但我们未释放，我们将进一步优化该模型直至释放，预计在10月下旬或11月上旬释放该模型。

混响移除功能仍在筹备中

我们在上个月中向您介绍了混响移除功能，目前我们仍在筹备所需的训练素材（约完成60%），我们预计在4代任意乐器分离结束后，开始全力制作该功能。

经过我们调研，目前市面上免费或收费的、传统算法或AI处理的混响移除均有各类瑕疵，仍有非常大的提升空间，团子非常有信心制作一个跨时代的混响移除功能，将混响移除的性能和听感提升到下一个世代👻还请各位小伙伴敬请期待。

返回到团子博客