【24年10月】团子AI研发日志

Dango AI · 2024-11-03

久等了！10月份的研发日志现已公布😎

任意乐器分离4代已完成

在10月份，我们发布了4代任意乐器分离的最后几款模型：笛子、钢琴以及一个额外的萨克斯&号的激进模型，至此任意乐器分离4代的模型已经全部发布。

由于我们的模型“脑容量”进一步增大，4代相比3代的研发时间要更久一些，不过尽管如此，我们每个模型也获得了5%~15%的性能提升。

未来任务计划

作为我们的“最高水准”，目前4代模型均拥有非常顶级的强悍提取能力，在大多数歌曲中均能获得稳定的性能。而这也代表着想进一步提升现有模型的性能会愈发困难，因此我们会逐步将精力用来开发新的提取能力模型。在未来，相比耗费极大精力提升可能的1%的性能，我们会更倾向于研发新的提取模型——如大家一直需要的各种“国风乐器”模型，当然，这也不代表目前的模型就“到此为止”，只不过我们希望我们精力优先用来更多的横向发展，提供更多的提取能力供小伙伴们使用。

在未来可能的计划中，我们拟定新增一些乐器提取模型，而“任意乐器分离”方面，我们也计划更新为2.0版本，来提升任意乐器分离的性能和听感。我们也（可能）计划新增输入文字的形式来提取或删除内容的功能，如输入“删除鼓掌声”而不是提供鼓掌声的“样本音频”，来进一步简化小伙伴们的提取需求。

混响移除（名称暂定）功能正在研发

作为我们团子即将到来的新功能——混响移除，我们已经进入到了实验阶段，在快速验证阶段我们已经获得了超预期的结果，相比一系列的传统算法或AI提取模型，我们的混响移除功能在移除能力和听感上均获得了非常好的内部评价。

我们发现，其他的AI混响移除仅对“模拟”混响有效，也就是各种“效果器”模拟出的混响效果有效，而对真实的物理环境下的录制出现的混响完全“视而不见”无法提取。这是因为真实物理环境中混响情况更加复杂，混响在房间内的反射会受到各种因素的影响，而录制的设备（如电容或动圈麦克风）不同也会导致混响声音“不规律”。

而移除房间内的意外混响，正是调音师所需要的功能，他可以进一步的修复人声或录制的乐器内意外的混响源并获得“真正”的干声。我们经过数个月的针对真实物理房间和录制设备的声学建模/还原，经过我们的快速验证后，我们的模型可以有效的移除房间内的真实混响，并且和其他传统混响移除功能不同（如RX内的De-Reverb/Dialogue Isolate，或一些插件如DeRoom），我们的算法不会破坏原始干声信息，不会造成频谱破损、长拖尾人声丢失或声音发闷发糊的情况。当然，模拟混响也不在话下，我们同样建模了约400亿种可能的混响参数情况并加以学习，无论是“轻飘飘”的混响还是某些音乐里厚重的混响、无论是模拟混响还是真实物理混响，我们都可以做到“通吃”。

在初步可行性验证结束后，我们会开始正式的大规模的实验，这将是我们近期的主要精力所在——我们计划在1月份左右推出该功能，还请小伙伴们（尤其是各位使用团子的调音师们）敬请期待😇

Back to Blogs