【25年03月】团子AI研发日志

Dango AI · 2025-04-01

很遗憾的通知各位小伙伴，经过我们共约1100次试验后，我们在3月中旬决定暂时搁置有损恢复无损功能的开发。

经过我们不断的探索尝试，我们仍然无法获得较好的实验结果😥，均只能从1提升到2或3，但无法提升到10——也就是我们认为“可用”的程度，网络目前仍然无法生成有意义或可信的内容。

由于耗时过久，将近两个月的时间没有有效研发产出，我们将暂时停止该功能的后续研发，在未来我们还会尝试研发该功能，但我们目前决定将主要研发精力用在下一代算法11.0的内容上。

我们已经开始了第11代算法的实验，目前我们的实验大概流程如下：

小规模验证（当前阶段）：我们将小规模、快速且并行的验证一些新的预期架构和技术，相比音质恢复功能，本次的算法实验我们有很多明确的方向，10代到11代经过了一年的时间，我们已经沉淀了非常多的新技术，这些新技术都可以应用到11代算法之中，每一项技术都可能潜在的提升下一代的提取性能，在进行多轮对比实验后，取其精华去其糟粕，得到最终11代的架构。预计在4月底之前结束小规模验证环节。
数据最后检查（当前阶段）：在小规模验证的同时，我们也会对最终添加的训练数据进行人工检查，本次11代我们仍会添加约10代的30%左右额外训练数据，最新的数据甚至包含了2025年2月份的商业歌曲分轨。另外，我们将为每条训练数据增加“权重”标注，我们会标注出那些困难提取的歌曲，并标记为“大权重”，来着重让AI学习这些困难样本。我们也获得了非常多小伙伴们的反馈样本，这些在10代提取不佳的文件都会作为我们下一代的重点关注对象。这个阶段同样大约在4月底前完成。
正式训练阶段：在敲定数据和架构后，我们将开始正式训练，理想状态下约45-60天可以完成训练并发布，约在7月份前正式发布。

在11代研发过程中，我们也会筹备新的“任意乐器分离”的模型，我们将预计发布一款“去现场”模型，该模型可以去除“现场版”歌曲音乐中的欢呼、鼓掌和尖叫声，您还可以手动使用团子的“混响回声移除”功能来移除人声中的过量混响，来让现场版歌曲更倾向于“录音室版”。