【25年03月】团子AI研发日志
Dango AI · 2025-04-01

很遗憾的通知各位小伙伴,经过我们共约1100次试验后,我们在3月中旬决定暂时搁置有损恢复无损功能的开发。
经过我们不断的探索尝试,我们仍然无法获得较好的实验结果😥,均只能从1提升到2或3,但无法提升到10——也就是我们认为“可用”的程度,网络目前仍然无法生成有意义或可信的内容。
由于耗时过久,将近两个月的时间没有有效研发产出,我们将暂时停止该功能的后续研发,在未来我们还会尝试研发该功能,但我们目前决定将主要研发精力用在下一代算法11.0的内容上。
我们已经开始了第11代算法的实验,目前我们的实验大概流程如下:
- 小规模验证(当前阶段):我们将小规模、快速且并行的验证一些新的预期架构和技术,相比音质恢复功能,本次的算法实验我们有很多明确的方向,10代到11代经过了一年的时间,我们已经沉淀了非常多的新技术,这些新技术都可以应用到11代算法之中,每一项技术都可能潜在的提升下一代的提取性能,在进行多轮对比实验后,取其精华去其糟粕,得到最终11代的架构。预计在4月底之前结束小规模验证环节。
- 数据最后检查(当前阶段):在小规模验证的同时,我们也会对最终添加的训练数据进行人工检查,本次11代我们仍会添加约10代的30%左右额外训练数据,最新的数据甚至包含了2025年2月份的商业歌曲分轨。另外,我们将为每条训练数据增加“权重”标注,我们会标注出那些困难提取的歌曲,并标记为“大权重”,来着重让AI学习这些困难样本。我们也获得了非常多小伙伴们的反馈样本,这些在10代提取不佳的文件都会作为我们下一代的重点关注对象。这个阶段同样大约在4月底前完成。
- 正式训练阶段:在敲定数据和架构后,我们将开始正式训练,理想状态下约45-60天可以完成训练并发布,约在7月份前正式发布。
在11代研发过程中,我们也会筹备新的“任意乐器分离”的模型,我们将预计发布一款“去现场”模型,该模型可以去除“现场版”歌曲音乐中的欢呼、鼓掌和尖叫声,您还可以手动使用团子的“混响回声移除”功能来移除人声中的过量混响,来让现场版歌曲更倾向于“录音室版”。