【23年09月】团子AI研发日志
团子AI · 2023-09-29 预告
【23年09月】团子AI研发日志

各位小伙伴,中秋国庆快乐,祝大家有个快乐的假期!😇😇

本月团子的训练正在24小时不停歇的进行中,我们的训练服务器甚至因为过热还掉卡、死机过好几次(扶额),我们计划更新任意乐器分离内的模型更新至3代版本,将会有6个模型在下次统一更新:

钢琴

已训练完毕。钢琴是我们第一个训练的模型,钢琴一般在8khz以下内容丰富,我们独特的为了钢琴训练了一个特殊的模型,让AI更加关注钢琴出现的频率范围,这显著的提升了钢琴的性能。

前代中,我们钢琴得到的SDR(源失真比)为3.81dB,而本代,我们得到了4.13dB的分数,由于时间原因我们未能在钢琴里添加新的素材(预计下一代会着重升级钢琴性能),但因为团子的DangoNet3架构,使得即便素材不变的情况下,仍然将模型提升了8%的性能,新一代的钢琴更加清晰、残留显著变得更少。

管乐器及萨克斯

已训练完毕。在上一代模型中我们得大量反馈,在消除了歌曲中的管乐器或者萨克斯后,剩下的“伴奏”中仍然有一些听起来“刺刺”的锯齿声音,根据我们得到的反馈发现,这种声音出现因为两种问题:

  1. 管乐器或萨克斯天然包含“气流”声音,而仅仅删除乐器声、不删除气流声的话,会导致气流声仍然在伴奏里并听起来很“不协调”。
  2. 模型本身对高频提取能力较差,管乐器和萨克斯同样遵守“低频高能、高频低能”的频谱样式,而模型本身为了“偷懒”仅仅提取了中低频的乐器声音,高频中仍有轻微残留,这对模型来说“这么点残留可有可无”,但实际上在某些情况下(如安静的歌曲中)仍然能听到这种高频残留,听起来像是“锯齿”一样的声音。

针对以上两种情况,我们特别的为萨克斯定制了只属于它自己的模型规则——强制删除气流声,以及增加高频的提取权重,经过紧张的训练和调试后,我们的新模型以6.32dB的分数训练完成——而前代仅有4.51dB,这相当于提升了40%的性能(恐怖如斯.jpg)要知道在AI中提升1%的性能已经非常吃力。在我们三代算法的训练中,对不同的乐器使用不同的方案,而不是以前的“千篇一律”,这实际上确实有效果,这也给予我们未来研发很大的灵感。

本代的高频恢复能力更强、残留更少

笛子

训练中。本代的笛子尽管分数得到了提升,但我们兴高采烈地测试中发现并没有解决一些基本拟合问题——这意味着笛子模型很容易将部分电吉他、人声、提琴当成“笛子”提取或消除。

我们目前正在为笛子启用加强对抗训练,引入了大量电吉他、人声、提琴样本来告诉模型更多“什么声音不是笛子”,在对抗训练开始后,我们发现笛子的性能从之前“已经到顶”变成了肉眼可见的突破提升,目前的性能比没有加入对抗样本时要高出一截——这意味着模型正在学习如何区分笛子和其他乐器,并且学习的“很好”,让我们一起期待最终的效果😇😇

提琴

待训练。将在笛子训练完毕开始训练。

电吉他

待训练。本次我们将电吉他的训练素材扩充了整整3倍,是的,不是30%,而是300%,这归功于我们筹备了数个月的成果,电吉他是团子1代的模型,类似对标于团子伴奏人声提取的5.0时代的算法,对于现代来说,它的性能已经远远不足了,目前我们对模型数据正在最后的精细检查,已经完成了70%左右,大概能在提琴模型训练完毕前检查完毕。

木吉他

待训练。相比电吉他,木吉他的素材比较难以寻找,但我们本次仍然扩充了1倍的训练数据。目前正在准备精细检查数据,已经完成了5%左右,本次的更新我们将电吉他和木吉他作为“狠活”并且压轴训练,我们很有信心能将两个模型提升到一个恐怖的性能,敬请期待😇😇

接下来呢?

根据我们前几个模型训练的时间,我们推断将在11月中旬可以将整个任意乐器分离三代模型训练完毕并发布,同时我们也会改进任意乐器分离的提取速度,大概能提升30%~50%左右的提取速度。

本月开始我们计划开发团子的客户端——将首先开发桌面端,其次是移动端,但我们无法保证发布的日期,因为相关开发的人手不足并且我们团队的重心仍在以改进算法为主而不太想弄些花里胡哨(这可能也是团子的特色了🤣

对于10.0系列的伴奏人声提取算法,我们目前已经找到了一些改进思路,但目前的算力全部用来训练“任意乐器分离”的新模型,我们预计在“任意乐器分离”结束后开始进行新的算法实验,感谢各位小伙伴的支持,最后再次希望小伙伴们假期开心~