【24年02月】团子AI研发日志

Dango AI · 2024-03-01 预告

🫡小伙伴们大家吼，又到了紧张刺激的每月研发日志环节了！

团子知道小伙伴们关心什么——直奔正题，我们的“伴奏人声提取”的10.0系列算法已经实验接近尾声了，预计3月份上半旬正式发布🥰🥰

在2月份，我们已经训练完毕了团子的“识别”模块，并在整个2月份开始训练“提取效果”模块，团子拟定了4个提升的具体目标，分别如下：

对“小”人声的识别：团子加强了对歌曲中“音量很小”的人声的识别能力，现在可以正确的移除这些“小小”人声了。在部分歌曲尤其是“现场版”歌曲中，总会有一些轻微的人声隐约出现，而9.0算法对小人声支持能力并不强，本代经过我们大量测试，已经可以完全的杜绝小人声的残留问题。
对“低清音乐”的识别：我们在新的AI中加入了常见的音乐压缩算法的先验知识，说人话就是——我们对MP3等“有损压缩”文件的支持能力得到了非常理想的改善。尽管团子一直希望用户上传无损歌曲来获得最好的提取效果，但部分歌曲因为不常见，互联网中很难找到无损的音源，比如部分少数民族的歌曲。音乐的压缩算法会严重的破坏频谱，看起来“破破烂烂”，尽管听起来可能区别不大，但它对音频的数据损坏非常严重，这让AI对其识别能力大打折扣，团子在本代中开始尝试教AI如何在严重压缩、损坏的音频中正确的移除目标内容，经过我们的实验，它可以极大程度的减少压缩后的音频出现高频“滋滋”声音和看起来像是颗粒一样的伪影。
对“爆音”的优化：现代音乐普遍使用非常大的响度来获得用户更高的青睐，这也被称为“响度战争”，而响度过大会引入“爆音”，他们听起来有种“噼里啪啦”的感觉，但因为人声或伴奏本身掩盖这些声音，在正常情况下我们很难听到，而移除了歌曲的人声或伴奏后，剩下的另一部分就会残留这些爆音，导致听起来平滑的伴奏中突然出现很多不自然的噼里啪啦或咔哒咔哒的爆破声。本代算法中我们尝试开始优化爆音问题，但由于爆破音较为复杂（它未必来自人声，也可能是伴奏中自带的）并且爆破音的click形状与乐器中的鼓组较为相似，经过我们的大量调试，本代可以在不破坏乐器的情况下尽可能的从声音中移除爆破声，在大多数歌曲中已经“足够用”。您也可以在本地使用RX等带有“去爆破音”功能的软件进一步的处理提取后的伴奏。
对复杂人声的识别：本代我们提升对复杂人声的支持，部分音乐中的人声充斥着严重的混响、Vocoder（声码器）或极度扭曲的均衡效果（EQ）和切片（Chop），经过我们的正确引导，目前AI对这些“极端”情况下的人声提取能力相对于上个版本得到更加大量增强，尤其是和“小”人声识别模块（1）的联动，对一些小人声但拥有大混响、长混响（更低的Dry值，更高的Wet值）的现场版歌曲中的人声识别和移除能力更强。

10代算法对MP3压缩的音频提取效果更好，并不会有“颗粒伪影”残留，听起来不会有“沙沙”声音

本月，我们将对“伴奏人声提取”算法进行最后的收尾、调试、封装和上线，预计在本月15日左右发布全新的“伴奏人声提取”算法10.0版本。

在发布“伴奏人声提取”算法后，我们将开始训练“更好人声提取”算法，它同样可能需要1~2个月的研发时间（但会比目前研发速度更快，因为我们已经确定了架构和数据的基准，只需要时间去训练即可），在“更好人声提取”算法上线后，我们会着手开始研发“和声保留”算法，和声保留相对来说研发挑战难度更高，不过我们对目前新的团子架构有非常足够的信心，相信就完事了！🥰

Back to Blogs