【24年08月】团子AI研发日志

Dango AI · 2024-09-03 预告新功能

9月份的小伙伴们大家好哇，又到了每个月最喜欢（讨厌）的研发日志的一集了

任意乐器分离 - 4代仍在研发

本月的主体基调仍然是任意乐器分离4代的研发，由于研发时间较长，我们先行释放了已经训练完毕的三个4代模型：人声、电吉他、木吉他。

这三个模型相比上一代均有显著提升，尽管提升了“百分之几”看起来非常小，但在AI的领域，并没有跃进的东西，想提升1%都是非常困难的一件事，这“百分之几”已经是团子拿出所有看家本领得到的了😇

目前，仍然剩余萨克斯、提琴、钢琴和笛子的模型还未上线，本期的研发我们遇到非常多的阻力，不过好在我们的萨克斯和提琴模型均已经解决了大部分问题，目前正在稳步的训练，预计在9月上旬至中旬释放，钢琴和笛子模型将在后续开始训练，其中钢琴为重新训练，我们在7月份时就已经开始了该乐器的4代训练，但该4代模型性能并没有提升，我们仍需实验进一步提升性能的方案。

团子APP！

APP的研发和上架进度快于我们之前的预期（10月份），现在我们的APP已经全部发布，包含了安卓和苹果两个系统，苹果已经上架到APP Store，而安卓我们正在上架到国内应用市场中，当然您也可以立即在官网下载APK版本并安装。

>>戳我立刻下载移动端APP版本团子AI<<

目前APP经过我们的测试（以及感谢内测小伙伴们的帮助）已经趋于稳定，目前最新版本为1.0.4版本，但已知在小于17的IOS版本中，上传的文件名非常长会导致无法下载，还请小伙伴们注意，我们将在后续发布1.0.5中修复此问题。

在下一版本中，我们会加入多语言支持。

新功能【混响回声移除】正在研发

本年我们收到部分小伙伴们的反馈，希望我们推出移除声音中的混响功能，经过我们充分的调研和评估，该功能非常符合团子一直研发的源分离技术方向，现我们决定着手研发并将其暂定为团子的第四个功能🧐

该功能可以将声音因为录制设备/录制环境/后期添加的混响和回声移除，在音频工程的术语也就是将“湿音（wet）”变为“干音（dry）”。

我们调研了市面上的类似技术，分为两大种：

传统算法派

RX的De-reverb算法为传统DSP算法的一个代表，它可以分析频谱的形状和拖尾并自定义强度来将湿音转为干音。

但经过我们测试，发现该算法会产生严重的伪影（频谱的不合理空洞），并且在听觉上也非常“难听”，会有非常大的不自然感。

同时，该算法仅能移除“混响(reverb)”效果，无法移除“回声(delay)”效果。

AI派

我们调研了市面上其他已有此功能的网站和软件，AI移除普遍移除后的质量和听感均好于传统算法，但仍有不足：

对长时间混响或回声支持较差，无法对“重混响”效果的长拖影效果有效移除。
对立体声音频支持较差，现代人声中经常使用“双重唱（Double）”技术，它能增加音乐中人声的饱满度，类似左右声道中有细微的声音延迟或录制两段同样歌词的人声来增强歌曲人声的立体声效果，但这些AI算法普遍将“双重唱”误认为是“回声”并消除他们，这会严重破坏输出结果甚至直接“不可用”。
音质。我们调研了数个算法，包括开源或付费算法，他们移除的音质尽管比传统算法好了很多，但相较“可商用”级别的音质仍有一段距离，导致听起来仍然存在不自然感。并且有些算法会添加原始音频不存在的伪影到输出的音频，这使得输出的音质更加雪上加霜。

为此，我们决定研发一款能专注于打破上述问题的混响回声移除算法，我们已经决定好了实验的目标——目前我们已经开始了训练素材筹备阶段，将筹备1-2月后，开始实验并训练。目前我们拟定训练两个模型——人声特化型和乐器特化型，分别适合移除人声或乐器中的混响或回声，您可以在上传音频时选择二者之一来优化移除能力。以团子的核心“在意音质”为目标，我们有把握研发出一个比市面上其他软件移除效果更好的功能，敬请期待👻

Back to Blogs