【全新人声算法已上线】【23年02月】团子AI研发日志

团子AI · 2023-02-24 新功能预告

在“伴奏人声提取”的8.0系列算法上线之后，本月我们也重新训练了“更好人声提取”的8.0系列算法，现如今已经上线，欢迎小伙伴们尝试😇

相比上一代的5.0系算法，本次全新的“更好人声提取”算法基于我们自研的DangoNet2代神经网络，拥有如下特点：

4096FB支持，相比上一代人声提取能力更强，杂音更少。
原生支持22KHz的超高频率，相比前代只能提取到16KHz的能力，本代的22KHz可以让人声提取更加清晰无损。
和其他算法齐进，全新集成了 WMIR 模块，一次输出三种风格的文件，保守模式下人声更加饱满，激进模式下人声杂音更少，用户可以根据上传的文件风格不同进行自行的抉择，如果您是更高级的用户，懂得类似用FL、AU之类音轨编辑软件，也可以将多个风格的文件下载到本地并自行根据多个文件“取长补短”。
上传时可自定义选项更多，我们提供了额外的“启动注意力机制”、“启动超级激进模式”、“启动实验性算法”三种可勾选选项，您可以根据上传文件的情况自行启用或关闭，来达到最佳的提取效果。

同时，网站也有一些小型修复，譬如优化了网络问题，可能会缓解某些情况下访问服务困难的情况。

至此我们的8.0系列算法的全部研发路线均已完成，在下个月开始我们的研发重心可能会转变为任意乐器分离功能，譬如增加一些新的乐器提取能力（如萨克斯，我们正在筹备数据），同时可能也会改进原有的几种提取能力。目前我们所知电吉他的高频提取非常困难，我们将尝试能否改进；同时钢琴的提取会有伪影出现，导致提取的声音里有潜在的“电流音”，基于我们研发8.0系列算法的经验，我们已经知道如何改进此问题。

同时我们也会开始研发一些新的AI功能，譬如呼声一直很大的“多人声分离”功能，还请各位小伙伴敬请期待😇

返回到团子博客