【全新人声算法已上线】【23年02月】团子AI研发日志
团子AI · 2023-02-24 新功能预告
【全新人声算法已上线】【23年02月】团子AI研发日志

在“伴奏人声提取”的8.0系列算法上线之后,本月我们也重新训练了“更好人声提取”的8.0系列算法,现如今已经上线,欢迎小伙伴们尝试😇

相比上一代的5.0系算法,本次全新的“更好人声提取”算法基于我们自研的DangoNet2代神经网络,拥有如下特点:

  • 4096FB支持,相比上一代人声提取能力更强,杂音更少。
  • 原生支持22KHz的超高频率,相比前代只能提取到16KHz的能力,本代的22KHz可以让人声提取更加清晰无损。
  • 和其他算法齐进,全新集成了 WMIR 模块,一次输出三种风格的文件,保守模式下人声更加饱满,激进模式下人声杂音更少,用户可以根据上传的文件风格不同进行自行的抉择,如果您是更高级的用户,懂得类似用FL、AU之类音轨编辑软件,也可以将多个风格的文件下载到本地并自行根据多个文件“取长补短”。
  • 上传时可自定义选项更多,我们提供了额外的“启动注意力机制”、“启动超级激进模式”、“启动实验性算法”三种可勾选选项,您可以根据上传文件的情况自行启用或关闭,来达到最佳的提取效果。

同时,网站也有一些小型修复,譬如优化了网络问题,可能会缓解某些情况下访问服务困难的情况。

至此我们的8.0系列算法的全部研发路线均已完成,在下个月开始我们的研发重心可能会转变为任意乐器分离功能,譬如增加一些新的乐器提取能力(如萨克斯,我们正在筹备数据),同时可能也会改进原有的几种提取能力。目前我们所知电吉他的高频提取非常困难,我们将尝试能否改进;同时钢琴的提取会有伪影出现,导致提取的声音里有潜在的“电流音”,基于我们研发8.0系列算法的经验,我们已经知道如何改进此问题。

同时我们也会开始研发一些新的AI功能,譬如呼声一直很大的“多人声分离”功能,还请各位小伙伴敬请期待😇