
久等啦!从3月份第八代伴奏人声提取功能上线后,我们仍未停歇,在紧密的两个月开发后,我们更新了数个大功能,包括了全新的任意乐器分离提取能力、模型仓库功能、以及一个全新的音轨编辑器功能——让我们看看新版本都有什么吧😇
全新乐器提取模型
任意乐器分离作为团子的几大功能之一,一直拥有大量稳定的用户使用,将乐器分离或删除,用来学习或者弹奏——发布至今已有将近一年时间,如今此功能迎来一波大更新~
本次我们推出了全新的三个乐器提取模型,分别是“萨克斯或号”模型、“笛子”模型以及“提琴”模型,覆盖了全面的管弦乐器,加上团子之前的提取能力,目前团子已经可以提取出绝大多数音乐中的常见乐器了。
同时,原有的“钢琴”模型我们也重新进行了扩容与训练,新的钢琴模型更加清晰,并且大幅度减少了原有的错误低音提取问题(经常容易将部分贝斯当成钢琴提取导致低音混浊)。
更好的提取音质
全新的四个提取模型使用了和伴奏人声提取相同的 WMIR 架构,乐器更加清晰,提取能力更加强大,并且显著的减少残留、发闷等问题。原有的如电吉他、木吉他等乐器我们也会在将来更新到 WMIR 架构。

重新改写的架构系统
新版本我们重构了原有的架构,以支持更多的提取能力与可选选项,现在每个音轨选择后都可以拖动改变分离的顺序,并且每个音轨都支持单独的配置选项,新的架构支持优化目标,您可以选择让团子优化“更好的乐器分离效果”或者“更好的伴奏效果”,高级用户也可以选择“是否从原曲分离音轨”,更多的功能欢迎自行体验~

全新的架构我们不但优化了音质,还优化了提取速度,现在任意乐器分离的提取速度相较以前提升20%~40%,我们还修复了偶尔出现的超时问题,最后我们还为此功能加入了常驻高速通道能力(忙时可能分配至普通通道),提取速度再次加倍~
全新“模型仓库”功能
我们根据用户的反馈,有些专家级用户本身已经拥有大量的“样本”来提取自己希望的乐器,但每次上传歌曲时都需要携带这些样本,费时费力,为此我们推出了“模型仓库”功能,您可以随时将样本提前编译为模型,编译后的模型将展示在模型选择列表里,相比在上传时选择样本,提前编译免去上传歌曲后编译并提升分离时间,也无需自己托管复杂样本,可以做到在任何设备上都使用~
每个用户可以在模型仓库免费托管100个模型,相比上传时只能选择10个样本,模型仓库可以同时上传20个样本,团子可以更加细化的学习您的样本。后续我们可能推出“公开模型”功能,您可以公开自己的模型并享受分佣能力~

全新“音轨编辑器”功能
团子的伴奏人声提取最大卖点之一就是根据我们自研的WMIR架构允许分离出三种风格的提取结果,保守结果更在意乐器的质量,减少乐器丢失等问题;而激进结果更在意清理伴奏中的人声残留,有没有一种可能“取长补短”呢?在一首歌的某些位置用“激进”算法来进一步消除人声,另一些位置用“保守”算法来恢复因分离导致意外丢失的乐器?
我们推出三种结果时其实就是鼓励用户“进一步编辑”歌曲来做到上述的“取长补短”,但我们也知道很多用户可能不希望去为此学习复杂的音轨编辑软件,或者身边没有必要的设备去操作——为此团子全新开发了音轨编辑器功能,您可以快速的操作音频的替换、覆盖或混音,而无需学习或下载任何复杂的音频编辑软件,网页运行,开箱即用。

在伴奏人声提取与任意乐器分离功能的预览界面,您可以在下载按钮旁看见我们新增了“编辑与改进”按钮,点击即可进入团子全新开发的音频编辑器功能。如需要更多可以点击此处学习使用教程。
接下来呢?
接下来我们可能并行的开始研发下一代的伴奏人声提取功能,8.0系列的算法我们仍有遗憾,目前我们的“提取能力”基本足够,基于我们自研的WMIR架构可以让伴奏中不会有明显的人声残留,但偶尔会出现丢失乐器或者某些人声短暂的出现在伴奏中的问题。尽管在8.0我们通过一些先验知识缓解了这些问题并且提供给用户三种文件,但它仍有改进空间,下一代我们将应用更好的长注意力/上下文的架构,来让AI在多chunk中仍然准确区分人声和相似乐器。
以及未来的“多人声分离”功能,该功能拥有非常多的用户呼声,但多人声分离仍然具有挑战性(尤其是歌唱的分离),学术界到工业界的应用仍有许多难点,想做到用户友好的像是魔法一样的“上传一段多人声duang的就分出好几个音轨”的目标仍然还有很多路要走,我们已经开始筹备研发此内容,团子将继续在音频相关的人工智能领域发展,敬请期待😇