【25年01月】团子AI研发日志
团子AI · 2025-02-02 预告
【25年01月】团子AI研发日志

2025年终于开始啦,在这里祝各位小伙伴们新年快乐(*^▽^*)不知道大家过年期间过的如何?不过团子的服务是“春节不打烊”的,在春节期间您在使用团子的过程中遇到任何问题,也欢迎随时叨扰我们的客服哦~

在正式报告之前,小伙伴们可以看一张图片:

很熟悉吧?这是团子官网的背景图片,其实这张看起来“乱七八糟”的图片,是使用AI生成的,并且是非常早期的AI。

和现在的已经广泛应用的各类AI不同,早期的AI大多数处于新闻报道里或没什么“实际作用”的阶段,比如早期谷歌的“DeepDream”可以生成很多没有意义的精神污染的图片——当然,这个AI也是“没什么用”的AI之一,它会随机生成一些不规则的线条、形状和颜色,甚至其实精心的编写一段代码也可以做到同样的事情,这导致了“AI”这种东西处于一种很尴尬的情况,实用的能力非常小,还非常的“虚无缥缈”,离真正的用户之间很远。

而现在所谓的AI和以前大不相同,越来越多实际上能提升生产力的AI工具逐步面世,团子在2020年1月份发布,最开始时团子的性能也只能说是“勉强”移除人声,而剩下的伴奏可以说是非常浑浊且大量残留的,但经过5年时间、10个版本的更迭,团子的性能目前已经达到了世界级的顶尖水平,获得大量国内外用户的好评和使用,为许多用户解决了切实的难题。

展望2025年的一整年,团子都排满了研发的日程,对于现在来说,团子AI的边际效应越来越强,相比曾经很轻松就可以提升一大截音质,现在每提升1%的性能都会付出大量的研发成本,不过仍然没有关系,我们的研发日程中,仍然排满了大量的提优化路径。

回到研发日志正题,在1月份中,我们主要训练“混响回声移除”的乐器混响移除模型,和人声模型的固定domain不同,乐器拥有数百种不同的形式,有些乐器的长尾音和混响的“尾巴”非常相同,如弦乐器,贸然的移除这些乐器的混响会导致破坏乐器本身的内容,而经过我们的限制,乐器混响移除的模型会更加谨慎的移除混响,保护乐器本身的音色,目前乐器混响移除的实验已经接近尾声,我们大约将在3-5天的时间内发布此功能。

在乐器混响移除发布后,我们将“转战”到一个全新的功能,细心的小伙伴可能在前几篇的研发日志中就能看到我们正在并行的实验此功能,实际上我们正在尝试制作一个功能——可以将有损的音频内容恢复至无损状态,不是简单的转个格式,而是将音频内损伤、丢失的内容恢复回来。对于音频AI比较熟悉的小伙伴们来说,可能会认为“这功能不是早就有了吗”?的确,目前有一些开源的解决方案,如apollo、audiosr等技术,也有国外的爱好者训练了一些三方模型,但这些生成模型生成的内容普遍都是非常低质量的,充斥着大量的伪影,且恢复的内容非常虚假、平滑,也就是“乍一眼”看起来恢复的频谱比较饱满,但实际上并没有真正有效的恢复内容,恢复的内容都是由伪影和无意义的噪音填充,团子的实验室目前正在准备该功能的研发,我们希望能通过我们研发能力解决这个痛点,从而推出一个实打实有用的音频音质修复功能,而不是一个大号的玩具,类似我们对混响回声移除的调研和理念。

该功能(以及我们希望解决的痛点)仍在构想和小范围实验中,我们预计将混响移除后开始铺开全面的实验,在下一次的研发报告中,我们会公布更多的进度和细节。

最后,有关11.0的研发,目前我们计划在音频音质恢复功能完成后(当然如果该功能达不到我们的预期,我们可能放弃开发),开始着手11.0的研发路线。尽管在小伙伴们看起来我们是“单线程”的研发,比如在开发A功能时,B功能需要在后面“排队等待”,但实际不然,我们早在10.0研发完成后,就已经开始了11.0的筹备工作,同时我们也收到了近一年的时间对10.0的大量反馈,另外在开发其他功能时,我们也会进行一些实验来测试并“反哺”未来的11.0的开发。

和9.0到10.0不同,本次我们已经拥有了大概十条左右的优化方案,这是前所未有的情况,10.0仍然不是我们的终点,在这一年时间中我们一方面已经拟定筹备了大量的可能改进的方案,并且我们也排好了非常紧凑的日程来进行实验和验证,另一方面我们的训练数据仍在以非常快的速度扩容,我们每天都在准备着新的训练数据的生产和筛选,这些事情都是同步于其他产品的研发过程的,所以可以理解为团子每分每秒都在准备未来的潜在提升,我们对11代产品充满了信心,我们将再一次发布一款惊艳所有人、远远拉开同级别的“次世代”分离产品👻