【25年11月】团子AI研发日志
团子AI · 2025-12-05 预告
【25年11月】团子AI研发日志

小伙伴们好久不见🧐

11月份我们主要精力在“音频音质修复”功能的研发,正如10月份的研发报告那样,由于我们重新开始研发该功能,并且在本次研发过程中获得了可观的效果,我们决定将团队研发重心转到该算法上。

尽管我们达到了之前没有的高度,但目前仍有两个关键问题还挡在路上:

能量匹配问题

之前我们提到过,如果把频谱也当成某种“图片”的、而忽略其具体的语义的话,那么这张图片的高频就代表了“纹理”,比如乐器的谐波;而低频就代表了“包络”,比如乐器的底噪、形状和大致能量。

在上个月的报告中,我们指出我们的新算法已经可以生成出“像模像样”的高频内容,但这还不代表结束,生成的内容要多“响”,也就是生成的能量依然是个待挑战的问题。

我们把“有损音频恢复”看成一个标准的逆问题,逆问题虽然有一个oracle解,但大多数的逆问题都破坏了寻找此解的方法或者途径,举例来说,如果一个音频被EQ扭曲,导致某一段的高频能量非常强,但有损音频因为丢弃了高频,导致该高频区域丢失,恰巧该高频使用EQ后Q值还特别窄(Q值可以理解为EQ点上下的频率有多宽的范围受到影响),这就让网络无法从附近频点找到线索,从而只能输出一个平均统计值,这显然和oracle是不匹配的。

目前我们的网络虽然能输出有效内容,但由于缺乏能量匹配的能力,会导致输出的内容可能和无损的能量无法匹配,我们正在实验解决方案,这可能需要一定的时间,但如果长时间效果仍不理想,团子也提供了后备解决方案,我们将能量匹配的可编辑性交给用户,在默认情况下团子将输出一个“差不多”的内容,以供初级用户“一键修复”,如果高级用户觉得仍然不够,也可以自由编辑输出的能量、修复的强弱甚至修复的“高度”(频率),总之这些问题将是我们本月份主要去解决的对象,我们将在下个月的报告中反馈实验的进度。

相位匹配问题

相比能量匹配问题,相位匹配问题算是比较“小”的事情🧐,有损音频和无损音频在重叠的区域,有损音频(大多数编码器)都能保证较为准确的相位信息,这些信息我们可以利用,所以我们只需要关心需要恢复区域的相位。

我们初代的算法并不会过于针对相位的问题,我们对相位的约束较轻,只求“无功无过”,相位并不会影响幅度和听感即可,当然这可能导致团子输出的“指标”可能较弱(比如大家最爱的SDR这一块🤓☝️),不过没关系,但团子从来都是从工业和实用角度出发,我们对真实人类听感的选择权重要比指标更多。

接下来?

目前音频音质修复的发布是“板上钉钉”的事情了,但还需要解决一些问题才能和小伙伴们见面,12月我们将继续研发和打磨的过程,如果进度顺利,将在1月-2月份上线,如果不顺利可能根据情况仍需继续打磨。尽管有部分小伙伴认为此功能相对团子其他功能来说有点冷门且“不务正业”,但该功能的研发也会反哺到我们未来的分离功能上,为下一代的分离算法提供成熟解决方案,所以小伙伴们敬请期待🧐