
2月份我们的研发团队一直聚焦于有损音质修复问题,对于这个功能其实在两年前左右我们就有计划,但一直未实施,目前我们整个实验室已经开始全力进行此功能的研发——在整个2月份,我们统计已经做了将近700多场实验。
很遗憾的通知给各位小伙伴们,尽管我们拆分成几个方向、不同的实验机器在并行做不同的实验,但结果是——我们的实验效果并不满意😭
有损歌曲和无损歌曲在时域(波形)的差距不大,主要差距在频域内,通常看起来是高频被整体裁断、另外中频低频有一些看起来像是“洞”一样的缺陷区域。
目前市面上并没有类似的工作,但在学术领域还是有较少的类似工作——和我们的任务最类似的Apollo,这是国内的大佬所发布的一篇论文,用来修复有损音频内容,尽管Paper非常伟大,但经过我们的评估后,我们认为Apollo并不能适应这项任务,原因如下:
- 充满横线伪影,导致输出结果从一种“有损”变成了另一种“有损”,我们认为这是在频谱转为feature时,嵌入的能量信息导致的。
- 输出的中低频模糊化、平均化,我们认为这是transformer型架构导致的。
- 无法恢复高频。除了一些对于神经网络比较容易学习的,如鼓组、人声齿音这样的“一通到顶”的形状,其他并不会生成任何有意义的能量。
因此,我们决定自研一套适应这个任务的架构,目前我们的架构已经能完美的解决1和2的问题,输出的内容清晰无伪影。

我们观察这个图片,可以看到团子的算法输出的频谱更清晰,没有伪影——甚至高频内容也有所恢复,看起来人声的气流声得以恢复一些。
但这仍然远远没到我们期望的程度,我们希望高频能恢复出更有意义的内容,目前在人声看起来似乎有些高频内容,但在乐器上就“露馅”了:

这是一个简单的弦乐器音色,他的形状也非常简单,从基频开始每隔一段频率都会有一个谐波形状,可以看到团子似乎预测了一些模糊的谐波内容,而Apollo则是用一些平均模糊的伪影“糊弄过去”,但实际上即便的团子的结果也仍然不可用,仔细观察在接近高频的内容,一些断开的谐波看起来像是颗粒一样,团子的算法并不能连接这些“颗粒”来还原谐波,并且高频内容也是非常没有信心,尽管有些淡淡的形状,但并不会生成有意义的能量线。
解决前两个问题对于我们来说比较简单,目前仍然卡在第三个问题——如何恢复有意义高频,我们尝试了各种解决方法,但均无明显效果。
经过我们商讨,我们决定追加一个月的实验时间,目前我们有了一些新的方向,整个3月份我们仍然会尝试寻找改进的方法,如果3月份仍然没有显著效果,团子会考虑放弃此功能的研发(留给学术圈大能🧐),因为目前的程度我们认为还远远不足实际的使用,我们会全力开始转战11.0分离算法的研发。在此感谢小伙伴们的耐心等待😥
另外,如果您的研究是类似方向的大能,您可以联系我们,我们接受您的解决方案,有偿。