
🎉🎉🎉首先祝各位小伙伴们春节快乐~
春节期间团子研发仍没有落下,整个2月份我们正在进行数个实验,涉及到不同的功能:
有损音频修复【V1-Max】模型研发中
我们在上个月的研发日志中报告,有损音频修复模型目前对上采样丢失、抖动伪影的支持基本为0,本月我们正在实验全新的模型,皆在支持上述音频损伤特性的修复,目前实验的进度约为50%左右,在一系列样本中修复效果均得到有效提升。

预计该模型将命名为【V1-Max】(而非V2👻),我们还需实验并解决一个相位修复的问题,该问题会导致在某些罕见的轻微音量的区域出现一些伪影问题。
混响回声移除【去回声】功能研发中
很遗憾的和小伙伴们通知,我们的去回声功能在之前的实验中效果均不佳,回声相比混响要更为复杂且更“长”,尽管目前的模型已经支持一定的短回声移除,但效果仍无法达到我们满意的程度。
我们正在从网络架构入手,团子的人工智能实验室研发了一款新型适配神经网络,预计支持更长的回声移除能力,本月初我们已经进行了数次实验,已经找到了稳定的方法,目前正在全力训练中。
很遗憾目前我们无法解禁更多有关该架构的进一步说明🤐但该架构在我们内部评价为——逆天👻未来我们的12.0系列伴奏人声提取算法也会沿用此架构的能力,预计会巨量提升“和声保留”算法的稳定性、彻底级别的杜绝主唱和声的识别错误问题。
接下来?
对于“有损音频修复”部分,研发优先级为最高,如果一切的实验均比较流畅,我们将预计在2月底到3月初发布V1-Max模型,该模型将为【有损音频修复】的完整体。
对于“混响回声移除”功能的【去回声】功能,目前仍在实验中,该功能较为拖沓,“跳票”了很多次,但我们仍希望将最好的结果和性能提供给小伙伴,而不是“糊弄”事,不过当前的该功能在我们内部研发优先级将提升为“次高”,因为我们新的架构会一定程度反哺到未来的12.0伴奏人声提取算法,我们仍然需要一定的实验结果来证明可行性。
对于“现场声音移除”功能,当前该功能的优先级需要排到“混响回声移除”之后,待混响回声移除完成后我们将开始该功能的研发。
对于12.0系列“伴奏人声提取”算法,目前还没有日程计划,但按我们的2026全年计划来说,该功能将排在“现场声音移除”之后,不过我们仍在准备更多的训练素材,以及“前置科技树”也在攀登中🧐(如混响回声移除的去回声架构,将反哺到12.0算法。)












