为什么我的无损文件太大了，无法上传至团子AI？

Dango AI · 2023-10-30 教程

我们在之前介绍了如何鉴别一首歌是否是“无损”的？，如果您无法区分歌曲是否是“无损的”，您也可以查看上方的文章来进行简单的了解音频知识~

本次我们将回答一个常见的问题，部分用户使用一些音乐软件下载了“无损”格式的音乐，但发现文件太大无法上传至团子——

以网易云音乐为例，我们在音乐的下载选项里会看到下载的音质选择：

我们可以看到，这其中包含了“标准”、“极高”、“无损音质”和“Hi-Res音质”，看起来音质是“从左到右越来越好”，而我们也发现无损音质的右边还有一个看起来更好的“Hi-Res音质”（部分软件里可能称为“母带音质”、“臻品音质”），那么小伙伴们可能很疑惑，都已经是“无损”了，为什么还有比无损更好的音质？

简单来说，您的无损文件太大是因为歌曲的各种参数过大，您只需要下载普通的“无损格式”而不是更高的“Hi-Res音质”即可，虽然“普通的无损音质”这个词看起来“很普通”，但实际上本身的音质已经是非常非常高且非常非常够用了，已经能覆盖人耳的全部听觉频率范围。

仍然感兴趣？什么是“各种参数过大”，都有哪些参数？下面我们会为更加好奇的小伙伴们开个简单的团子小讲座，团子会用最简单的语言来形容这些音频中的参数，保证小伙伴们能看懂😇

通道数（Channels）

说人话就是一首歌有几个“声道”，我们常见的音乐都是双声道，对应着人的左右耳，也有音乐的单声道的，听起来左右耳是一样的，还有些是“5.1声道”，它是6声道的，需要6台音响放在不同前后左右位置来播放，它可以更好的表达“前后”的声音，比如一个人从您身后慢慢走过来的脚步声效果，但这个并不是常见的“音乐”格式，一般应用到影院比较多。

那么如果一首歌一个声道原始信息是10MB大小，那两个声道就是20MB，声道越多文件自然越大。

位深度(Bit Depth)

先不用看到这个词就觉得晦涩难懂=。=

声音的波形用图像来显示就是像是无数个“~”波浪号一样，而波浪里有起起伏伏，更高的“位深度”可以更精准的记录这中间“起起伏伏”的位置。

举个简单的例子：我们可以理解为在某一个瞬间，音乐的“波形”能量可以用0-1之间的数字来形容，越大越“响”，比如一个声音的这一瞬间的原始能量是 0.1111222233334444，而更高的位深度就可以保留更多的“小数”。

比如16bit深度我们只能记录这个能量为“0.11112”，后面的小数会自动丢弃来让文件变得更小；

而32bit我们就可以记录成“0.11112222”；

64bit我们就可以记录更多更精细的内容“0.1111222233334444”。

那看起来自然是深度越高越“牛逼”，毕竟可以记录更多的内容，但实际上，绝大多数歌曲只使用16bit来记录歌曲，因为小数靠后面的内容“太小了”，根本没有“声音”，虽然更大的位深度可以更准确的记录音频，但人耳根本听不见区别，所以为了保证各个音频文件不至于几百MB大小，大多数歌曲仅仅使用16bit来记录。

采样率（Sample Rate）

如果位深度是如何准确的记录“一瞬间”波形的能量，那采样率就是一秒内记录多少个这种“一瞬间”，一瞬间毕竟只是个形容词，实际上我们电脑并没那个能力记录声音的每一个瞬间都是什么声音，而是一秒内记录几万次来让人耳能达到“连贯”的错觉，这也就是采样率。

如果我们不用声音，而是图形或许更好理解——我们抬起胳膊这个动作在自然中是“连贯”的，而你用摄像机记录这个动作，摄像机只是一秒钟拍摄N张图片然后播放出来，只要我们录制的图片越多，我们人眼就会被欺骗看起来是“连贯的”，如果一秒钟只播放两张图片，就像是玩游戏“帧数低”一样，那看起来就是“卡卡”的，而如果一秒钟记录120张图片，看起来就非常“丝滑”。

回到音频中，我们常见的采样率是44100，就是相当于一秒钟记录音频44100次瞬间，还有一些常见的采样率如32000、48000、96000，那么自然的，越大的采样率就得记录越多的信息，文件自然就更大了，在标准的“无损音乐”中，采样率是44100，因为一秒钟记录几万次的“音乐瞬间”已经足够用了。

团子接受什么参数的音频？

理论上团子是可以接受任意参数的音频，但我们接受的最高参数是：

双声道
16bit位深度
44100赫兹的采样率

如果您的文件小于这个参数，团子正常处理，如果您的文件大于这个参数，团子会自动的将您上传的文件“降级”成上方的无损参数，而更大的参数自然会“记录更多内容”，导致音乐文件变得很大，团子限制上传大小为100MB，实际上符合上方参数并且无损的音乐并且小于12分钟的，一定会小于100MB，而您的“超级无损”文件很大概率会大于100MB从而导致上传失败，您可以重新下载您需要的文件，并在下载选项里选择“无损格式”而不是更高参数的格式即可。

那么有些小伙伴可能觉得“很不爽”，我手里明明有更好的无损文件却不让使用，团子非常理解您的心情，如果我们“原封不动”的处理您的音乐，可能导致算力和成本的不可控上升——以“声道”为例，有些算法是将您的歌曲的每一个声道按顺序排队输入到AI中去“听”和“分离”，最后组装，比如您是双声道歌曲，这些算法会先拆出原曲的“左声道”，发送给AI，得到结果后再拆出“右声道”再次发送给AI，最后两个声道的结果在“拼装”在一起——但这样的缺点是有些歌的多声道可能有一些关联信息，比如和声，经过作曲家的处理一般会有一些效果器导致人声在左右耳听起来不同，而这些信息如果双声道“一起听”是能发觉的，而只听某一个声道同时再听的时候并不知道其他声道“听起来什么样”，就会丢失这些信息并且导致提取能力降低（就如上方所说的算法那样）。

而团子则是将双声道音频一起塞入AI中进行学习和提取，这样能提取出更好的结果，但这么做会导致我们的AI内存（显存）占用成倍，因为要同时输入两个声道信息——那如果您上传一个6通道的音频，团子要在同时消耗6倍以上的存储，这导致计算时间会指数级别的提升，以至于无法完成任务，所以团子制定了一系列的“最高参数标准”，但您放心，团子制定的参数都是标准的无损音质（CD Quality），可以覆盖到人耳能听到的所有频率，符合地球上绝大多数无损歌曲的标准，并不会“偷工减料”，而您“更好”的文件实际上人耳是听不出来“差别”的，就像是人耳无法听到“超声波”一般。与此同时，团子也非常推荐您上传无损音质的音乐来达到最好的提取效果，详细您可以查看我们的之前文章来对比有损和无损音质的提取能力。

Back to Blogs