主题：【原创】科学的欣赏流行乐 -- 比的原理

跟管理员交流过了

结论是，把争端集中在一个回帖里解决，不要再开新贴战斗。

我觉得，你是误解了声谱图，同时没注意到我的图下半部分才是频谱图。我第四章更新了一下我的图是如何做的，转发一下

点看全图

外链图片需谨慎，可能会被源头改

此图由两部分组成，上半部分为声谱图（Spectrogram），下半部分为频谱图（Spectrum）。

先看上图：

横坐标是时间，纵坐标是频率值，同一时间的纵线上存在着数个波，重合而成最终的波。颜色越亮则表示波的振幅越大。混乱的背景都是伴奏，我们只观察人声线。

再看下图：

下图反映了上图的某个时间点（上图中的黄线）的频率分布。横坐标为频率，纵坐标为振幅。这个图更有利于直观的观察泛音的成分和强弱。

频谱／声谱图是如何制作的

我们都知道原始的声音是波形图，不过原始的波形图并没有太大研究价值，而且事实上也看不出“波形”。因为震动频率太高，比如帕瓦罗蒂的high c吧，500多的震动频率，表示一秒钟要震动500多次，那肯定是看上去一大坨，类似这样：

点看全图

外链图片需谨慎，可能会被源头改

放大几十倍之后，大约能看出波形，类似这样

点看全图

外链图片需谨慎，可能会被源头改

无论哪种都不适合研究。

所以音频解析的过程是：取连续采样点，一般是4096个点，考虑到音频文件的采样率一般是44.1k，所以就是取了1/10秒之内的数据。然后对这4096个点作做快速傅里叶变换,就得到了频谱图。频谱图的信息是4096个点，每一个点对应的是这个频率上的振幅。

频谱图反应的是在这个时间点上的频率分布情况。

严格的说应该是这1/10秒内的平均情况。

来一张典型频谱图，看看跟我的图下部是不是一回事：

点看全图

外链图片需谨慎，可能会被源头改

将当前时间点的频谱画到声谱图里就得到了瀑布图（第二章视频中的图）。画法是：振幅越大的点，用越亮的颜色。

纵坐标是频率，从下到上大约是0到6000。

所以一个人唱了个C5，那他的基频就大概是500，第一泛音是1000,第二泛音是1500，画到声谱图上的结果就是从下到上每隔500画一个点，根据振幅有颜色的区别。

随着时间的推移，声谱图会不断向右延伸，这样我们就得到了一段时间内频率分布图。比如一个C5的线在声谱图上水平延续了5秒，那表示该歌手唱了C5五秒。

声谱图上类似“波”的东西是颤音，也就是歌手演唱中不断改变音高，所以自然会不断改变纵坐标。

来一张wiki的声谱图：

点看全图

外链图片需谨慎，可能会被源头改

最后，频谱图/声谱图的wiki链接

你如果有不同意见请作自己的频谱图。

通宝推：二手玫瑰,

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友