西西河

主题:【原创】科学的欣赏流行乐 -- 比的原理

共:💬309 🌺1010 🌵31 新:
全看分页树展 · 主题 跟帖
家园 跟管理员交流过了

结论是,把争端集中在一个回帖里解决,不要再开新贴战斗。

我觉得,你是误解了声谱图,同时没注意到我的图下半部分才是频谱图。我第四章更新了一下我的图是如何做的,转发一下

点看全图

外链图片需谨慎,可能会被源头改

此图由两部分组成,上半部分为声谱图(Spectrogram),下半部分为频谱图(Spectrum)。

先看上图:

横坐标是时间,纵坐标是频率值,同一时间的纵线上存在着数个波,重合而成最终的波。颜色越亮则表示波的振幅越大。混乱的背景都是伴奏,我们只观察人声线。

再看下图:

下图反映了上图的某个时间点(上图中的黄线)的频率分布。横坐标为频率,纵坐标为振幅。这个图更有利于直观的观察泛音的成分和强弱。

频谱/声谱图是如何制作的

我们都知道原始的声音是波形图,不过原始的波形图并没有太大研究价值,而且事实上也看不出“波形”。因为震动频率太高,比如帕瓦罗蒂的high c吧,500多的震动频率,表示一秒钟要震动500多次,那肯定是看上去一大坨,类似这样:

点看全图

外链图片需谨慎,可能会被源头改

放大几十倍之后,大约能看出波形,类似这样

点看全图

外链图片需谨慎,可能会被源头改

无论哪种都不适合研究。

所以音频解析的过程是:取连续采样点,一般是4096个点,考虑到音频文件的采样率一般是44.1k,所以就是取了1/10秒之内的数据。然后对这4096个点作做快速傅里叶变换,就得到了频谱图。频谱图的信息是4096个点,每一个点对应的是这个频率上的振幅。

频谱图反应的是在这个时间点上的频率分布情况。

严格的说应该是这1/10秒内的平均情况。

来一张典型频谱图,看看跟我的图下部是不是一回事:

点看全图

外链图片需谨慎,可能会被源头改

将当前时间点的频谱画到声谱图里就得到了瀑布图(第二章视频中的图)。画法是:振幅越大的点,用越亮的颜色。

纵坐标是频率,从下到上大约是0到6000。

所以一个人唱了个C5,那他的基频就大概是500,第一泛音是1000,第二泛音是1500,画到声谱图上的结果就是从下到上每隔500画一个点,根据振幅有颜色的区别。

随着时间的推移,声谱图会不断向右延伸,这样我们就得到了一段时间内频率分布图。比如一个C5的线在声谱图上水平延续了5秒,那表示该歌手唱了C5五秒。

声谱图上类似“波”的东西是颤音,也就是歌手演唱中不断改变音高,所以自然会不断改变纵坐标。

来一张wiki的声谱图:

点看全图

外链图片需谨慎,可能会被源头改

最后,频谱图/声谱图的wiki链接

外链出处

你如果有不同意见请作自己的频谱图。

通宝推:二手玫瑰,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河