2006年7月13日

你在聽什麼樣的MP3

這是我在我們集團的刊物上發表的文章,內容或許有些小錯誤,但基本觀念大致是如此。



MP3並不是個很新的技術,這種編碼技術出現已經近二十年了,而被廣泛使用也有約十年的歷史了。而在快閃記憶體的技術成熟後,內建快閃記憶體的MP3隨身聽大量出現,因為體積小、重量輕等特性,在短短時間內,已在世面上快速普及,在路上隨處都可看到人人戴著耳機欣賞音樂。
而MP3的音質,因為其破壞性壓縮的原理,在一般人的印象中,總是被認為沒有好音質,但大部分的人總自認為「木耳」,反正聽不出其中的音質差異,而MP3檔案體積小又方便取得,就一直將就著聽,但MP3的音質是否真的很糟,人耳真的聽不出其中的差異嗎?

在討論MP3的壓縮原理之前,先來了解一些關於聲音的原理。一般我們會把人耳可聽的範圍定義在20Hz至20KHz之間,而每個人實際上能聽到的頻率範圍又不太一樣,以高音部分來說,大部分的人只能聽到16KHz的聲音,只有少部分的人能聽到19KHz甚至20KHz,而且就算能聽到如此高的頻率,也只是很小很小的聲音。其次,所有的聲音都是由一個基音與其泛音(頻率為基音的倍數)所組成,以一個100Hz的聲音來說,其實我們所聽到的是一個100Hz的基音加上200Hz、300Hz等等泛音所合成的聲波,而隨著每個泛音的強度不同,所組合起來的聲波便會有不同的音色變化。(這一段可能會有些難懂,但實一些基礎的物理知識其實在國中理化就已經教過,可以試著回想一下。)

而要利用數位的方式來保存實際上是以波形存在的聲音,其實是利用很簡單的方法,將一個連續的波形用時間為單位切割成許多塊,分別記錄每一塊的聲波強度即可,這個動作稱為取樣。而要把聲音訊號切割多少塊,就決定於取樣頻率(一秒鐘要進行幾次取樣),重播時不失真的最高頻率約為取樣頻率的一半,以電話為例,取樣頻率只有8KHz,因為人的語音不會高於4KHz,而基於人耳可聽的最高頻率約為20KHz,所以CD的取樣頻率定為44.1KHz;另外,每一次的取樣要使用多少位元來記錄,如果只用八位元,那麼在記錄訊號強度時只有64個刻度可以用,如果用16位元,那麼就有65536個刻度可以使用,一般CD所使用的就是16位元。

大致了解聲音訊號是如何數位化之後,再來簡單介紹一下MP3的原理。依上一段所述,一分鐘的CD音質聲音需要佔用的空間為16(bits) * 44100(每秒取樣數) * 2(雙聲道) * 60(秒) = 84.672kbits = 10.584kbytes,也就是每一分鐘的聲音我們就需要約10MB的空間來存放,而轉成MP3,可達到10~12倍的壓縮比率。而MP3能達到如此高的壓縮率,是利用了破壞性壓縮,在進行壓縮編碼時將部分資訊捨棄掉,這樣做當然可以大幅減少檔案容量,但在進行解碼還原後,必定會有某個程度的失真。

MP3的編碼原理,是利用人耳聽覺的錯覺,將人耳不易聽到或容易忽略掉的部分省去,如在15KHz以上的高頻部分,因為幾乎已達人耳的極限,所以幾乎是完全砍掉;其次,在不同的頻率及不同強弱的訊號中,有一些微弱的訊號很容易被人耳忽略掉,像是這樣的微弱訊號,在MP3進行編碼時也會忽略掉。而這樣子的破壞性壓縮,雖然理論上在聆聽時並不會感覺到差異,但是在因為許多細節已被省略,所以在實際聆聽時,只要重播設備不會太差,仍能感受到與CD音質有些微的差異。

在MP3壓縮時,有兩個很重要的規格,分別是取樣頻率及位元率(Bitrate),取樣頻率在前文已經提過,MP3提供三種取様頻率:32KHz、44.1KHz、48KHz,在進行MP3編碼時,會對原來的資料重新取様,但是把取様頻率低的原始訊號再用高取様頻率重新取樣過,並不會對音質有所改善。位元率的單位是kbps,也就是每秒聲音檔所使用的位元數,MP3能支援32kbps到320kbps,以128kbps的檔案來算,每分鐘大約需要1MB的空間,大約是CD音質聲音檔的十分之一,而MP3檔案的大小只跟位元率有關,與取様頻率是沒有關係的,所以當同樣的位元率來製作MP3檔案時,較低的取様頻率雖然會失去較多高頻資訊,但是卻能保留更多的細節。

所以日後在將CD壓縮成MP3檔案檔案時,如果要取得最好的音質,首先是儘量使用較高的位元率,256kbps所佔的容量是128kbps的兩倍,而如果隨身聽的記憶體允許,最好是用到320kbps,而CD的取様頻率是44.1KHz,所以除非真的自認為木耳,那可以使用32KHz(重播時最高可重現到16KHz,剛好是大部分人所能聽到的極限),不然最好是使用與CD相同的44.1KHz,因為CD音質本身的限制,用到48KHz的音質並不會比較好,至於許多人電腦裡已經有的MP3檔案,如果是128kbps的格式,那也別枉想可以用256kbps重製來改善音質,因為其已經失真的訊息是無法再還原的。



替最後一段做一些補述。

這裡提的「音質好」,是以訊號的失真小來判斷,當最後儲存下來的資訊,與最原始的類比信號相比,失真越小就可視為音質越好。

但是在實際聆聽時,失真程度與好不好聽,其實沒有必然關係。因為聽覺這東西是很主觀的,或著可以說,我們平常透過音響系統聽到的音樂,都已經是失真後的聲音了,沒有一套音響系統能達到百分之百的原因重現,在主觀評論一套系統時,其實是在評論這個系統所造成的失真你喜不喜歡罷了。

那麼再回來取樣頻率跟位元率這件事上,我們在改變取樣頻率或位元率時,不管是提高或是降低,在檔案重製的過程中,都會造成失真,但這樣的失真會使得音樂變得更好聽或更難聽,這就要由自己的耳朵來判斷了 。

0 意見: