筆記本: 你在聽什麼樣的MP3

這是我在我們集團的刊物上發表的文章，內容或許有些小錯誤，但基本觀念大致是如此。

MP3並不是個很新的技術，這種編碼技術出現已經近二十年了，而被廣泛使用也有約十年的歷史了。而在快閃記憶體的技術成熟後，內建快閃記憶體的MP3隨身聽大量出現，因為體積小、重量輕等特性，在短短時間內，已在世面上快速普及，在路上隨處都可看到人人戴著耳機欣賞音樂。
而MP3的音質，因為其破壞性壓縮的原理，在一般人的印象中，總是被認為沒有好音質，但大部分的人總自認為「木耳」，反正聽不出其中的音質差異，而MP3檔案體積小又方便取得，就一直將就著聽，但MP3的音質是否真的很糟，人耳真的聽不出其中的差異嗎？

在討論MP3的壓縮原理之前，先來了解一些關於聲音的原理。一般我們會把人耳可聽的範圍定義在20Hz至20KHz之間，而每個人實際上能聽到的頻率範圍又不太一樣，以高音部分來說，大部分的人只能聽到16KHz的聲音，只有少部分的人能聽到19KHz甚至20KHz，而且就算能聽到如此高的頻率，也只是很小很小的聲音。其次，所有的聲音都是由一個基音與其泛音（頻率為基音的倍數）所組成，以一個100Hz的聲音來說，其實我們所聽到的是一個100Hz的基音加上200Hz、300Hz等等泛音所合成的聲波，而隨著每個泛音的強度不同，所組合起來的聲波便會有不同的音色變化。（這一段可能會有些難懂，但實一些基礎的物理知識其實在國中理化就已經教過，可以試著回想一下。）

而要利用數位的方式來保存實際上是以波形存在的聲音，其實是利用很簡單的方法，將一個連續的波形用時間為單位切割成許多塊，分別記錄每一塊的聲波強度即可，這個動作稱為取樣。而要把聲音訊號切割多少塊，就決定於取樣頻率（一秒鐘要進行幾次取樣），重播時不失真的最高頻率約為取樣頻率的一半，以電話為例，取樣頻率只有8KHz，因為人的語音不會高於4KHz，而基於人耳可聽的最高頻率約為20KHz，所以CD的取樣頻率定為44.1KHz；另外，每一次的取樣要使用多少位元來記錄，如果只用八位元，那麼在記錄訊號強度時只有64個刻度可以用，如果用16位元，那麼就有65536個刻度可以使用，一般CD所使用的就是16位元。

大致了解聲音訊號是如何數位化之後，再來簡單介紹一下MP3的原理。依上一段所述，一分鐘的CD音質聲音需要佔用的空間為16(bits) * 44100(每秒取樣數) * 2(雙聲道) * 60(秒) = 84.672kbits = 10.584kbytes，也就是每一分鐘的聲音我們就需要約10MB的空間來存放，而轉成MP3，可達到10~12倍的壓縮比率。而MP3能達到如此高的壓縮率，是利用了破壞性壓縮，在進行壓縮編碼時將部分資訊捨棄掉，這樣做當然可以大幅減少檔案容量，但在進行解碼還原後，必定會有某個程度的失真。

MP3的編碼原理，是利用人耳聽覺的錯覺，將人耳不易聽到或容易忽略掉的部分省去，如在15KHz以上的高頻部分，因為幾乎已達人耳的極限，所以幾乎是完全砍掉；其次，在不同的頻率及不同強弱的訊號中，有一些微弱的訊號很容易被人耳忽略掉，像是這樣的微弱訊號，在MP3進行編碼時也會忽略掉。而這樣子的破壞性壓縮，雖然理論上在聆聽時並不會感覺到差異，但是在因為許多細節已被省略，所以在實際聆聽時，只要重播設備不會太差，仍能感受到與CD音質有些微的差異。

在MP3壓縮時，有兩個很重要的規格，分別是取樣頻率及位元率(Bitrate)，取樣頻率在前文已經提過，MP3提供三種取様頻率：32KHz、44.1KHz、48KHz，在進行MP3編碼時，會對原來的資料重新取様，但是把取様頻率低的原始訊號再用高取様頻率重新取樣過，並不會對音質有所改善。位元率的單位是kbps，也就是每秒聲音檔所使用的位元數，MP3能支援32kbps到320kbps，以128kbps的檔案來算，每分鐘大約需要1MB的空間，大約是CD音質聲音檔的十分之一，而MP3檔案的大小只跟位元率有關，與取様頻率是沒有關係的，所以當同樣的位元率來製作MP3檔案時，較低的取様頻率雖然會失去較多高頻資訊，但是卻能保留更多的細節。

所以日後在將CD壓縮成MP3檔案檔案時，如果要取得最好的音質，首先是儘量使用較高的位元率，256kbps所佔的容量是128kbps的兩倍，而如果隨身聽的記憶體允許，最好是用到320kbps，而CD的取様頻率是44.1KHz，所以除非真的自認為木耳，那可以使用32KHz(重播時最高可重現到16KHz，剛好是大部分人所能聽到的極限)，不然最好是使用與CD相同的44.1KHz，因為CD音質本身的限制，用到48KHz的音質並不會比較好，至於許多人電腦裡已經有的MP3檔案，如果是128kbps的格式，那也別枉想可以用256kbps重製來改善音質，因為其已經失真的訊息是無法再還原的。

替最後一段做一些補述。

這裡提的「音質好」，是以訊號的失真小來判斷，當最後儲存下來的資訊，與最原始的類比信號相比，失真越小就可視為音質越好。

但是在實際聆聽時，失真程度與好不好聽，其實沒有必然關係。因為聽覺這東西是很主觀的，或著可以說，我們平常透過音響系統聽到的音樂，都已經是失真後的聲音了，沒有一套音響系統能達到百分之百的原因重現，在主觀評論一套系統時，其實是在評論這個系統所造成的失真你喜不喜歡罷了。

那麼再回來取樣頻率跟位元率這件事上，我們在改變取樣頻率或位元率時，不管是提高或是降低，在檔案重製的過程中，都會造成失真，但這樣的失真會使得音樂變得更好聽或更難聽，這就要由自己的耳朵來判斷了。