みんなの「教えて(疑問・質問)」にみんなで「答える」Q&Aコミュニティ

こんにちはゲストさん。会員登録(無料)して質問・回答してみよう!

解決済みの質問

音域の違いによる音声データ量の違いはありますか?

よくiTunes等でAACとかMP3にエンコードする時に、
固定ビットレートの他に可変ビットレートを選べたりしますが、これについて質問です。

映像ですと動きが多かったり、色数が多かったり、といったところで
「データの大きさ」が理解できるのですが、
音声についてはどういう場合にデータが大きくなるんでしょうか?

もちろん無音の時にはデータが無くなるのは分かりますが、
それ以外の、例えば重低音が大きいメタル曲と、高音域のソプラノオペラ曲では
「データの大きさ」としての違いは、どのように出てくるんでしょうか?

また、ボーカルの男声と女声ではデータの大きさが違ったりしますか?

初心者の質問ですみませんが、簡単にお教え頂けたら助かります。

投稿日時 - 2013-11-07 12:41:49

QNo.8337689

暇なときに回答ください

質問者が選んだベストアンサー

多少は映像のことも御存知のようですので映像 (画像) にも搦めた解説をします。

湖などでどれほど深くまで見通すことができるかという、透明度という言葉があります。

透明度の悪い水域では深い水底を蠢く小さなものや速く動くものまでは見通せませんが、間近に居たりゆっくりと動く大きな魚は見ることができます。

小さな魚は小さな音、速く動き回る魚は高周波音みたいなもので、遠くにあればどんなに澄んだ水の中でも魚の Detail は掴みにくいものです。

水深何 m のものまで見通せるという水の透明度と同様に大気の透明度でも同じ事が言えるのですが、大気の透明度は何 m のような長さや深さでは表現せずに「空間周波数」と言う言葉を用います。

空間周波数が高いと言うのは遠くまで見通せる澄んだ大気状態を表し、逆に空間周波数が低いと言うのは遠くの山々が霞んで山肌の細かい様子がよく判らないような状態を表します。

Digital Camera や Video Projector などに装備されている LPF (Low Pass Filter) というものは Audio 用語の LPF のように捉えてしまうと、如何にも「有害な高周波成分を除去するための High Filter」と言うような Nuance を感じますが、実は曇り Glass 或いは Silk Curtain のようなもので大気の高周波成分を下げて濁らせることにより、主題以外の細かい Object を暈かし、主題を引き立てる役割を果たしています。・・・Bayer Matrix 型の Photo Sensor 配列を採る Digital Image Sensor では Moiré を軽減させるために Photo Sensor 格子よりも大きな範囲に光を散らす曇り Glass のような LPF が装着されているものですが、これにより空間周波数が下げられることから限界解像度付近での Contrast は低下し、結果として解像度が低下します。

音声圧縮に於いては人間の聴覚で非常に良く聴こえる音域、即ち楽譜表記される範囲での低音域から高音域までの音域の中でも大きな音を主題音としてそれ以外の音、即ち非常に高速に変化する超高周波領域や僅かな変化量しか持たない微少な音、更には音色として検知できない極低周波領域の音を間引くことによって Data を少なくするのですが、人間の聴覚は大きな音の脇で鳴っている小さな音には気付きにくいという特性や、主音周波数のちょうど 2 倍や 1/2 となる高調波及び低調波音の混合比が変化しても気付きにくいという特性も利用した心理的な間引き法も用いられます。

このため音楽信号の圧縮には Band Pass Filter によって全周波数帯域を 10 Band (帯域) とか 20 Band などに分割し、主音となる最も耳に付き易い周波数帯域の大きな音に対して他の帯域での解像度を引き下げることによって Data を少なくしています。

例えば 500Hz~1kHz の帯域で主音が鳴っている時、人間の耳はこの音に神経を集中させることから、この帯域での解像度は 10bit (60dB 1024 段階) ぐらいの Dynamic Range が欲しいところですが、倍音となる 1kHz~2kHz の音や 4 倍音となる 2kHz~4kHz の音は音量を大きく引き下げるわけには行かないものの、検知精度は同じ 60dB の Dynamic Range でも 10bit=1024 段階で検波せずに 8bit=256 段階や 6bit=64 段階の粗い精度で表現しても大きな音質劣化には感じないのです。

「500Hz~1kHz の帯域で主音が鳴っている時は 1kHz~2kHz を 8bit で表すが 1bit 当たりの変化率は 1:2 ではなく 1:4 とする」「1kHz~2kHz の帯域で主音が鳴っている時は 2kHz~4kHz を 6bit で表すが 1bit 当たりの変化率は 1:8 とする」といったように予め処理の方法を Algorithm で規定しておけば異なる周波数帯域に主音が移動しても Smooth に処理を移行させることができるわけです。

「大きな音が鳴っている時には同時に鳴っている小さな音に気付きにくい」という現象は車の Headlight からの光を浴びると車の Driver や車の後方が見えなくなる Halation 現象のようなもので、Audio 用語では Masking と呼びます。

Masking を利用した音声圧縮は上記のように細かい周波数帯域に分割して各帯域での音に対する他の帯域に於ける音の可聴性を Masking 閾値に基づいて演算し、各帯域への Bit 数割り当て量を変化させます。・・・映像で言えば空間周波数を減じて Dither Noise で補完させる MPEG1 (Motion JPEG) みたいなものですね。

他の圧縮 Algorithm としては、人の声などの音声は一定の音域や音量で継続的に鳴り続けている母音を歯擦音や破裂音などの Noise で遮断することによって形作られているという特性から、初めの視察音や破裂音とそれに続く母音部分のみを Data として記録し、その後に持続する母音の伸びは直前の音との波形変化が殆ど無いことから「連続」という Flag を立てておくか、差分 Data だけを記録するという LPC (Linear Predictive Coding:線形予測符号) 法と呼ばれる Algorithm も併用されます。・・・映像で言えば差分記録の MPEG4 みたいなものですね。

>映像ですと動きが多かったり、色数が多かったり、といったところで「データの大きさ」が理解できるのですが、音声についてはどういう場合にデータが大きくなるんでしょうか?

同じです。

全周波数帯域に渡って様々な楽器音が互いにどれが主音なのかはっきりしないほど密集し、しかも Attack の強い音や音色変化の大きな音を出す楽器が同時に鳴っているような状態では周波数帯域分割による Masking 圧縮も波形変化率検出による LPC 圧縮もし辛く、無理に圧縮率を高めると音質が劣化します。

具体的には、意外にも様々な楽器が一斉に鳴るような Full Orchestra Classic 曲よりも、低域でうねるように大きな音量変化を作り出す Bass 音と Attack が大きく音量変化率の激しい超高域楽器である Cymbal 音が激しく重なり合う中で、Vocal が主音なのか管楽器音や Guitar 音が主音なのかよく判らないほど全ての楽器音や Vocal 音が一斉に鳴っている時の Pops (Jazz/Rock/Soul など) 曲の方が互いの音色が大きく異なるだけに圧縮が難しく、無理に圧縮するとどれかの音に大きな皺寄せが生じます。

128kbps ぐらいまでの圧縮であれば一聴しただけでは判らないものの、Tone Controller で Bass や Treble を Boost/Cut しようにも思うように Boost/Cut できずに周波数 Balance が崩れてしまうのも、Bass/Treble Tone Controller で調整する周波数帯域の Data が間引かれて Linear な調整が行えなくなっているからです。

>例えば重低音が大きいメタル曲と、高音域のソプラノオペラ曲では「データの大きさ」としての違いは、どのように出てくるんでしょうか?

一般に低音域は単位時間当たりの音量変化率が小さいために圧縮し易く、高音域は逆に圧縮しにくいと言えますが、楽譜表記域外の音階音は音色変化や音量変化が判りにくいとものですので検波幅を粗くすることによって大きく圧縮することができます。

Digital Camera の Image Sensor も Bayer Matrix 配列方式では RGBG と言うように Green の Photo Sensor が Red や Blue の Photo Sensor の 2 倍配置されているのも人間の視覚が中間周波数帯域である Green 領域の光量変化に敏感である一方で紫外線や赤外線といった可視光線外に向かう Red や Blue 領域での光量変化には鈍感であることから Green 領域の Bit 数を多く配分しているのです。

>また、ボーカルの男声と女声ではデータの大きさが違ったりしますか?

男声と女声と言うよりも、その人の声質によって大きく変わります。

Solo Vocal の部分では、いわゆる Husky な声を出す人の Data は LPC 圧縮しくい音声 Data となるでしょうし、逆に Opera 歌手のような発声法を採る人の Data は LPC 圧縮し易いと言えるでしょう。


このように音の状態によって高圧縮しても音質劣化が殆ど感じられない部分もあれば、高圧縮すると音質劣化を感じ易い音色の部分もありますので、圧縮方式には Data Rate は変化しないことから限られた記録容量に対する記録時間の予測は確実に行えるものの音質は変化する固定 Bit Rate と、Data Rate が変化することから最終的に総容量がどれほどになるか推測し辛いものの聴感上の心理的な音質変化は極めて少ない可変 Bit Rate の方式があるわけです。

素敵な Audio Life を(^_^)/

投稿日時 - 2013-11-07 16:09:16

お礼

頭がパンクしましたのでBAとさせて頂きます。

投稿日時 - 2013-11-09 09:38:57

ANo.2

このQ&Aは役に立ちましたか?

7人が「このQ&Aが役に立った」と投票しています

回答(2)

ANo.1

>音声についてはどういう場合にデータが大きくなるんでしょうか?

単位時間当たりの信号の変化が大きいものほど、大きなデータ量になります。

基本的に、音叉の音のように単純な音であれば、
デジタル化する場合
低い音の方が単位時間あたりのデータ量は少なくなります。つまり必要なビットレートが低くてすみます。
高音は逆です。
もちろん、大きな音の方がデータ量が大きくなります。

MP3とかAACとか音声を圧縮する場合は、
音が重なった状態で複雑な処理をしますので、上記の基本的なことだけで話はすみません。

投稿日時 - 2013-11-07 13:23:22

あなたにオススメの質問