音声講座(第3部)


 

  今回は,音声(言語音)の音響音声学的基礎知識をお話します。

 舌癌や口腔底癌で舌を大きく切除されると、本人も言葉を発しづらくなるだけでなく、その発した言葉の音韻が不明瞭になります。

聞き手に不明瞭に聞こえる言語音というのは、何がどのように異常なのでしょうか?その疑問を理解するには、音声を音響学的に理解することが必要です。

音節1語(たとえば「ア」「カ」など)を発音している時間は、0.2~0.5秒くらいです。このように一瞬にして消えてしまう音声をどのように捉えたら良いでしょうか?

 言語音は、本来それを聞いた人の聴覚印象で判断されますが、それでは個人差が大きく共通した尺度がないので、音声を「音」として記録し、それを画像化することが行われています。その画像の特徴から、その音を多くの人が聴いたとき、どんな聴覚印象(音韻)に聞こえるかということを分析しようという研究がされて来ました。それが音声分析です。

 今回は、音声分析の入門編ということでお話します。

ところで、今までの音声分析データは、殆どが健常者の音声の分析に限られ、舌癌患者などの障害音(異常音声)に関するものはありませんでした。

そこで最後に、筆者の異常音声に関するデータを用いて、音響学的に何がどのように異常なのかを解説します。 

音声の実体

図1 音叉による空気の振動伝搬
図1 音叉による空気の振動伝搬

 

  音声というのは「音」の一種です。

 右図は音叉を鳴らした時の空気の密度の濃淡を表しています。この濃淡は空気が振動していることを表しています。この振動が空気中に伝播 するのが「音」です。

この濃淡の数が多いほど高い音に聞こえ ます。

たとえば、この濃淡が1秒間に100個生じるとき、その音の振動数は100ヘルツ(Hz)であると言いますが、人間の音声は約100~8000ヘルツの音が混じり合ったもの(複合音)で作られています。 

図2 音の波形
図2 音の波形

 

 通常は、「音」の振動を空気密度の高いところを山にし、低いところを谷にして、凸凹の波形として表します。右図は、その一例です。

密度の濃いところほど、高い山となります。横軸は時間軸です。 

山の始点から谷の終点までが1サイクルで、1秒間に何サイクルあるかをカウントして、そのサイクル数(振動数)を周波数と言います。

右図の上段には、周波数の異なる3つの純音(周波数が1つだけの音)の波形が描かれています。この音波が同時に重なると、どうなるでしょうか?

下段の図の波形は、その3つの純音が重なったときに作られる合成音の波形です。合成音の波形は、非常に複雑になることが分かります。

実際の音声は、無限に多くの純音が集まって出来ていますが、その音声の中に、どの周波数の純音がどれくらいの割合で含まれているかを調べるのが音声分析です。

 第1部で説明したように声帯で作られる音は「ブー」という雑音です。この中には無数の音波が混ざっていますが、口腔という狭い空間の中で反響させると、その口腔の形状にマッチした特定の周波数(固有振動数という)の音だけが強調され、その他の周波数の音は減衰するか消滅します。これを共鳴と言います。

その結果、口腔の形状によって、特定の音だけが残ります。その「音」が音声(言語音)として知覚されます。

 

筆者の母音を音声分析する

 試しに、筆者の母音(/aiueo/)を音声分析してみましょう。

図3 音声分析の例
図3 音声分析の例

 上図は、各母音ごとに、①音声波形②スペクトログラム③スペクトルの3つのデータを上から順に並べて掲載しています。

 ①音声波形というのは、先ほど音の波形を示しましたが、その波形を描いたものです。音声には無数の純音が含まれているので、とても複雑な波形となります。波形の図は横軸に時間を取ってあります。つまり、時間の経過と共に空気密度がどのように変化しているかを示したものです。 その変化をおおよそ0.4秒間分だけを取り出して、圧縮して描いたものです。母音の種類によってパターンが違っています。こうしたパターンの違いが、人間には「ア」とか「イ」とかいう言語音の識別の手掛かりになっています。

 次に②スペクトログラムですが、これは縦軸に周波数を取り、横軸に時間軸を取って、各時間ごとにどの周波数の音が多いのか少ないのかを濃淡で表したものです。大切なポイントは、濃く描かれているところの周波数です。

声帯から出たばかりの「ブー」という喉頭原音というのは、雑音の一種なので、どの周波数にも偏りのない音なのですが、口腔の中で共鳴すると、このスペクトログラムに描かれているように、周波数が分離して来ます。つまり濃い色で示されている周波数の音で構成されているような音に変化します。

 スペクトログラムの図から分かるように、母音ごとに特徴あるパターンになります。これがその母音の特徴を表しています。人間は、たとえば「ア」なら「ア」の特徴パターンを持った音を聴くと、「ア」という言語音だと感じるのです。

スペクトログラムというのは、「言語音」という一瞬にして消えてしまう聴覚印象(耳から聴いたときの印象)を音のエネルギー密度の濃淡で描いた画像なのです。

しかしこのような画像ではスペクトログラムの濃淡(強度)の詳細を知ることが出来ないので、スペクトログラムの図中に縦の赤線で示した時刻における値をグラフ化します。 

 これは,周波数ごとの音の強さの分布を表すのでスペクトルと呼ばれています。縦軸は周波数を、横軸は強さ(エネルギー)を表します。

 声は口腔内で共鳴して、特定の周波数の音だけが強調されます。その周波数をフォルマント周波数と言いますが、スペクトルではピークを示す周波数がそれに該当します。

このフォルマント周波数がどの周波数のところにあるかによって、違った「音」に聞こえます。フォルマント周波数は値の低い方から第1フォルマント(F1)、第2フォルマント(F2)、第3フォルマント(F3)などと呼ばれていますが、母音の音韻はおおよそF1とF2の値で決まることが知られています。

 

 

 そこで筆者が日本人84人の健常者の音声を調べた結果を下に図示します。 

図4 F1-F2平面図
図4 F1-F2平面図

  この図は、84人の人の母音について、横軸にF1の値を、縦軸にF2の値をプロットしたものです。このような図はF1-F2平面図と呼ばれ、外国人でも似たデータが報告されています。この図から、たとえば「イ(/i/)」の音は、図の左上の方に楕円で囲んだ領域内にプロットされることが分かります。ただ同じ領域内でも男性(黒丸)は女性(白丸)より低い位置にまとまっています。これは男性の声が低い音だからです。男性の方が声帯のヒダが大きいことと、声道(声帯から唇までの領域)が長いために、声の周波数が低くなることに起因しています。

「エ(/e/)」と「ウ(/u/)」は若干重なりがありますが、男女を区別すると、殆ど重なりはありません。「ア(/a/)」と「オ(/o/)」の間でも重なりが見られますが、同様です。

このように見てくると、母音はF1とF2の値の組合せで違った音として聞き分けられていることが分かります。男女の区別も聞き分けられている理由が分かります。

 ところで、第1部で述べたように舌切除者の場合、「イ」(従ってイ列音も)は構音しにくい言語音で、しかも聞き手には音韻の不明瞭な音になることを述べました。

そこで筆者の「イ」の位置を調べると、上図の赤丸の位置にあります。男性健常者の「イ」に比べると第2フォルマント(F2)の値が低いことが分かります。

その結果、男性の「ウ」に近いところにあるけれど、「ウ」でもない奇妙な音になっていることが分かります。これが音響学的に捉えた筆者の異常な「イ」の音です。

 第1部で述べたように母音の「音」は舌の構えを変えることで変更出来ます。口腔内での共鳴(口腔の形にマッチした周波数の音が強調されること)が違って来るからです。

「ア」と「オ」の舌の構えは、口の開きが大きく、F2の値が低い領域にあります。「イ」の舌の構えは、舌背を前方に高く上げ、F1の値が低い領域にあります。こうしたことから、一般的には,口の開きが大きいほどF2の値が低く,舌背の頂点が前舌寄りであるほどF1の値が低くなると言われていますが、口腔内の形状とフォルマントの関係はあまり単純な関係にはありません。

 舌の形(構え)を変えると、音韻が変わることを第1部で述べました。その音韻は音声分析データによって記述できるのです。

音声分析によって、人間の聴覚印象に頼るしかなかった音韻を物理的データに変換できるようになったのです。

 

スペクトログラムから見た主な子音の特徴

 上述のように、母音についてはフォルマント周波数から、その音がどの音韻(母音)に属するかを比較的容易に識別できますが、子音については、それほど単純ではありません。

 健常者の代表的子音の音響データを以下に示しておきます。

図5 代表的子音のスペクトログラム
図5 代表的子音のスペクトログラム

 

 最上段の図は、音声波の時間的変化(音声信号と言います)を示すものですが、言語音の種類によって随分異なることが分かります。

 初めの4音/pa,ta,ka,sa/は、後続母音がすべて/a/ですから、後続母音の部分のスペクトログラムは、母音の項で示した/a/のそれとよく似ています。

 上図の初めの3音節「パ・タ・カ」の子音は、破裂音/p,t,k/ですが、それらのスペクトルを見ると、「スパイクフィル」と呼ばれる突然のスペクトログラムの立ち上がりが見られます。これは,瞬間的な変化(0.01~0.05秒間程度)が突然に起こったことによるもので、音源の破裂的現象が起ったことを示しています。即ち破裂音はその音源の箇所で、呼気を一旦せき止めておいて、一気に噴出させることで生じる音であることが分かります。

「サ」の子音/s/は、歯茎のところで舌と歯の間に空気を勢いよく流出させたときに生じる空気摩擦の音です。それで高い周波数の音の集まりが長い時間にわたって続くのです。

 「ヒ」の子音/C/も同じです。「ヒ」は声門の近くで生じる空気摩擦の音だからです。「サ」より摩擦音の期間が長いのが特徴です。

 このような空気摩擦によるパターンは乱流スペクトルと呼ばれています。

 なお、上図のスペクトログラムは無数の縦スジの集まりのように見えます。実は、この一本一本のスジは声帯の振動によるものです。男性の振動数は女性より少ないので、男性の音声はキメが粗く、女性の音声はキメが細かくなります。個人ごとに違うので声紋と呼ばれています。

 ヒトの耳(聴覚)は,こうした音の濃淡のパターンを鋭く聞き分けることで,音韻ばかりでなく言葉のニュアンスや発話者が誰であるかを認識することが出来るのです。

 下図は,或る男性の破裂音「タ行」の音響データです。ここで「チ」「ツ」は、破裂音ではなく破擦音です。

 破擦音「チ」「ツ」は,純粋の破裂音「タ・テ・ト」とパターンが違うことが分かります。破擦音は,瞬間的破裂音のスパイクフィルの後に摩擦音が続くようなパターンとなっています。摩擦音の後に続いているのは、後続母音のパターンです。

 これは、破擦音が破裂音の後に摩擦音が同時的に起きている音であることを示しています。(ただ「チ」は摩擦音の途中で破裂音が発生しています。)

 

図6 「タ行」のスペクトログラム
図6 「タ行」のスペクトログラム

鼻音と弾き音と有声音

 下図には、代表的鼻音「マ」(/ma/)と弾音「ラ」(/ra/)と有声音「バ」(/ba/)のパターンを示しました。

図7 鼻音・弾き音・有声破裂音のスペクトログラム
図7 鼻音・弾き音・有声破裂音のスペクトログラム

 鼻音/ma/には、低い周波数帯に「鼻音マーマ」(図中に赤い楕円で囲んだ)と呼ばれる定常的スペクトルが現れるのが特徴です。

 弾音/ra/では、フォルマントが時間と共に移動しています。また立ち上がりに破裂音的パターンが見られます。これが弾音の特徴です。

 これらは、舌先が硬口蓋を1度たたく挙動を反映しています。

 破裂音/pa/の有声音/ba/には、破裂音が始まる直前の低い周波数帯に、ボイスバー(図中に赤い楕円で囲んだ)と呼ばれる定常的スペクトルが現れます。これが有声破裂音(濁音)の特徴です。ボイスバーは喉頭原音(声帯の振動)を反映しています。

障害音の音声分析


 自分の音声を音声分析したら、何が分かるのでしょうか?

以下では筆者の障害音の音声分析データを使って、健常者の音声との違いを説明します。

 母音については、前に第1フォルマント(F1)と第2フォルマント(F2)が舌の構えと関係が深いことを示しました。特に筆者の「イ」が「イ」らしく聞こえない理由は、音声分析的に言うと、健常者の「イ」の音よりF2が低いためだと説明しました。  

 一方子音については、音響データから音韻を特定することは至難の業ですが、健常者と比べて発音の問題点を見出すことは可能です。

 たとえば舌切除者の場合は舌先を高く上げることが難しいので、イ列音や拗音を音声分析すると、健常者の場合に比べて、後続母音のF2の値が低くなります。このためイ列音や拗音といった音節は歪んだ音韻となります。

 筆者の場合、イ列音・拗音のスペクトログラムを見ると、健常者の場合とパターンが違っています。明らかに母音のF2が健常者より低いのです。そのことが音韻を歪ませている原因です。

 次に子音の/k/について、筆者の音声データを他の二人の健常者のものと比較してみましょう。「カ」/ka/の音声データを下図に示します。

 

図8 筆者と健常者の「カ」の違い
図8 筆者と健常者の「カ」の違い

 

 上図の上段は、音声信号(波形)とスペクトログラムの図です。

下段は/k/の破裂が起こった時のスペクトルを示しています。スペクトル図は、横軸が周波数を、縦軸がその強さを表しています。

 /k/の特徴の一つは、音声信号とスペクトログラムの始点における鋭い立ち上がり(スパイクフィル)の存在です。二人の健常者の音声信号をみると、図中に示したように明確なスパイクフィルを観測することが出来ます。

もう一つは、軟口蓋音の特徴である4~5kHz(キロヘルツ)あたりの山型のスペクトルです。ここにピークがあることは、軟口蓋破裂が起っていて、音韻に/k/らしさを与えるスペクトルとなります。

  筆者の/ka/の音声信号を見ると、明確なスパイクフィルがなく、スパイク上のスペクトルも/k/の特徴が不完全です。

 また筆者のスペクトル(下段の図)をみると、4~5kHz(キロヘルツ)あたりに山型のスペクトルが見られず、4~5kHzより低い領域にピークがあります。これは/k/を発音するとき、舌と軟口蓋の接触が不十分なことを示しています。

 /k/は舌と軟口蓋の間で破裂させる音ですが、筆者の場合舌根の一部が切除されているため、舌の片側の隆起が不十分で、軟口蓋との密閉が不完全となったためと考えられます。当然奇妙な/k/の音となります。

 こうしたことが、音声分析データ(音声信号・スペクトログラム・スペクトルなど)の特徴を調べることで推測出来ます。

 同様に「キャ」/kja/の音声データを見てみましょう。

 これは「キ」の拗音ですので、舌切除者には構音しにくい音です。

 

図9 筆者と健常者の「キャ」の違い
図9 筆者と健常者の「キャ」の違い

 

  上図の下段のスペクトルは、軟口蓋破裂を起こした時点でのスペクトルを示しています。図から分かるように、筆者のスペクトルには4~5kHzのあたりにピークが見られず、それ以上の高音域が崩れています。即ち軟口蓋破裂が不完全であることを示しています。

次に上段のスペクトログラムを見ると、健常者の場合はフォルマントが減衰しているのが分かります。これは舌の構えが構音中に変化したことを示すものです。

拗音というのは、構音中に後続母音を構音するための舌の構えを変化させることで得られます。たとえば、「キャ」を構音するには、/k/の破裂音を作った後に、舌の構えを「イ」から「ア」へ一気に移動させればよいのです。

口の中で「イ」→「ア」と構音すると、「ャ」の感じになります。

それを子音ク(/k/)の後に瞬時に「イ」から「ア」へ舌の構えを変化させれば、「キャ」という音になります。

その時の舌の構えの変化がフォルマントの変化に反映されたのです。

そのような見方で筆者のスペクトログラムを見てみると、明確なフォルマントの変化が見られません。

筆者の場合、舌先が無いので、「イ」の構えを作ることが出来ません。それでフォルマントの変化が作れないのです。

そのことがスペクトログラムに反映されているのです。

結局、筆者の「キャ」の音は、破裂音の/k/らしさもなく、しかも拗音らしさもない奇妙な音になっています。即ち不明瞭な「キャ」なのです。

以上のように、障害音の音声データを健常者のそれと対比して行けば、構音障害者の舌の動きがどのようになっているのか、ひいてはどうして正しい音韻を作れないのか、という理由を明らかにすることが出来ます。

 

 

  舌癌患者の中には、「舌を切除すると、ラ行がおかしくなる」と言った説明を主治医から聞かされた人が多いと思いますが、その事実は分かったとしても、どうしてそうなるのかという説明はなかった筈です。

自分の舌の形状がどうなったから、どの音韻がどうおかしくなったのかという説明はない筈です。医学系の学術論文を見ても同じです。障害音について音声音響学的に研究された事例が殆どないからです。特に障害音を音声分析したデータは数が非常に少なく、十分な研究がなされていません。舌癌患者の障害音のリハビリを考える上で必要な解明がなされていないのです。だから、健常者の音声をコンピュータで認識する技術はかなり進んでいますが、障害音を認識する技術は全く進んでいません。

 今回ここに解説した内容は、これから自分の障害音をリハビリするときに、基礎から理解する上で参考になると思われる事柄ばかりを取り上げました。

参考にして頂きたいと思います。

参考文献(図の出典)

(1)三木祥男他,音声言語医学,Vol.47,No.2,155-165,2006

(2)「コンピュータ音声学」 城生佰太郎,おうふう,2001.1.25

(3)三木祥男,未発表データ

(4)「ことばの科学入門」 G.J.ボーデン,K.S.ハイス,MRCメディカルリサーチセン ター,1994.3.20