
スマホの通話音声が相手の声ではないと知っていた? 明日話したくなるIT小ネタ
2016/02/19 遠藤 政樹 今や当たり前のように使っているスマホや携帯電話だが、実は音声通話をする際に聞こえてくる声が、本人のものではないというのは知っていただろうか?
いやいや、そんなはずはない。きちんと目的の相手と話していると思うかもしれないが、よくよく聞いてみれば、どことなく本人とは少し違った感じに聞こえるなんてことはないだろうか?
◆スマホから聞こえる声は実は“ニセモノ”だった!?
筆者自身、そこまで深く考えたことはなかったのだが、よくよく思い返してみれば少しこもって聞こえたりするようなこともあるが、スマホを通した会話だからだと思っていた。
しかし、実はスマホや携帯電話から聞こえてくる声は、人工的に作られた合成音で、いってしまえば“ニセモノ”の声なのだ!
一概にニセモノといっても、そこはきちんと電話の話し手に一番似ている声を合成し再生しているため、パッと聞いただけでは判断はつかない。その証拠に、普段皆さんが電話をかけていて、「この声はニセモノだ!」と騒ぎ立てる人はいないはず。
◆通話音声が“ニセモノ”なのはデータ通信量が原因
どのようにして声を合成しているかも気になるが、それよりも合成音にしている理由を知りたい。調べていくと、通信するデータ量が関係していることがわかった。
通話音声はデジタル化されてモバイル回線で送信しているが、音声(アナログ音源)を忠実に高音質でデジタル化した場合、そのデータ量は膨大となり、とてもではないがモバイル通信では送信できなくなってしまう。
仮に通信しようとすると負荷がかなりかかることになり、万が一、災害や事故などが発生した際に回線が繋がりにくくなる……という危険性も考えられる。そうした理由から安定した通信を確保するため、データ量を小さくすることが必要となったのだ。
しかし、通話データを圧縮して小さくすると、音質が悪くなったり、聞き取りにくい通話になってしまうこともあり、そこで開発されたのが「CELP」という技術で、音声をデジタル信号化するための符号化方式が使われている。
◆データ量圧縮のためCELP技術でスマホの通話音声を合成
では、「CELP」とは、どんな技術なのだろうか?
人間が認識できる音の中から人間の声だけに着目した技術であり、声の特徴を除いた音韻情報だけをデータに変換することで、データ量を小さくしている。しかし、いくら小さくできたとしても、まったく違った声になってしまったら意味がない。
CELPでは音声を声の特徴と音韻情報に分類し、音韻情報だけをデータ化。そして声の特徴に関しては、数千種類の音が登録された音の辞書「コードブック」を使って、話し手と似たような音声を作り上げている。
聞き手側は音韻情報とコードブックで指定された番号をベースに、相手の声を合成し聞いていることになるのだ。
これはあくまでもデジタル回線での音声に限った話なので、アナログ電話は本人の声を忠実に再現している。気になった人は聞き比べてみるのも楽しいかもしれない。