なぜビデオ会議の音質は悪いのか

 最も基本的なレベルから話すと、マイクの音量が個人によって異なるため、それぞれの音波を単純に1つのオーディオストリームにまとめることが難しい。そのため、プラットフォームによっては最も声の大きい人が勝つというスピーカーバイアスを引き起こすことになり、発表者のオーディオストリームだけが優先される。

 その結果として体験する会話の中断、繰り返し、混乱により、人々はビデオチャットでいつもとは異なるコミュニケーションの取り方をするようになる。これはテクニカルな問題であり、すべてが組み合わされた音波の間の「フェーズ」と呼ばれるものに起因している。

 これがどのように機能するかを説明しよう。完全に一致するように並んだ同じ周波数シグネチャの2つの音波のフェーズ差はゼロで、これは「同相」と呼ばれる。2人でまったく同じことをまったく同時に話す時のように、同相の音波が1つになると、音量が2倍になる。

 問題は、似たような周波数レンジの2つの音波の「位相がずれている」時に起きる。音波の位相が合わないと、お互いを打ち消し始めるのである。2つの音波が逆位相になる点まで達すると、完全に打ち消し合う。これを意図的に行っているのが、ノイズキャンセリングヘッドホンだ。

 位相の問題は、ほとんどのビデオ会議で、他の人たちが何を言っているか聞こえないという事態を引き起こす。会話の音波を1つにまとめると、音波の異なる部分が打ち消され、ランダムに音量が上がったり、音波サイクルの中で同相と逆位相の間に騒々しい周波数が入り込んだりするからだ。

 さらに別の問題もある。ビデオ会議のプラットフォームは職場での会議向けにつくられており、周囲が静かであることが想定されている(ただ、どれだけ理想的な環境でも、サービスに欠点はつきものだ)。一緒にコーヒーを飲んだり、おしゃべりを交わしたり、ダンスのレッスンに参加したりするように、ふだんは職場外で行うことをすべてバーチャルで行ったら、どうなるだろうか。

 典型的なビデオ会議のプラットフォームの場合、人々が話をしていない時に周波数の音量を下げるために音にフィルターをかける。これが前述した位相の問題と同時に起きるため、会話の明瞭度を落とす、あるいは完全に打ち消すことなく、環境音を現在のビデオチャットに入れるのは不可能であることを意味する。

 そのため、街中の交通音、コーヒーショップのBGMとして流れている大好きな90年代のヒップホップ、気分を高揚させる速いポップソングは、現実世界だけに存在するものとなる。これは残念なことである。環境音がなければ、会話が止まった時、気まずい沈黙に苦しむことになるからだ。

 しかし、このような限界に甘んじる必要はない。ビデオチャットのテクノロジーでは自然な会話のリズムや周囲の雰囲気に対処できないが、音楽やビデオゲームの世界では、もうずいぶん前からオーディオエンジニアリングが進化の焦点になってきた。