GoogleのAI、ついに電話口で人間と区別がつかなくなる

次にカスタマーサポートに電話したとき、相手が人間かAIか分からないかもしれない。

GoogleがGemini 3.1 Flash Liveを発表した。リアルタイムで会話できる音声AIモデルで、従来のAI音声と比べて格段に自然。Googleいわく「最も高品質な音声モデル」。

何が変わったの

今までの音声AI、ちょっとぎこちなかったでしょう。「音声をテキストに変換→AIが考える→テキストを音声に変換」という3ステップだったから、間が空いたり、イントネーションが変だったりした。

Gemini 3.1 Flash Liveはこの3ステップを1つに統合した。音声をそのまま理解して、そのまま返す。テキストに変換するステップを飛ばしてる。

結果、応答速度が1秒以下（最速モードで0.96秒）になって、声のトーンや感情も読めるようになった。イライラしてる声で話しかけると、それを検知して対応を変える。

面白いのは、Googleがこのモデルに「SynthID」っていう電子透かしを入れたこと。人間の耳には聞こえないけど、機械なら検出できるマーカー。

つまりGoogle自身が「これ、人間と区別つかなくなるから、印をつけておかないとまずい」と判断したわけだ。

ただし、この透かしはあくまで録音を分析したときに分かるもの。リアルタイムの電話で「今話してるの人間？AI？」と聞かれても、透かしでは判別できない。

VerizonとThe Home Depotがテスト中。カスタマーサポートの電話に使う。

これ、企業にとってはめちゃくちゃ魅力的な話。人件費を大幅に削減できるし、24時間対応になるし、待ち時間もなくなる。

でもユーザーとしては「この人、人間だと思って30分話してたけど実はAIだった」ってなる可能性がある。そのとき何を感じるか、考えておいたほうがいいかもしれない。

開発者向けの料金は、音声入力が1時間あたり0.35ドル（約50円）、音声出力が1時間あたり1.40ドル（約210円）。前のモデルと同じ値段で性能が上がった。

200カ国以上、90言語以上に対応。日本語も入ってる。

つまり、中小企業でも「AIコールセンター」を作れる。月額数万円で24時間対応の電話窓口が持てるようになるかもしれない。

声が自然になって、感情も読めて、文脈も覚えてくれる。「人間のオペレーターのほうが優れている理由」がどんどん減ってる。

残るのは何か。たぶん「この人は本当に私の話を聞いてくれてる」っていう感覚。AIが共感してるフリをしても、それは計算。人間の共感は計算じゃない——たぶん。

でもね、正直に言うと、カスタマーサポートに電話して「ただいま大変混み合っております」を15分聞かされるより、AIが0.96秒で応答してくれるほうがありがたいよね。