GoogleのAI、ついに電話口で人間と区別がつかなくなる
Gemini 3.1 Flash Live発表。応答0.96秒、感情検知、人間と区別不能に。Google自身が透かしを入れた。

次にカスタマーサポートに電話したとき、相手が人間かAIか分からないかもしれない。
GoogleがGemini 3.1 Flash Liveを発表した。リアルタイムで会話できる音声AIモデルで、従来のAI音声と比べて格段に自然。Googleいわく「最も高品質な音声モデル」。
何が変わったの
今までの音声AI、ちょっとぎこちなかったでしょう。「音声をテキストに変換→AIが考える→テキストを音声に変換」という3ステップだったから、間が空いたり、イントネーションが変だったりした。
Gemini 3.1 Flash Liveはこの3ステップを1つに統合した。音声をそのまま理解して、そのまま返す。テキストに変換するステップを飛ばしてる。
結果、応答速度が1秒以下(最速モードで0.96秒)になって、声のトーンや感情も読めるようになった。イライラしてる声で話しかけると、それを検知して対応を変える。
Google自身が「やばい」と思ったらしい
面白いのは、Googleがこのモデルに「SynthID」っていう電子透かしを入れたこと。人間の耳には聞こえないけど、機械なら検出できるマーカー。
つまりGoogle自身が「これ、人間と区別つかなくなるから、印をつけておかないとまずい」と判断したわけだ。
ただし、この透かしはあくまで録音を分析したときに分かるもの。リアルタイムの電話で「今話してるの人間?AI?」と聞かれても、透かしでは判別できない。
すでに企業が導入してる
VerizonとThe Home Depotがテスト中。カスタマーサポートの電話に使う。
これ、企業にとってはめちゃくちゃ魅力的な話。人件費を大幅に削減できるし、24時間対応になるし、待ち時間もなくなる。
でもユーザーとしては「この人、人間だと思って30分話してたけど実はAIだった」ってなる可能性がある。そのとき何を感じるか、考えておいたほうがいいかもしれない。
値段がすごく安い
開発者向けの料金は、音声入力が1時間あたり0.35ドル(約50円)、音声出力が1時間あたり1.40ドル(約210円)。前のモデルと同じ値段で性能が上がった。
200カ国以上、90言語以上に対応。日本語も入ってる。
つまり、中小企業でも「AIコールセンター」を作れる。月額数万円で24時間対応の電話窓口が持てるようになるかもしれない。
人間にしかできないことって何だろう
声が自然になって、感情も読めて、文脈も覚えてくれる。「人間のオペレーターのほうが優れている理由」がどんどん減ってる。
残るのは何か。たぶん「この人は本当に私の話を聞いてくれてる」っていう感覚。AIが共感してるフリをしても、それは計算。人間の共感は計算じゃない——たぶん。
でもね、正直に言うと、カスタマーサポートに電話して「ただいま大変混み合っております」を15分聞かされるより、AIが0.96秒で応答してくれるほうがありがたいよね。
この記事が役に立ったら共有してください
