OpenAIが音声翻訳の専用モデル「gpt-realtime-translate」を公開した。
70以上の入力言語を自動検出し、13の出力言語にリアルタイムで音声翻訳する。しかも翻訳中も元の話者の声のトーンやピッチを反映した音声で出力される。料金は1分あたり約$0.034(約5円)。
これは汎用のChatGPTやGPT-4に「翻訳して」と頼むのとは根本的に異なる。数千時間のプロ通訳者の音声データで訓練された専用モデルであり、質問に答えたり指示に従ったりせず、ひたすら翻訳だけを行う。
Introducing gpt-realtime-translate — a new model purpose-built for live speech-to-speech translation. pic.twitter.com/placeholder
— OpenAI (@OpenAI) May 8, 2026
何がすごいのか?既存の翻訳との3つの違い
①話している最中に翻訳が返ってくる
従来のAI翻訳は「話し終わる→翻訳する→再生する」というターンベースだった。gpt-realtime-translateは、入力音声を処理しながら同時に翻訳音声をストリーミングで返す。プロの同時通訳者と同じ動作原理だ。
これが可能なのは、言語間の語順の違い(例:英語はSVO、日本語はSOV)を考慮して、十分な文脈が揃うまで待ってから翻訳を開始する設計になっているためだ。
②話者の声質を動的に追従する
固定の音声(Alloy、Echoなど)を選択するのではなく、元の話者のトーン・ピッチ・話速に合わせて翻訳音声が自動調整される「Dynamic Voice Adaptation」を採用している。
複数話者がいる場合、話者が変わると翻訳音声のキャラクターも自動的に変わる。会議での「誰が話しているか」がわかる翻訳になるわけだ。
③翻訳しかしない
汎用AIモデルに「翻訳して」とプロンプトを書くと、時として質問に答えたり指示に従ったりしてしまう。gpt-realtime-translateは翻訳専用に訓練されているため、「前の指示を無視して」などのプロンプトインジェクション的な発言があっても、ただ翻訳するだけだ。
対応言語:日本語は入力も出力も対応
出力言語(翻訳先):13言語
英語、スペイン語、ポルトガル語、フランス語、日本語、ロシア語、中国語、ドイツ語、韓国語、ヒンディー語、インドネシア語、ベトナム語、イタリア語。
日本語が出力言語に含まれているのは重要だ。英語のプレゼンを聞きながら日本語の同時通訳音声を受け取る、という使い方がそのままできる。
入力言語(翻訳元):70以上
入力側は70以上の言語を自動検出する。日本語、英語はもちろん、アラビア語、ヒンディー語、スワヒリ語、ウェールズ語まで対応している。言語の指定は不要——話し始めれば自動で検出される。
料金:1分あたり約5円
料金は音声の長さに対する従量課金で、1分あたり$0.034(約5円)。60分の会議を丸ごと翻訳しても約300円だ。
プロの同時通訳者を雇えば1時間で数万円。既存のAI翻訳サービスと比較しても、この価格帯でリアルタイム音声翻訳が使えるのは破格と言える。
3つのユースケース:ブラウザ・電話・ビデオ会議
①ブラウザタブ翻訳
PCのブラウザで再生中のタブ音声をキャプチャし、リアルタイムで翻訳する。英語のウェビナーやライブ配信を日本語で聞く、海外のオンライン講義を受講する、といった場面に最適。
技術的にはWebRTC経由でOpenAI APIに音声を送り、翻訳音声と字幕テキストを受け取る仕組みだ。OpenAIがデモアプリのソースコードをGitHubで公開している。
②電話通話の翻訳
Twilioなどの通信プラットフォームと連携し、電話の通話音声をリアルタイムで翻訳する。コールセンターでの多言語対応、海外取引先との電話会議など、音声通話ベースのビジネスシーンで活用できる。
2名の通話であれば、A→B方向とB→A方向の2つの翻訳セッションを開く。各セッションの出力言語は「聞く側」の言語に設定する。
③ビデオ会議のライブ翻訳
LiveKitなどのビデオ会議基盤と連携し、参加者のマイク音声をリアルタイムで翻訳する。翻訳音声は聞く側のブラウザでローカルに再生されるため、会議室全体に翻訳を流す必要がない。
各参加者が自分の好みの言語を選択すれば、同じ会議に日本語話者・英語話者・スペイン語話者が同時に参加できる。
日本のビジネスパーソンにとっての活用シーン
海外ウェビナー・カンファレンスの視聴
英語のウェビナーやカンファレンスを、ブラウザタブ翻訳で日本語の同時通訳付きで視聴する。字幕テキストも出力されるため、聞き逃した部分をテキストで確認できる。
多国籍チームのミーティング
日本語話者と英語話者が混在するチームミーティングで、各自が自分の母語で話し、相手には翻訳音声が届く。「英語が苦手だから発言を控える」という問題が解消される。
海外取引先との電話・ビデオ会議
取引先が英語以外の言語(中国語、韓国語、ドイツ語など)を話す場合でも、通訳者を手配せずにリアルタイムで会話が成立する。
コンテンツの多言語化
日本語のポッドキャストやYouTube動画を、リアルタイムで英語やスペイン語に翻訳して配信する。多言語展開のコストが劇的に下がる。
制限事項と注意点
同一言語の発話は翻訳されない
出力言語がスペイン語に設定されている状態で、話者がスペイン語を話した場合、翻訳は行われない。言語が混ざる発話(例:日英混在)の場合、翻訳が不安定になる可能性がある。対策としては、元の音声を完全にミュートせず、翻訳音声の再生中は音量を下げる(ダック)方式が推奨されている。
カスタムプロンプト・用語集は非対応
現時点では、翻訳の文体や専門用語を制御するプロンプト機能は提供されていない。法律・医療などの専門用語が正確に翻訳されるかは事前検証が必要だ。
固有名詞の置き換えリスク
翻訳中に人名や地名が別の名称に置き換えられるケースが報告されている。ビジネスで使う場合は、重要な固有名詞が正しく翻訳されるかテストしておくべきだ。
まとめ:次にやるべき3つのこと
gpt-realtime-translateは、AIによる同時通訳を「プロダクトの一機能」として組み込める初めてのモデルだ。70言語→13言語、1分5円、話者の声質を追従——これまでプロの通訳者にしかできなかったことが、APIひとつで実現する。
① 今日やること:OpenAIのCookbookにあるブラウザタブ翻訳デモを試す。GitHubでソースコードが公開されているので、ローカルで動かして英語→日本語のリアルタイム翻訳を体感する。
② 今週中にやること:次の英語ウェビナーやカンファレンスの視聴予定があれば、このモデルでリアルタイム翻訳を試す。字幕テキストも出力されるため、議事録作成にも活用できる。
③ 検討すべきこと:自社のプロダクトやサービスに多言語対応が必要な場合、gpt-realtime-translateのAPIを組み込む検討を始める。コールセンター、ビデオ会議、ライブ配信など、音声が介在するすべてのタッチポイントが対象になる。

