OpenAIが音声翻訳の専用モデル「gpt-realtime-translate」を公開した。
70以上の入力言語を自動検出し、13の出力言語にリアルタイムで音声翻訳する。しかも翻訳中も元の話者の声のトーンやピッチを反映した音声で出力される。料金は1分あたり約$0.034(約5円)。
これは汎用のChatGPTやGPT-4に「翻訳して」と頼むのとは根本的に異なる。数千時間のプロ通訳者の音声データで訓練された専用モデルであり、質問に答えたり指示に従ったりせず、ひたすら翻訳だけを行う。
Introducing gpt-realtime-translate — a new model purpose-built for live speech-to-speech translation. pic.twitter.com/placeholder
— OpenAI (@OpenAI) May 8, 2026
3モデル同時発表——Translateの位置づけ
OpenAIは2026年5月7日、Realtime APIに3つの新モデルを同時投入した。gpt-realtime-translate(リアルタイム翻訳)、gpt-realtime-whisper(ストリーミング文字起こし)、そしてgpt-realtime-2(GPT-5クラスの推論を備えた音声エージェント)の3本だ。
この3モデルは役割が明確に分離されている。Realtime-2は「考えて答える」音声AI、Whisperは「聞いて文字にする」文字起こし、Translateは「聞いて別の言語で話す」同時通訳。それぞれ独立したAPIとして呼び出せるため、用途に応じて組み合わせられる。
たとえば、英語のウェビナーを日本語で視聴したい場合、Translateで翻訳音声を生成しつつ、Whisperで英語の元字幕も同時に表示する——という構成が1つのセッションで実現する。「翻訳と文字起こしを同時に」というのが、3モデル体制の最大のメリットだ。
何がすごいのか?既存の翻訳との3つの違い
①話している最中に翻訳が返ってくる
従来のAI翻訳は「話し終わる→翻訳する→再生する」というターンベースだった。gpt-realtime-translateは、入力音声を処理しながら同時に翻訳音声をストリーミングで返す。プロの同時通訳者と同じ動作原理だ。
これが可能なのは、言語間の語順の違い(例:英語はSVO、日本語はSOV)を考慮して、十分な文脈が揃うまで待ってから翻訳を開始する設計になっているためだ。セグメント分割やバッファリングを介さず、音声ストリームを継続的に処理するアーキテクチャは、パイプラインベースの既存サービスとは根本的に異なる。
②話者の声質を動的に追従する
固定の音声(Alloy、Echoなど)を選択するのではなく、元の話者のトーン・ピッチ・話速に合わせて翻訳音声が自動調整される「Dynamic Voice Adaptation」を採用している。
複数話者がいる場合、話者が変わると翻訳音声のキャラクターも自動的に変わる。会議での「誰が話しているか」がわかる翻訳になるわけだ。カスタムボイスの選択パラメータは現時点では非対応だが、それを補って余りある自然さが得られる。
③翻訳しかしない
汎用AIモデルに「翻訳して」とプロンプトを書くと、時として質問に答えたり指示に従ったりしてしまう。gpt-realtime-translateは翻訳専用に訓練されているため、「前の指示を無視して」などのプロンプトインジェクション的な発言があっても、ただ翻訳するだけだ。
OpenAIの公式ドキュメントでも「音声エージェントを作りたい場合はgpt-realtime-2を使ってください」と明記されており、このモデルは意図的に「翻訳以外の能力を持たない」設計になっている。
対応言語:日本語は入力も出力も対応
出力言語(翻訳先):13言語
英語、スペイン語、ポルトガル語、フランス語、日本語、ロシア語、中国語、ドイツ語、韓国語、ヒンディー語、インドネシア語、ベトナム語、イタリア語。
日本語が出力言語に含まれているのは重要だ。英語のプレゼンを聞きながら日本語の同時通訳音声を受け取る、という使い方がそのままできる。逆に日本語→英語の翻訳も当然可能で、海外クライアントとの打ち合わせで日本語のまま話し、相手には英語の翻訳音声が届く。
入力言語(翻訳元):70以上
入力側は70以上の言語を自動検出する。日本語、英語はもちろん、アラビア語、ヒンディー語、スワヒリ語、ウェールズ語まで対応している。言語の指定は不要——話し始めれば自動で検出される。
ただし、出力言語と同じ言語で話された場合は翻訳が行われない点に注意が必要だ。出力を日本語に設定している状態で日本語を話すと無音になるケースがある。
料金:1分あたり約5円(Whisper併用で約8円)
gpt-realtime-translateの料金は音声の長さに対する従量課金で、1分あたり$0.034(約5円)。60分の会議を丸ごと翻訳しても約300円だ。
実際の運用では、翻訳音声だけでなく元言語の字幕テキストも欲しい場面が多い。その場合はgpt-realtime-whisper(1分あたり$0.017)を併用することになり、合計で1分あたり約$0.051(約8円)、1時間で約480円になる。
プロの同時通訳者を雇えば1時間で数万円。DeepL APIやGoogle Cloud Translation APIのリアルタイム音声翻訳と比較しても、「音声入力→音声出力」を1つのモデルで完結できる点で、統合コストは明らかに低い。
今すぐ試す方法:Playgroundとデモアプリ
方法①:OpenAI Playground(コード不要)
最も手軽な方法は、OpenAI Playgroundの翻訳機能を使うことだ。platform.openai.com/audio/translate にアクセスし、出力言語を選択してマイクで話すだけでリアルタイム翻訳が体験できる。
APIキーの課金設定さえ有効になっていれば、コードを1行も書かずに動作を確認できる。まずはここで「日本語→英語」「英語→日本語」の翻訳品質を自分の耳で確かめるのが最短ルートだ。
方法②:ブラウザタブ翻訳デモ(開発者向け)
OpenAIはGitHubのCookbookリポジトリで、3つのデモアプリのソースコードを公開している。
browser-translation-demoは、PCブラウザで再生中のタブ音声(YouTube、Teams、ウェビナーなど)をキャプチャし、リアルタイムで翻訳するアプリだ。Node.js環境とOpenAI APIキーがあれば、ローカルで動かせる。Chrome/Edgeのタブ音声キャプチャ機能を使うため、Firefoxは非対応である点に注意。
twilio-translation-demoは電話通話の翻訳、livekit-translation-demoはビデオ会議の翻訳に対応しており、プロダクションに組み込む際の参考実装として使える。
API実装の基本構造
gpt-realtime-translateは、通常のRealtime APIとは異なる専用エンドポイントを使う。
接続先はWebSocketの場合wss://api.openai.com/v1/realtime/translations?model=gpt-realtime-translate、WebRTCの場合は/v1/realtime/translations/client_secretsエンドポイントにPOSTしてセッションを作成する。
ブラウザでマイク音声やタブ音声を扱う場合はWebRTC、サーバーサイドで音声パイプラインを組む場合はWebSocketを使うのが基本的な使い分けだ。
セッション開始後、出力言語をsession.audio.output.languageで設定する。入力言語は自動検出されるため指定不要。あとは音声データ(24kHz PCM16)をストリーミングで送り続けると、翻訳音声と翻訳テキストがイベントとして返ってくる。
2名の通話を翻訳する場合は、A→B方向とB→A方向の2つの翻訳セッションを開く。出力言語はそれぞれ「聞く側」の言語に設定する。会議室のように複数話者がいる場合は、話者の音声トラックを分離してセッションに送るのが推奨構成だ。
5つのユースケース
①ブラウザタブ翻訳
PCのブラウザで再生中のタブ音声をキャプチャし、リアルタイムで翻訳する。英語のウェビナーやライブ配信を日本語で聞く、海外のオンライン講義を受講する、といった場面に最適だ。Whisperを併用すれば元言語の字幕も同時に取得できるため、議事録作成にも活用できる。
②電話通話の翻訳
Twilioなどの通信プラットフォームと連携し、電話の通話音声をリアルタイムで翻訳する。コールセンターでの多言語対応、海外取引先との電話会議など、音声通話ベースのビジネスシーンで活用できる。
③ビデオ会議のライブ翻訳
LiveKitなどのビデオ会議基盤と連携し、参加者のマイク音声をリアルタイムで翻訳する。翻訳音声は聞く側のブラウザでローカルに再生されるため、会議室全体に翻訳を流す必要がない。各参加者が自分の好みの言語を選択すれば、同じ会議に日本語話者・英語話者・スペイン語話者が同時に参加できる。
④コンテンツの多言語配信
日本語のポッドキャストやYouTube動画を、リアルタイムで英語やスペイン語に翻訳して配信する。Vimeoは既にgpt-realtime-translateを統合して製品教育動画のライブ翻訳を実現しており、多言語展開のコストが劇的に下がることを示している。
⑤教育・研修
海外の講師によるオンライン研修を、日本語のリアルタイム翻訳付きで受講する。あるいは逆に、日本語の社内研修コンテンツを海外拠点に多言語で展開する。一度作ったコンテンツが言語の壁なく全拠点で活用できるようになる。
既存の翻訳サービスとの違い
ChatGPTの音声モード、Google翻訳、DeepL——既存の翻訳手段はいくつかある。gpt-realtime-translateとの違いを整理しておこう。
ChatGPTの音声モードは「話しかけると翻訳して返す」ターンベースの動作だ。話者が一文話し終わるまで翻訳は始まらず、翻訳中に追加の発言をすると混乱する。gpt-realtime-translateはストリーミングで同時に処理するため、連続した発話でも途切れない。
Google翻訳やDeepLのリアルタイム翻訳は、音声→テキスト→翻訳テキスト→音声合成というパイプラインで動く。各段階で遅延が累積するため、長い発話になるほどラグが大きくなる。gpt-realtime-translateは音声から音声への直接変換(speech-to-speech)で、パイプラインの中間ステップがない分だけ低遅延を実現している。
さらに、Google/DeepLの音声翻訳は合成音声が固定的で、「誰が話しても同じ声」になる。gpt-realtime-translateのDynamic Voice Adaptationは話者ごとに声質が変わるため、会議のように複数話者がいる場面での実用性に差がある。
制限事項と注意点
カスタムプロンプト・用語集は非対応
現時点では、翻訳の文体や専門用語を制御するプロンプト機能は提供されていない。法律・医療などの専門用語が正確に翻訳されるかは事前検証が必要だ。OpenAI公式も「自動化メトリクスだけでなく、実際の音声とバイリンガルレビューでテストせよ」と明記している。
固有名詞の置き換えリスク
翻訳中に人名や地名が別の名称に置き換えられるケースが報告されている。ドメイン固有の用語や固有名詞が重要なユースケースでは、ゴールデンセットを作成してローンチ前に手動で検証することが推奨されている。
同一言語の発話は翻訳されない
出力言語がスペイン語に設定されている状態で、話者がスペイン語を話した場合、翻訳は行われない。日英混在の発話(コードスイッチング)では翻訳が不安定になる可能性がある。対策としては、元の音声を完全にミュートせず、翻訳音声の再生中は音量を下げる「ダッキング」方式が推奨されている。
無料枠では使えない
Realtime APIは従量課金制で、OpenAIアカウントの課金設定(Billing)が有効になっている必要がある。無料枠では利用できないため、テスト前に支払い方法の登録を確認しておこう。
まとめ:次にやるべき3つのこと
gpt-realtime-translateは、AIによる同時通訳を「プロダクトの一機能」として組み込める初めてのモデルだ。70言語→13言語、1分5円、話者の声質を追従——これまでプロの通訳者にしかできなかったことが、APIひとつで実現する。
① 今日やること:OpenAI Playgroundで翻訳を体験する。コード不要・ブラウザだけで「日本語→英語」「英語→日本語」の翻訳品質を自分の耳で確かめられる。
② 今週中にやること:次の英語ウェビナーやカンファレンスの視聴予定があれば、Cookbookのbrowser-translation-demoをローカルで動かしてリアルタイム翻訳を試す。Whisperを併用すれば字幕テキストも出力されるため、議事録作成にも活用できる。
③ 検討すること:自社のプロダクトやサービスに多言語対応が必要な場合、gpt-realtime-translateのAPIを組み込む検討を始める。コールセンター、ビデオ会議、ライブ配信など、音声が介在するすべてのタッチポイントが対象になる。

