社内の資料を検索して答えを出してくれる「AI」——その裏側で動いている技術が、静かに大きな変革を迎えています。
「RAG(ラグ)」という仕組みをご存知でしょうか。難しそうな名前ですが、要は「AIが回答するとき、自分の記憶だけでなく外部の文書も参照する仕組み」のこと。このRAGに、コーパスサイズを40分の1に圧縮し、検索の精度を2.3倍に高める新手法「Blockify」が登場しました。
この記事では、RAGの基本からBlockifyの何がすごいのか、そして「それが自分の仕事にどう関係するのか」まで、エンジニアでなくても理解できるよう整理します。
そもそも「RAG」って何をしているのか

AIが質問に答えるとき、実は2つのパターンがあります。ひとつは「学習済みの知識だけで答える」方法。もうひとつが「リアルタイムで文書を検索しながら答える」方法、これがRAGです。
具体的に想像してみてください。社内のマニュアルが500ページあるとします。「有給申請の手順は?」と聞いたとき、AIが500ページ全部を読んで答えるのか、関係ありそうなページだけ取り出して答えるのか——後者がRAGの考え方です。
ビジネスでの活用シーンは広く、社内文書への質問応答、カスタマーサポートの自動化、法律・規約の照会などに使われています。ChatGPTにファイルをアップロードして質問する機能も、広い意味でRAGの一種です。
従来のRAGの「困った点」
現在広く使われているRAG(Naive RAG、ナイーブRAGと呼ばれます)には、実は根本的な非効率さがあります。
- 文書を均等な長さで機械的に切り刻む(チャンキング)ため、文脈が途切れやすい
- 検索時に無関係な断片が混入し、AIの回答精度が落ちる
- 大量のテキストをそのままAIに渡すため、処理コストが高い
500ページのマニュアルを「とりあえず全部同じサイズで切る」イメージです。重要な説明がページをまたいでいても、お構いなし。これが精度低下とコスト増の原因になっていました。
Blockifyが変えた「3つの数字」
2024年後半から注目を集めているBlockifyは、このナイーブRAGの弱点に正面から挑んだアプローチです。GitHubで公開されており、数字だけ見るとインパクトがあります。
| 指標 | Naive RAG | Blockify | 改善率 |
|---|---|---|---|
| コーパスサイズ(文書量) | 基準値 | 基準値の1/40 | 40倍削減 |
| クエリあたりのトークン数 | 基準値 | 基準値の1/3 | 3倍削減 |
| ベクトル検索の関連性 | 基準値 | 基準値×2.3 | 2.3倍向上 |
出典:Blockify GitHubリポジトリ(iternal-technologies-partners/blockify-agentic-data-optimization)の公開データより
この数字が何を意味するか、もう少し噛み砕きます。
コーパスサイズ40分の1の意味
「コーパス(corpus)」とは、AIが参照するために用意した文書データの集まりのことです。40分の1になるということは、500ページのマニュアルが実質12〜13ページ分の情報量に圧縮されて管理できるイメージ。ストレージコストと処理速度の両方に直結します。
トークン3分の1の意味
「トークン」はAIが処理する文字・単語の単位です。ChatGPT等のAPIは、このトークン数で料金が決まります。3分の1になれば、単純計算でAPIコストも約3分の1。月に10万円かかっていた処理が3〜4万円になる計算です。企業がAIを本格導入するときのコスト障壁がぐっと下がります。
ベクトル検索2.3倍の意味
「ベクトル検索」とは、キーワードの完全一致ではなく意味の近さで文書を探す技術です。「有給」と書いていなくても「休暇の取得方法」として説明されている箇所を見つける、というイメージ。この精度が2.3倍になるということは、的外れな答えが大幅に減るということです。
会社員として「知っておく価値」がある理由
ここまで読んで「でも自分でコードは書けないし関係ないかな」と思った方——少し待ってください。
Blockifyの登場が示しているのは、「AIが参照する文書の整理方法そのものが、AI活用の質を決める」という事実です。これはエンジニアでなくても意識できることです。
たとえば、あなたの会社がNotionやSharePointで社内文書を管理しているとします。そこに「AIで検索・質問応答できる仕組みを入れよう」という話が出たとき、文書の構造がどれだけ整理されているかで、AIの回答精度は大きく変わります。
「AIに食わせる文書を、人間が読みやすいように整理する」——これは普通のビジネスパーソンでもできる、AI活用の土台作りです。
プロンプトの書き方を工夫するのと同じように、AIに渡す「素材の質」を意識することが、これからのAI活用リテラシーの一部になっていきます。プロンプトの基本についてはChatGPTプロンプトの書き方ガイドも参考にしてみてください。
現場で起きている変化のサイン
実際、大手企業のDX担当者からは「ChatGPTに社内文書を読ませたら的外れな答えが返ってきた」という声が多く聞かれます。これはモデルの問題ではなく、多くの場合は文書の整理方法と検索設計の問題です。Blockifyのようなアプローチが注目されている背景には、こうした現場の課題があります。
ChatGPTの具体的な使い方についてはChatGPT基本ガイドも合わせてどうぞ。
Blockifyの「仕組み」をざっくり理解する
技術的な深掘りは専門家に任せるとして、Blockifyのアプローチを概念レベルで理解しておくのは有益です。
Blockifyが従来と異なる点は、文書を「均等に切る」のではなく「意味のある塊(ブロック)として構造化する」ことです。
料理のレシピで例えると——
ナイーブRAGは「3行ずつ切り出す」ので、「塩を加えて」で切れて次のブロックに「よく混ぜる」が来る。文脈がバラバラです。
Blockifyは「材料の説明」「下準備の手順」「調理の手順」「盛り付け」という意味のある単位でまとめるため、検索したときに関係ある情報がまとまって取れてきます。
この「意味単位での分割」がコーパスの圧縮と精度向上を同時に実現しています。
まとめ
RAGの新手法「Blockify」は、AIが文書を参照するプロセスを根本から見直し、コーパスサイズ40分の1・トークン3分の1・検索精度2.3倍という具体的な改善を実現しています。
会社員として覚えておきたいポイントは3つです。
- AI活用の質は「プロンプト」だけでなく「文書の整理方法」でも決まる
- コスト面でも、AIをビジネスに導入する障壁がさらに下がっていく
- 「AIに渡す素材を整える」スキルが、これからの実務AIリテラシーになる
まずできるアクションとしては、自分が日常的に使う文書(議事録、マニュアル、提案書など)を「AIが検索しやすい構造になっているか」という視点で見直してみてください。見出しを整える、箇条書きを適切に使う——それだけでも、AIに渡したときの精度は変わります。
AIを仕事に活かすヒントをもっと知りたい方は、AI副業・AI活用の実践ガイドもチェックしてみてください。新しいツールや手法が登場するたびに、それをいち早くキャッチして実務に落とし込む習慣が、これからのビジネスパーソンの強みになります。


