AIツールの「裏側」が、静かに変わり始めている

ChatGPTやClaude、Geminiといった生成AIを日常的に使っている人なら、「最近また賢くなったな」と感じる場面があるはずです。でも、そのツールが「どうやって賢くなったのか」を考えたことはあるでしょうか。これまでは、優秀なエンジニアがコードを手で書き直し、テストを繰り返し、少しずつ性能を引き上げてきました。しかしその前提が崩れようとしています。この記事では、AI開発の最前線で注目されている「HarnessX」というコンセプトを起点に、AIエージェントの自己改善という動きが何を意味するのかを整理します。
「ハーネス」とは何か——まず仕組みの話から
AIツールの開発現場で「ハーネス(harness)」と呼ばれるものがあります。車のシートベルトのように、AIモデルの動作を制御・補助する仕組みのことです。モデルが答えを出す前にどんな手順を踏むか、どんな情報を参照するか、どのタイミングで判断を止めるかといった「ルール」や「骨格」を指します。
Anthropicが開発したClaude Codeを例にとると、初期のバージョンにはタスクの計画ステップが組み込まれていました。「まず何をするか考え、次にコードを書き、最後に検証する」という手順をモデルに踏ませる設計です。ところがAnthropicは、より強力なモデルが登場したタイミングで、その計画ステップをハーネスから取り除きました。強いモデルには余分な手順が不要で、むしろ邪魔になるからです。この判断は人間のエンジニアが下した、いわば「職人の勘」による改善です。
同様の話はManusにも見られます。AIエージェントの開発チームが6か月の間に5回もアーキテクチャを作り直し、そのたびに複雑さを削ぎ落としてきたといいます。複雑な機能を加えるより、不要な処理を取り除く方が性能が上がるという逆説的な発見を積み重ねてきた結果です。
HarnessXが問いかけること——人間の判断を「仕組み」に置き換えられるか
HarnessXが提示するのは、こうした改善の判断をシステム自身に行わせようというアイデアです。「いつ・何を変えるべきか」という問いに人間が答え続けるのではなく、ハーネスをモデルと同じように「ファーストクラスオブジェクト(主役として扱う対象)」として位置づける発想です。
これはどういうことか、もう少し具体的に考えてみます。あなたが社内の業務フロー改善を担当しているとして、毎週「どのステップを削れるか」「どの承認プロセスが無駄か」を判断しながら更新し続けているとします。HarnessXが実現しようとしているのは、そのフロー自体が自分の非効率を発見し、修正案を提示するような仕組みです。人間はその最終判断だけに集中できる状態を目指しています。
これまでのAIツール改善は、熟練エンジニアの「何かがおかしい」という直感から始まっていました。HarnessXはその直感の部分を自動化できるかを試みているわけですが、その難しさも正直なところあります。人間の判断には暗黙知や文脈理解が含まれており、「この機能は今は不要だが半年後には必要になる」という見通しをシステムに持たせることは、現時点では容易ではありません。
AnthropicとManusの判断から見えるパターン
異なる組織が独立して同じ結論に至っているという事実は、偶然ではないと思います。以下に、両社のアプローチを整理します。
| 組織 | 取り組み内容 | 改善の方向性 |
|---|---|---|
| Anthropic(Claude Code) | モデルが強くなるたびに計画ステップをハーネスから削除 | 複雑さの除去 |
| Manus | 6か月で5回のアーキテクチャ再設計 | 抽象化の簡略化 |
| HarnessX(提案段階) | ハーネス自体をAIが編集・最適化する仕組みの構築 | 人間判断の自動化 |
この表から読み取れるのは、AIエージェントの進化において「引き算」が一貫した答えになっているという点です。賢いモデルが出てくれば、周辺の補助構造は薄くていい。これはAIの設計哲学が、外部からモデルを支える発想から、モデル自体の能力を信頼する方向へシフトしていることを示しています。
そしてHarnessXは、その「引き算の判断」すら自動化しようとしている。人間が常にボトルネックであった部分に、システムが入り込もうとしているわけです。
業務で使うAIツールへの実際の影響
この話を「開発者の世界の話」と切り離して考えると、見落としが生まれます。
例えば、社内の情報整理にAIを活用している総務部門の担当者を想像してください。今はChatGPTやNotionAIにプロンプトを渡し、アウトプットを確認し、必要に応じてプロンプトを手直ししています。この「プロンプトの手直し」こそが、まさにハーネスを人間が改善しているのと同じ構造です。HarnessXのような仕組みが広まれば、ツール側が自分の出力の質を評価し、次回のプロンプト構成を自動で調整するようになる可能性があります。
営業職の場合はどうでしょうか。週次レポートをAIで作成しているマネージャーが、毎週「この質問の聞き方では数字の粒度が細かすぎる」と感じて調整しているとします。HarnessX的な設計が実装されたツールは、そのフィードバックのパターンを蓄積し、3週目には自分でレポート生成の構造を変えるかもしれません。
これは便利に聞こえますが、同時に「AIツールが何をしているか分からない」という不透明さが増すリスクでもあります。ツールが自己改善する以上、ユーザーがその変化を追跡し、意図と異なる方向に進んでいないかを確認する仕組みも必要になるでしょう。
プロンプトの書き方ガイドを読んだことがある方なら、プロンプトの設計が思考の設計でもあることを感じているはずです。HarnessXはその設計の自動化を目指しており、プロンプトエンジニアリングのスキル自体の価値がどう変わるかという問いにもつながっています。
自動化が進むほど、「何を変えたいか」の言語化が問われる
AI開発の文脈では、ハーネスの自己改善は技術的なテーマです。しかし一般のビジネスパーソンに引き寄せると、より重要な問いが浮かびます。それは「AIが自分で改善するなら、人間は何をすればいいのか」です。
AnthropicのエンジニアがClaude Codeの計画ステップを削除したのは、「これは不要だ」という判断があったからです。Manusが6か月で5回作り直したのは、「前の設計は間違っていた」という認識があったからです。どちらも、目指すべき状態を人間が持っていて初めて成立した改善です。
HarnessXが自動化しようとしているのは「改善の実行」であり、「改善の方向性を決める判断」ではありません。AIがどんなに賢くなっても、「このツールを何のために使うか」「何を達成したいか」という問いに答えるのは、使う側の人間です。
ChatGPTの使い方を考えるとき、「うまく使えるか」よりも「何を達成したいかが明確か」の方が実は先にくる問いです。ツールの自己改善能力が上がるほど、この問いの重みは増していきます。
まとめ
HarnessXが提示するのは、AIエージェントが「道具として使われる」段階から「自分で磨かれる」段階への移行という仮説です。AnthropicとManusが独立してたどり着いた「複雑さを削る」という答えは、その方向性の確からしさを補強しています。ただし、自動化される部分が増えれば増えるほど、「何のための自動化か」という問いへの答えは人間側に残り続けます。あなたが今使っているAIツールの設定や使い方を、自分の言葉で説明できるかどうか——それがこれからのAI活用の基礎体力になっていくかもしれません。

