
Atsushi Nakatsugawa
June 23, 2026
2 min read
How to design agentic workflows that actually shipの意訳です。
ほとんどのエージェント型ワークフローは、マージのステップで止まります。エージェント型ワークフローとは、AIエージェントがタスクを計画してツールを呼び出し、ステップをつなげて、人間の介入を限定しながら作業を完了するシステムです。デモでは、エージェントが計画を立て、ツールを呼び出し、きれいに見える差分を生成し、すべてがうまく動きます。デモとはそういうものです。しかしその後に、デモでは決して見せられなかった部分にぶつかります。レビューを通過し、リグレッションを本番に持ち込まずにメインブランチへ反映できるかどうかです。ちゃんとリリースまで到達するワークフローには、ひとつの設計上の共通点があります。本番環境に進む前に、独立したレビューステップを実行していることです。
Stack Overflow 2025年調査では、84%の開発者がAIツールを使っている、または使う予定があることが分かりました。機械生成の変更が増えるほど、レビューチームの検証作業も増えます。その負荷を吸収するには、一次レビュアーが差分 以上の情報を見られる必要があります。
エージェント型ワークフローはマージ境界で壊れます。構文は扱えても、本番環境で初めて表面化するセマンティクスを見落とすからです。
おそらく、こうした場面を見たことがあるはずです。CIはグリーンで差分もきれいに読めるため、エージェントのPRをマージします。3日後、誰もテストしていなかったコードパスで、本番環境にリグレッションが発生します。エージェントが深く推論していなかった箇所です。失敗は、間違って見えるコードにあったのではありません。正しく見えるコードにあったのです。
あるエージェント失敗研究では、複数のAIコーディングエージェントが作成したPR(プルリクエスト)のマージ率を測定しました。エージェント全体ではパフォーマンス、機能追加、修正タスクのマージ率が最も低く、CI/CDとドキュメントタスクのマージ率が最も高い結果でした。あるエージェントでは、最も低いカテゴリとして、パフォーマンスPRが0.27、テストPRが0.37、機能追加PRが0.38まで下がりました。エージェントは浅い理解で済む作業はこなせますが、本番環境での振る舞いについて深いセマンティック推論が必要な作業ではつまずきます。
危険な失敗は、正しく見え、明らかなチェックにも合格するコードの中に潜んでいます。そして、誰もテストしようと思わなかった現実の条件下で失敗します。Apiiroのエンタープライズデータは、その状況をより鮮明にしています。AIが表面的な正しさを高めるにつれて(構文エラーは76%減、ロジックバグは60%減)、本質的な正しさは悪化しました(権限昇格パスは322%増、アーキテクチャ設計上の欠陥は153%増)。同じAIと人間の比較レポートでは、アルゴリズムとビジネスロジックのエラーがAIのPRでは2.25倍多いことも分かりました。これはまさに、グリーンに見える差分が隠してしまう、プロジェクト固有の失敗です。
エージェント型ワークフローの各ハンドオフは、ミスが積み重なる場所をもうひとつ作ります。チームは、エージェントが分かりやすい部分を流暢に処理する様子を見ています。その一方で、統合やエッジケースの周辺では、より慎重な確認が必要になります。最後の区間が、その変更をリリースできるかどうかを決めます。そして一次レビューこそ、キューが流れるか滞るかを決める場所です。Taskrabbitのケーススタディでは、同チームがコーディングエージェントを導入する前に、CodeRabbitによってマージ時間を25%短縮し、平均PRサイクルタイムを10日から7日に短縮したと報告しています。CodeRabbitが470件のPRをレビューした結果では、AIが共同作成したPRは1PRあたり10.83件の問題を生み、人間だけによるPRの6.45件に対して、検出事項が1.7倍多くなりました。
エージェント型ワークフローの議論は、オーケストレーションで止まりがちで、リリースに進むためのゲートが十分に定義されないことがよくあります。ルーティング、ツール呼び出し、制御フローは、作業をデモまで進めることはできます。しかしマージ境界には、それ専用のチェックポイントが必要です。
オーケストレーションは調整レイヤーです。エージェント間で作業を振り分け、ツール呼び出しを順序付け、制御フローを管理します。LangChainは、ここでの中心的な設計課題をコンテキストエンジニアリング、つまり各エージェントにどの情報を見せるかの判断だと位置づけています。これはルーティングにとって正しい課題です。正しさには、別のチェックポイントが必要です。
品質ゲートとは、エージェントの出力が下流へ進む前に、その出力を正しさやコンプライアンスの基準に照らして評価する、ブロッキング型のチェックポイントです。
エラーは複数ステップのシステムを通じて伝播します。初期ステップのミスは増幅され、最終出力まで運ばれます。そのため、後続ステップがそのミスの上に積み上がった後で見つけるより、マージ境界で欠陥をキャッチするほうが安く済みます。デモは正常系の振る舞いでは通っても、本番負荷の下で現れる信頼性の問題を見落とすことがあります。
リリース可能なエージェント型ワークフローでは、変更を提案したエージェントがそれを承認しないように設計してください。これが「提案してから検証する」パターンであり、その価値は2つのステップの独立性から生まれます。
Anthropicのエンジニアリングチームは、エージェントは自分の仕事を自信満々に褒める傾向がある一方で、人間には平凡な結果だと分かることがあると指摘しています。彼らの構造的な対策は、単独の評価器を懐疑的になるよう調整することです。マルチホップ推論タスクで測定されたSAFEフレームワークでは、自己検証によって平均精度が76.7%から75.2%へ低下し、あるモデルでは80.7%から75.1%へ低下しました。最も高性能なモデルであっても、自分の出力を確実に自己検証することはできません。だからこそ、レビュアーは生成側から独立している必要があります。
業界では、同じ分離を使うパターンがいくつもあります。
| パターン | 主な特徴 | 出典 |
| Evaluator-Optimizer | 別々のモデルがループ内で生成と評価を行う | Anthropicのパターン |
| Generator-Critic | 批評側が承認、却下、またはフィードバック付きで差し戻しを行う | Google Cloud |
| Verifier Pattern | 検証側は生成側のコンテキストや推論にアクセスできない | MindStudioのパターン |
| Human-in-the-Loop | エージェントが続行する前に人間の承認ステップを置く | OpenAIの承認 |
Verifier Patternは最も厳格な形です。MindStudioは、生成側の出力を、そのコンテキスト、推論、中間ステップにアクセスせずにレビューする専用エージェントとして説明しています。この分離によって、自己追認を防げます。生成側と同じモデルやコンテキストウィンドウを共有する検証者は、元の前提をそのままレビューに持ち込んでしまいます。
レビューエージェントが生成エージェントの推論を引き継がずに提案された変更を確認するなら、AIによるAIコードレビューはここに当てはまります。このアーキテクチャでは、CodeRabbitのコードレビューエージェントが検証者の位置に入り、Codegraphからコードベースのコンテキストを、CodeRabbit Learningsからチューニング情報を取得します。ただし、生成エージェントのコンテキストウィンドウは共有しません。

Abnormal AIは、AI生成コードと手書きコードの両方にまたがる検証レイヤーとしてCodeRabbitを利用し、重大度がクリティカルなコメントで65%超の採用率に到達しました。独立したレビューはステップをひとつ追加します。そして、何にでもフラグを立てる検証者は、チームに無視する習慣を身につけさせるだけです。したがって対策は、ゲートを取り除くことではなく、何を表面化させるかを調整することです。CodeRabbitはすべてのPRを最初にレビューし、人間のレビュアーが判断とマージの責任を引き続き持ちます。
LLMの呼び出しをつなげることは、概念実証にすぎません。リリースにはリトライ、失敗、レビューに耐える本番向けの制御が必要です。
まずは冪等性から始めます。冪等性キーがないと、タイムアウト後にリトライしたエージェントが同じアクションを2回実行し、カードに二重請求したり、レコードを2回作成したりする可能性があります。各書き込みに一意な冪等性キーを付与し、受け側のシステムが重複を認識して繰り返しを無視できるようにします。
次に、ワークフローにロールバック手順を用意します。デプロイに問題が起きたとき、GoogleのSRE Workbookは、既知の正常な状態からすばやく復元し、壊れている可能性のあるデータを不正なものとしてマークすることを推奨しています。複数ステップのワークフローでは、あるステップが成功してから別のステップが失敗した場合に、何を取り消し、何をリトライし、何を隔離するのかを文書化するということです。これはエージェントの量が増えるほど重要になります。DevOps Research and Assessmentによる2025年DORAレポートでは、AI導入はスループットを改善する一方で、デリバリーの不安定さを増やすことが分かっています。
最後に、リスクに応じてレビューのチェックポイントを階層化します。低リスクのタスクは完全自動で実行できますが、影響が大きい、または取り消せないアクションには明示的な人間の承認が必要です。ガードレールが遅れて導入され、ワークフローの振る舞いを制約しにくくなってからでは、チームは制御を失います。この3つの制御こそ、デモを乗り切るだけのワークフローと、本番環境を乗り切るワークフローの違いです。
エージェント型ワークフローでは、下流リスクを中心に計測します。変更失敗率、欠陥流出率、手戻り、リバート、時間経過に伴うコードの生存率です。スループットだけを見ると成功に見えても、安定性は静かに損なわれていることがあります。VentureBeatの分析では、デプロイ数、コード行数、プルリクエスト数はもともと生産性指標として弱く、AIによってむしろ積極的に誤解を招くものになると論じています。
| シグナル | 指標 | 検出するもの |
| 信頼できる | 変更失敗率 | AIで加速した変更量による不安定性 |
| 信頼できる | 欠陥流出率 | ゲートがAI生成の欠陥を捕まえられていないこと |
| 信頼できる | 手戻り率 / 7〜14日以内のリバート | マージ後に隠れて発生する修正作業 |
| 信頼できる | 時間経過に伴うコードの生存率 | エージェントが書いたコードの長期的な保守性 |
| 単独では誤解を招く | デプロイ頻度 | 安定性が下がる一方で上昇する |
| 積極的に誤解を招く | コード行数、PR数 | 品質シグナルを伴わない量 |
手戻り率は、同じダッシュボードに載せるべきです。AIコードは初期ゲートを通過しても、後から修正作業を生むことがあるからです。Stateレポートでは、AIのPRにより重い問題の裾野があることが分かりました。90パーセンタイルでは、AIのPRに26件の問題が含まれていたのに対し、人間のPRでは12.3件でした。これは平均値の裏に隠れたレビュー・パイプラインの問題です。可能であれば、スループットの変化だけを切り取ってAIの影響だと判断するのではなく、似たチームやリポジトリと比較してください。
レビューのチェックポイントには、単一のPRを超える可視性が必要です。検証者が忙しく見えていても、同じ失敗が流出し続けている可能性があるからです。CodeRabbitのダッシュボードはレビュー速度、チームパフォーマンス、コード品質指標を追跡します。そのため、チェックポイントがリスクを捕まえているのか、それともコメントの流れをもうひとつ増やしているだけなのかを確認できます。
エージェントがパイプラインに触れる前に、3つのことを決めてください。何にアクセスできるのか、何に人間の承認が必要なのか、誰が責任を持つのかです。それぞれの答えは、このワークフロー全体が依存する同じ検証ゲートにつながります。2025年12月に公開されたAgentic Applications向けOWASP Top 10は、アクセスに関する問いを「最小限のエージェンシー」という原則で支えています。つまり、エージェントには、そのタスクに必要な最小限の自律性だけを与えるべきだという考え方です。
認証情報のスコープは狭くし、広範な管理者権限は避けます。CRMから読み取るエージェントに、書き込みアクセスは必要ありません。安全な範囲で最も狭い環境から始め、エージェントが侵害された場合の影響範囲を把握しておきます。影響範囲が絞られていれば、独立レビューも扱いやすくなります。検証者が確認すべき面が限定されるからです。
影響が大きい、または取り消せないアクションには、人間または複数者による承認が必要です。アクションが許可されているかどうかをモデルの判断に任せるのではなく、下流システムで認可を強制してください。これは検証者と同じ独立性の原則です。権限を与えるものは、その権限を求めているものと同じであってはなりません。
すべてのエージェントには、デプロイ時点で文書化された責任者が必要です。責任はエージェントには移りません。組織、認証情報を所有するチーム、承認を行う機能のすべてが、デプロイされたシステムの責任者を把握している必要があります。エージェントがPRを開くときは、完全な実行トレースも一緒に渡されるべきです。そうすれば、レビューする人が何が起きたのかを検証できます。
マージボタンこそ、責任が着地する場所です。開発者がリリースし、レビュアーが人間であれAIであれ、その前に検証します。
エージェント型コーディングによって生成は安くなりました。だからこそ、検証が支配的な制約になりました。いまのボトルネックは、コードが本番環境に到達する前に、それが動くと証明することです。検証をマージ後に残すワークフローは、リスクを下流へ移して、それをスピードと呼んでいるだけです。
エージェント型SDLCにおいて、CodeRabbitはアーキテクチャが求める独立したレビューステップを提供します。Agentic Reviewsは、生成エージェントの前提ではなく、コードベースとチームのコンテキストを使います。そして、PRコメントに残されたフィードバックはCodeRabbit Learningsとなり、以降のレビューをより鋭くします。これは、すべてのPRで「提案してから検証する」仕組みです。だからこそ、すべての行はマージに値するかを確認されます。
コードレビュー時間とバグを50%削減しましょう。 CodeRabbitは、GitHubとGitLabで最もインストールされているAIアプリで、14日間の無料トライアルを利用できます。今すぐはじめてください。