Nemotron 3 Ultraが高速なオープンなコーディングモデルの可能性を提示

Atsushi Nakatsugawa

June 04, 2026

2 min read

June 04, 2026

2 min read

Nemotron 3 Ultraについて分かっていること
今回の違い
CodeRabbitベンチマーク性能
Ultraが開発者にとって強そうな領域
開発者が注意すべき点
評価

Back to blog

他の記事を読む

個人OSS開発に複数のレビューレイヤーを。Open WebUI ExtensionsがCodeRabbitを選んだ理由

Open WebUI Extensionsは、Open WebUIをより便利に使うためのOSSプラグイン集です。開発者Skyzi000さんに、個人開発OSSにおけるAIコードレビュー活用とCodeRabbit導入の効果を伺いました。

CodeRabbitがNVIDIA Nemotron 3 Ultraをサポート

NVIDIA Nemotron 3 Ultraは、CodeRabbitのセルフホスト型AIコードレビューで、正確かつ高速なスループットを実現します。

Fable 5モデルレビュー：コードレビューとコーディングタスクから見えた初期シグナル

Fable 5は、自律的なコーディング作業で試す価値があります。特に、プロンプトが不完全で、エージェントがビルド前に環境を把握する必要がある場面に向いています。本番環境のコードレビューでは、現時点では現在のベースラインとOpus 4.8の方が安全に見えます。

Nemotron 3 Ultra makes the case for fast, open coding modelsの意訳です。

NVIDIA Nemotron 3 Ultraは、チャット画面向けに作られた新たなモデル、という印象ではありません。最初に問うべきなのは、リーダーボードで勝てるかどうかではなく、開発者がモデルを今使っている形に適合できるかどうかです。つまり、ターミナル、レビューパイプライン、コーディングエージェント、テスト生成ツール、そして雑然としたコンテキストの中でもモデルが処理を進め続ける必要があるワークフローの中で使えるかどうかです。

NVIDIAが、総パラメータ数約5,500億、トークンごとの有効パラメータ数が約550億の大規模なオープンモデルを公開しました。ただし、本当の訴求点は速度と制御性です。モデルが十分に高速であれば、開発者は処理の流れに関与し続けられます。システムはリトライできます。コーディング用ハーネスは、タスクが完了するまでモデルを動かし続けられます。

Ultraは、私なら「新しい最高のコーディングアシスタント」とは位置付けません。むしろ、オープンモデルが次のプロンプトを待つだけのチャットインターフェイスではなく、開発者向けシステムの内部で動く高速で制御可能なワーカーになっていく未来を示しています。

モデルが大きなループの一部として機能するワークフローでは、Nemotron 3 Ultraは特に重要になります。コードレビュー、テスト生成、リポジトリ調査、エージェント型コーディング、そしてチームが速度、制御性、モデルの実行場所を重視する社内自動化などです。

AIインテリジェンス指数と出力速度を示す散布図。最も魅力的な領域が強調されています。

Nemotron 3 Ultraについて分かっていること

Nemotron 3 Ultraは、NVIDIAのNemotron 3ファミリーで最大のモデルです。このファミリーにはNano、Super、Ultraが含まれ、いずれもエージェント型AIアプリケーションを念頭に設計されています。Ultraはそのラインアップにおける大型の推論エンジンです。総パラメータ数は約5,500億で、疎なmixture-of-experts設計により、トークンごとに約550億パラメータが有効化されます。

最も分かりやすい比較対象は、同ファミリーの前世代の大規模モデルであるNemotron 3 Superです。

Characteristic	Nemotron 3 Super	Nemotron 3 Ultra
ファミリー内での役割	エージェント型ワークフロー向けの高スループット推論モデル	より複雑なコーディング、調査、エンタープライズワークフロー向けの最大のNemotron 3推論モデル
総パラメータ数	120B	550B
有効パラメータ数	トークンごとに12Bが有効	トークンごとに55Bが有効
アーキテクチャ	Hybrid Mamba-Transformer MoE	Hybrid Mamba-Transformer MoE
エキスパート設計	Latent MoE	Latent MoE
コンテキスト長	最大1Mトークン	最大1Mトークン
効率化機能	マルチトークン予測とNVFP4による学習・デプロイ経路	マルチトークン予測とNVFP4指向のデプロイ経路
最適な用途	大量のエージェント型ワークフロー、コーディング、計画、ツール利用	速度、スケール、より強い推論を同じループ内に置く必要がある、より要求の高い開発者向けワークフロー

より平易に言えば、これは単に巨大化したdense Transformerではありません。Ultraは、トークンごとにネットワークの一部だけを有効化し、長いコンテキストを現実的に扱い、開発者が遅いバックグラウンドバッチジョブのように扱うのではなく、対話的に使えるだけの速度でトークンを生成するように作られています。

Nemotron 3 Ultraの高速アーキテクチャを示すフローチャート。長いコンテキスト、Mamba-Transformer、MoEルーティング、マルチトークン予測が示されています。

発表時の数値を見ると、Ultraは強い位置にあります。Artificial Analysisは、Intelligence IndexでNemotron 3 Ultraを48と報告しました。その時点のスナップショットでは、Gemma 4 31B、Nemotron 3 Super、gpt-oss-120bを上回り、米国のオープンウェイトモデルとして首位でした。Kimi K2.6は54でまだ上位にあるため、Ultraがオープンモデルの最前線全体を制したという主張ではありません。主張の中心は、到達している知能レベルに対して非常に高速だという点です。

Artificial Analysisは、プレリリース版のDeepInfraエンドポイントで、出力が毎秒300トークンを超えたことも報告しています。開発者にとって有用なのは、この速度です。コーディングではレイテンシが行動を変えます。モデルが遅ければ、依頼して放置する形になります。高速であれば、流れに関与し続け、追加質問を投げ、複数回試行し、エージェント型ハーネスに処理を進めさせられます。

NVIDIA Nemotron 3 Ultraの発表スライド。登壇者が示すコスト比較グラフが表示されています。

今回の違い

Nemotron 3 Superは、NVIDIAがエージェント型ワークフロー向けの有力なオープンモデルを構築できることをすでに示していました。Ultraは、そこから2つの方向でさらに進んでいます。

第一に、はるかに大規模です。Superは総パラメータ数が約1,200億で、有効パラメータ数は約120億です。Ultraは総パラメータ数が約5,500億、有効パラメータ数が550億に増えています。この追加されたスケールは、NVIDIAや初期テスターの語り方にも表れています。小さく効率的な補助モデルではなく、選択されたワークフローではプロプライエタリな最先端システムから一部の作業を担えるモデルとして語られています。

第二に、Ultraは開発者向けハーネスをより直接意識して学習・評価されているように見えます。NVIDIAは、Superがエージェント型ハーネスで優れていることが分かった一方、Ultraはそれらのハーネスを念頭に置いて構築されたと述べています。コーディングツールにとって、これは要件を変えます。OpenCode、OpenHands、Kilo Code、Continue、または社内コードレビューループでうまく動くモデルには、質問に答える以上のことが求められます。ツールプロトコルに従い、長いコンテキストを扱い、繰り返しのプロンプトの中で前進し、詰まったときに復帰する必要があります。

Ultraの挙動は、その目標に合っています。このモデルは高速で、直接的で、過度に冗長ではなく、多くの確認を求めにくい傾向があります。これはハーネス内では強みになり得ますが、タスクが明示されていない要件に依存する場合は弱みになります。明示的な指示を与えることで性能を引き出しやすくなります。最適なメンタルモデルは、ClaudeスタイルのプロンプトよりもCodexスタイルのプロンプトに近いものです。タスクを明確に書き、受け入れ条件を示し、期待する出力形式を指定します。

CodeRabbitベンチマーク性能

CodeRabbitの社内ベンチマークは、発表時のグラフよりも、さらに地に足のついた見方を提供します。このベンチマークでは、基準となるレビューモデル群とNemotron 3 Ultra構成を、105件の評価問題で比較しています。問題は比較的簡単なものから、より難しいレビュータスクまで含まれます。評価では、検証、重複排除、強めのフィルタリングを行った後の、パイプライン通過後の最終コメントを使用しています。ジャッジはgpt-5.1で、推論はmedium、冗長性はlow、single mode、3票で判定されています。

CodeRabbitのベンチマーク表。Baseline平均とNematron 3 Ultraの性能指標を比較しています。

主要な結果は近い値です。

Baseline average、N=3: pass actualは60/105（57パーセント）
Nemotron 3 Ultra average、N=2: pass actualは58/105（56パーセント）
Baseline pass full: 66/105（63パーセント）
Nemotron 3 Ultra pass full: 65/105（62パーセント）
Baseline precision actual: 34.0パーセント
Nemotron 3 Ultra precision actual: 33.0パーセント

肯定的に読むなら、このレビュー負荷では、Ultraはpass指標で基準モデルとほぼ同じ範囲にいました。問題を見つけ、レビューパイプラインを通過し、CodeRabbitらしい有用なコメントを生成しました。

注意点は信頼性です。このモデルはリトライ率が高い結果でした。ベンチマーク概要では、Ultraの実行では平均36.5回のリトライが示されており、基準モデルの0.3回と対照的です。リトライ分布では、約66パーセントがscratchpadのみだったと記されています。運用上、このモデルは必要な出力マーカーや最終的な構造化出力を生成する前に、自発的に停止してしまうことがあります。プロンプトを変えずにリトライすると成功することが多いため、能力はあると考えられますが、初回試行で完了する挙動は、無視できるほど安定しているわけではありません。

CodeRabbitのデータから得られる実務上の知見は明確です。Nemotron 3 Ultraは作業をこなせますが、構造化出力タスクでは検証とリトライロジックで包むべきです。

レイテンシについても興味深い兆候があります。このベンチマークでは、Ultraの実行はレビュー全体のトレース平均レイテンシが7分06秒で、基準モデルの8分31秒と比較されています。この特定のレポートでは巨大な差ではありませんが、Ultraの実行は大きなリトライ負荷を抱えながらも、時間面で競争力を保っていました。NVIDIAのUltraに関する説明は、同じ考えに何度も戻っています。モデルが十分に高速であれば、複数回の試行でも、より遅く慎重な1回の試行に勝てる場合がある、という考えです。

コスト面の話は、このベンチマークではそれほど単純ではありません。この表では、Ultraの実行に対して報告された総コストは基準モデルより高くなっています。ただし、これは過度に一般化すべきではありません。社内フォールバック率、ホスト型エンドポイントの価格、リトライ挙動が、ローカルな実験結果を大きく左右し得るからです。NVIDIAとArtificial Analysisが公開している話の中心は、完了あたりのコストとスループットです。CodeRabbitの結果が示しているのは、より限定的な内容です。このベンチマークでは、品質は近く、速度は競争力があり、信頼性を制御するループには改善の余地がある、ということです。

Ultraが開発者にとって強そうな領域

Nemotron 3 Ultraの最も有力なユースケースは、「すべてのコーディングモデルを置き換えること」ではありません。「明示的な指示と外部チェックを組み合わせて、有用な開発作業を大量に高速に実行すること」です。

有望に見える用途は次のとおりです。

コメントを検証、フィルタリング、重複排除、リトライできるコードレビューパイプライン
モデルが広いコンテキストを読む必要がある場合の統合テスト生成
多数のファイルやドキュメントを走査する必要があるリポジトリ調査タスク
タスクが完了するまでハーネスがモデルを動かし続けられるエージェント型ワークフロー
完璧な一発推論よりも高速な反復が効く日常的なコーディングタスク

NVIDIAは、有用な例も共有しています。UltraはOpenCode内で複数の論文を読み、それらをまたいで推論するために使われました。これは博士課程レベルのコーディング課題ではありませんが、速度がワークフローを変える、まさに日常的な開発者タスクです。ターミナル内にとどまり、モデルの進行を見ながら、制御し続けられます。

CodeRabbit型の作業では、このモデルは比較的簡単なレビュータスクや中程度の難易度のレビュータスクでも特に興味深く見えます。これらも価値のあるレビューです。システムには、実務的な問題を見つけ、明確に説明し、毎回より高価な最先端モデルを待たずに大量のレビュー出力を生成することが求められます。

開発者が注意すべき点

Ultraには構造が必要です。コーディングや開発者向け自動化に使う場合、自由形式のチャットモデルとして扱い、ワークフローを推測してくれることを期待すべきではありません。ハーネスやチェックリスト、停止条件、出力検証を与えます。

実務上の指針は次のとおりです。

具体的な受け入れ条件を含む明示的なプロンプトを使います
構造化出力では、レスポンスを受け入れる前に、必須マーカーやスキーマを検証します
途中停止に備えてリトライロジックを追加します
目標ループや外部の完了チェックを使い、タスクが完了するまでモデルが作業を続けるようにします
テストを明示的に依頼します。初期の試用では、このモデルは必ずしも自分からテストを生成しませんでした
設計要件を具体的に示します。期待以上に良いビジュアル成果物を生成できることはありますが、デザインは中核的な強みではありません
複数回の試行が許容される高スループットなワークフローを優先します
形式の崩れた出力が1回でも本番自動化を壊し得るワークフローでは慎重に扱います

このモデルは、チームがベンチマークをどう考えるべきかも変えます。純粋な一発勝負のベンチマークは、現実のプロダクトループでリトライが許される場合、Ultraを過小評価する可能性があります。リトライを無視するベンチマークは、プロダクトが初回の厳密なフォーマット遵守を必要とする場合、Ultraを過大評価する可能性があります。適切な指標は、おそらく利用可能な完了までの時間に近いものです。品質、リトライ、レイテンシ、コストをまとめて測る必要があります。

評価

Nemotron 3 Ultraは、開発者向けのオープンモデル公開として非常に興味深いものの一つです。知能だけを追っているわけではなく、使えるスループットを追っているからです。

このモデルは大規模で、オープンで、高速です。公開ベンチマークでは、米国のオープンウェイトモデルの知能面で上位に位置しつつ、出力速度では多くの同種モデルを大きく上回っています。CodeRabbitのベンチマークは、より冷静な見方を加えています。Ultraは強力なレビュー基準に近い性能を出せますが、構造化出力の信頼性については、現時点ではリトライと外部検証が必要です。

評価は一面的ではありません。厳密なフォーマットを初回で必ず成功させるモデルがほしいなら、Ultraはまだ最も安全なデフォルトではありません。一方、ハーネスが検証してリトライし、作業が完了するまでモデルに処理を続けさせられるエージェント型の開発者システムを構築しているなら、Ultraはかなり有力になります。

コーディングチームにとって、より大きな論点は、Nemotron 3 Ultraが好みのチャットモデルを置き換えるかどうかではありません。オープンで高スループットなコーディングエージェントが、現実的に感じられる段階に入りつつあるのかどうかです。

今すぐCodeRabbitのPRレビューで試して、感想をお聞かせください。