バイラル投稿「Claude Opus 4.6弱体化」主張に批判

Googleで私たちを選んでください

執筆＆編集：

Lockridge Okoth

公開：13日 4月 2026年, 22:13 JST

SNS「X」で拡散された投稿が、クロードオーパス4.6の幻覚が98％増加したと主張した。
批評家は、比較に異なるテスト規模が使われ、基準が統一されていないと指摘した。
同一タスクの分析では、ごくわずかな変化のみが確認され、AIの通常の変動範囲内である。

#AI関連ニュース

#AI インサイト

BridgeMind AIは、AnthropicのClaude Opus 4.6が幻覚ベンチマークの再テスト後に密かに性能低下させられていたと主張した。この投稿は拡散したが、手法の欠陥を理由に厳しい批判が相次いでいる。

この主張は、AI企業がコスト削減のために有料モデルを密かに性能低下させているのではないかとの議論を呼んだ。

スポンサード

BridgeMindが幻覚出現の98%増加を主張

コーディングベンチマーク「BridgeBench」を運営するBridgeMindは、Claude Opus 4.6が幻覚リーダーボードで2位から10位に転落したと投稿した。正確性は83.3%から68.3%に低下したと報告している。

「CLAUDE OPUS 4.6はナーフ（弱体化）された。BridgeBenchが証明した。先週、Claude Opus 4.6は幻覚ベンチマークで正確性83.3%を記録し2位だった。本日再テストしたところ、正確性は68.3%に下落し10位となった」と投稿した。

この投稿は「推論能力の低下」を裏付ける証拠として提示された。しかし、基礎データを精査すると異なる実態が明らかになる。

比較手法自体に根本的欠陥との批判

情報科学者のポール・カルクラフト氏は、この主張について「驚くほど科学的でない」と指摘し、手法の重大な問題点を強調した。

「驚くほど科学的でない。今日Opusは30種類のタスクでテストし、以前のスコアはわずか6種類。共通する6タスクで比較すると、今日は85.4%、前回は87.6%。大半のブレ幅は1件のみの誤答によるもので、繰り返しテストもなく、統計的なノイズの範囲内」と指摘した。

最初の高得点は6種類のベンチマークに基づくものだった。今回の再テストではタスク数を30に拡大している。

スポンサード

共通の6タスクにおける正確性はほぼ同じで、87.6%から85.4%へ僅かな低下だった。

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

この微小な差も、1つのタスクの誤答1回によるもので、繰り返しテストもなかったため、AIモデルの統計的ばらつきの範囲内にとどまる。

大規模言語モデルは決定論的ではない。サンプル数が少ない中で偶発的な誤出力が結果に大きく影響する。

業界の広範な不信が物語を加速

それでも、この投稿は反響を呼んだ。Claude Opus 4.6は2026年2月のローンチ以来、品質低下が指摘され続けている。

開発者の間では、応答が短くなり、指示の遵守が弱くなり、ピーク時には推論の深度が減少すると報告されている。

こうした現象の一因には、製品仕様の意図的な変更もある。Anthropicは適応的推論制御を導入し、モデルが自律的に推論リソースを調整できる仕組みを加えた。初期設定の推論レベルも効率重視の中程度に設定された。

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026