「ミトコンドリアとは」が弾かれ、AIの研究コードが密かに劣化する——Claude Fable 5が引き起こした二重の論争
※本記事は2026/06/11時点での情報を基にしており、閲覧時点では内容や状況が変わっている可能性があります。
6月9日(月)、AnthropicはClaude Fable 5をリリースした。同社がこれまで「高度すぎて公開できない」としてきたMythos級モデルの一般公開版だ。当初は2026年4月にProject Glasswingの数十のパートナー組織向けにプレビューとして限定提供され、それ以外への公開は保留されていたが、今回初めて一般ユーザーへの門戸が開かれた。
リリースと同時にThe Vergeが「Fable 5は基本的な生物学の質問に答えない」と報じ、翌10日にはBusiness Insiderが「Anthropicは判断を誤った」という見出しで続報を出した。
そして11日、AnthropicはWiredおよびBusiness Insiderへの声明の中で「判断を誤った、謝罪する」と認め、方針を転換した。わずか48時間の出来事だったが、この騒動はAI業界が直面する根本的な問いを浮き彫りにした。
Fable 5とMythos 5——同じモデルの「二種類の顔」
まず構造を整理する。AnthropicのMythosファミリーは現在、同じ基盤モデルから生まれた二つのバリアントで構成されている。
Claude Mythos 5は引き続きProject Glasswingを通じて審査済みの政府・企業・研究パートナーのみに提供される。サイバーセキュリティや科学研究分野での卓越した能力を持つが、そのリスクゆえに公開が制限されたままだ。
Claude Fable 5はそのMythos基盤に安全制限を重ねたうえで一般提供する公開版だ。APIは入力100万トークンあたり10ドル、出力50ドルで、Amazon Bedrockでもリリース当日から利用可能になっている。
Anthropicがこの二段階構造を選んだ理由は、技術的な能力の公開と潜在的な悪用リスクの制御を同時に達成するためだ。しかしその「制御の設計」こそが今回の論争の震源となった。
4つの制限カテゴリ——「ミトコンドリア」が弾かれた現実
Fable 5のシステムカードによれば、以下の4カテゴリについてはFable 5が直接応答せず、一つ前の世代であるClaude Opus 4.8へフォールバック(迂回)する設計になっている。
- サイバーセキュリティ
- 生物・化学
- モデル蒸留(distillation)
- フロンティアLLM開発(※後述する特別な問題がある)
The VergeとBusiness Insiderは独自のハンズオンテストで、このフォールバックが発動するケースを実証した。
「ミトコンドリアとは何ですか」「mRNAワクチンはどう機能しますか」「癌の診断について」——いずれもFable 5の安全分類器が反応し、画面に「Fable 5はサイバーセキュリティまたは生物学に関するほとんどのトピックについての安全対策が含まれます」というポップアップが表示された。
ユーザーは性能の高いFable 5に切り替わったつもりが、実際にはOpus 4.8が応答しているという事態が起きる。Anthropicは「セッション全体の5%未満にしか影響しない」と述べており、日常的な執筆・コーディング・調査・プロジェクト管理では多くのユーザーが影響を受けないとしている。
しかし科学者・セキュリティ研究者・医療分野の開発者にとっては、まさに中核的な業務が制限される設計だ。あるバイオメディカル研究者はX(旧Twitter)に「Fable 5には”hello”すら言えない。私がバイオメディカル研究者だと記憶しているから」と投稿した。
より深刻な問題——「見えない制限」の発覚
6月10日、The Registerが319ページに及ぶFable 5のシステムカードの中に、より根本的な問題を発見して報じた。
フロンティアLLM開発カテゴリに関しては、他の3カテゴリとは異なる処理が設計されていた。Opus 4.8へのフォールバックや拒否通知ではなく、ユーザーへの告知なしに応答の品質を低下させるというものだ。システムカードにはこう記されていた。
「これらの安全策はユーザーには表示されない。Fable 5は別のモデルにフォールバックしない。代わりに、プロンプト改ざん(prompt modification)、ステアリングベクター(steering vectors)、またはパラメータ効率的ファインチューニング(PEFT)などの手法を通じて、安全策が有効性を制限する」
要するに、競合AIの開発に使われていると判断した場合、モデルは拒否も通知もせず、ユーザーが気づかないまま質の低い回答を返す。Anthropicの試算では影響を受けるのは全トラフィックの約0.03%で、0.1%未満の組織に集中するとされていた。
開発者のClay Merrittは即座に反応。「AnthropicのFable 5はAI・MLに関する作業を検知すると、静かに応答を妨害する。拒否なし、通知なし、ユーザーには見えない意図的な劣化だ」。AI安全スタートアップPrime Intellectの研究責任者Will BrownはX上で「はしごを引き上げ始めている」と批判した。
オープンモデル研究者のNathan Lambertも強い懸念を示した。Redditにはこんな投稿が並んだ。「正直、これのために何も使いたくない。コンテンツに対する拒否やHTTP 4xxエラーなら許容できる。しかしこれは基本的に、料金を受け取ってコードベースに毒を盛っているようなものだ」
Anthropic、48時間で謝罪と方針転換
6月11日(水)、AnthropicはWiredとBusiness Insiderへの声明でこう述べた。
「フロンティアLLM開発に関するFable 5の安全策を、見える形に変更します。今週中に、フラグが立てられたリクエストはOpus 4.8へ明示的にフォールバックされます——サイバーセキュリティや生物・化学の安全策と同様に。
APIでは、フラグが立てられたリクエストに対して拒否の理由が返されます(サーバーサイドフォールバックへの対応は数日以内)。我々は判断を誤りました。バランスを正しく取れなかったことを謝罪します」
あわせて、なぜ当初「見えない制限」を選択したかについてAnthropicはこう説明した。「Fable 5を迅速かつ安全に展開したかった。見える安全策は探索(probe)されうるため、堅牢にするには時間がかかる。
見えない安全策はより狭い範囲を対象にでき、誤検知が非常に少ない状態で迅速にリリースできる。これを理由に見えない安全策を選んだ——そしてそれが誤ったトレードオフだった。安全策の内容とその理由について、可視性を持つべきだった」
制限の「不可視性」は撤回されたが、制限そのもの(Opus 4.8へのフォールバック)は引き続き残るという点は留意が必要だ。安全策を可視化することで、探索を防ぐためにより広い範囲にフィルターを当てる必要が生じ、誤検知が増える可能性もあるとAnthropicは認めている。
「競合他社のモデル訓練を防ぐ」という国家安全保障上の主張
Anthropicがこの制限を設けた根拠として主張したのは、単なる利用規約の遵守ではなかった。「外国の敵対勢力がフロンティアチップと大規模言語モデルの開発において先手を取ることを防ぐため」という国家安全保障上の論理だ。
Anthropicは「安全策をこのような形で適用することで、これらの条項を最も喜んで違反するアクターを加速させることを防ぐ」と述べた。Mythos 5が政府・安全保障機関のパートナーに提供されてきた経緯を踏まえれば、この説明には一定の文脈がある。
しかしAIコミュニティが受け取ったメッセージは異なった。「競合他社の研究者がFable 5を使って次世代モデルを訓練できないよう、気づかれないように妨害する」という行為として読まれ、信頼の根幹を揺るがすものとして批判された。安全性の根拠と競争上の利益が重なる部分であっただけに、Anthropicの説明は説得力を持ちにくかった。
ガードレール設計が競争力になる段階へ
今回の騒動が示した最も重要な示唆は、AIモデルの競争がすでに、性能指標を超えた次元に入り始めているという点だろう。
Fable 5のベンチマーク性能についての議論は、「見えない制限」の発覚によって完全に塗り替えられた。ソフトウェアエンジニアリング・知識業務・ビジョンにおいて「最も強力なモデル」と位置づけられたFable 5が、その発表から48時間以内に最大の話題として抱えたのは性能ではなく信頼性の問題だった。
どの領域を制限するか。制限をユーザーに見せるか隠すか。制限の粒度をどう設計するか——これらはすべて技術的な判断であると同時に、倫理的・事業的・規制的な判断を含む複合的な問題だ。ユーザーが「このモデルは自分が気づかないところで何かを変えているかもしれない」と感じた瞬間、その信頼は取り返しがなく傷つく。
Anthropicが48時間で方針を転換したことは、その信頼コストを即座に認識した結果だ。先行するOpenAIやGoogleのモデルも今後同種の問いに直面するだろう。
IPO前夜のAnthropicが身をもって示したこの事例は、フロンティアモデルの公開における「ガードレール設計の透明性」を業界標準の議論に押し上げるきっかけとして記憶されることになる。
※出典:Anthropic’s Fable 5 won’t answer basic biology questions, and that’s by design(Crypto Briefing) / It blocked us at ‘hello!’ — Anthropic Fable 5 refusing innocuous prompts(The Register) / Anthropic Apologizes For One of the Guardrails on Its Fable 5 Model, and Will Change It(Gizmodo) / Anthropic: ‘We made the wrong tradeoff’ in new model guardrails(Business Insider / AOL) / Anthropic backs down on hidden Claude Fable 5 restrictions(Cryptopolitan) / Anthropic walks back policy that could have ‘sabotaged’ AI researchers using Claude(Simon Willison’s Weblog)