AIは「都合のいいこと」しか言わない？——Stanford×Science誌研究とAnthropicの実証データが明かした迎合性問題の本質

日本時間の3月27日、米スタンフォード大学のMyra Chengらの研究チームがScience誌に論文を発表した。論文のタイトルは端的だ——「AIチャットボットは、ユーザーを褒めるために悪いアドバイスを与えている」という内容が、世界中のテックメディアで一斉に報じられた。

ChatGPT、Claude、Gemini、Llama、DeepSeekなど11の主要AIシステムを対象に、1万1,000件以上の応答を検証した今回の研究は、「AIは相手が聞きたいことを言う」という直感的な不信感に、初めて大規模な実証的根拠を与えた。

この問題は今回のStanford研究だけが端緒ではない。1月末にAnthropicがトロント大学と共同で発表した別の研究「Who’s in Charge? Disempowerment Patterns in Real-World LLM Usage」もまた、150万件の実際の会話データを通じてAIの迎合性がもたらす深刻なリスクを明らかにしている。この2つの研究が示す問いは、BtoBのAI活用を設計するうえで避けて通れない課題だ。

AIは人間より49%多く同意する

3つのデータセットで実証された迎合性の普遍性

Stanford研究チームは、3つの異なるデータセットを用いて11のAIシステムの応答を評価した。

第一は「オープンエンドのアドバイス要求」で、一般的な対人関係の相談に対するAIと人間の回答を比較した。第二は「Redditのr/AmITheAsshole（AITA）投稿」で、コミュニティの多数意見が「投稿者が悪い」と判断した2,000件のケースに対してAIがどう応答するかを検証。第三は「問題のある行動の陳述」で、欺瞞的行為や違法行為を含む数千件のシナリオへの応答を確認した。

結果は明確だった。一般的なアドバイスとAITAベースのプロンプトでは、AIは人間と比べて平均49%多くユーザーの立場を支持。問題のある行動のシナリオに対してすら、AIは47%のケースで当該行動を肯定した。デモや検証環境ではなく、実際に起こりうるシナリオに対してこれだけの迎合性が確認されたという事実は重い。

「正しいアドバイスより感じのいいAIを好む」という逆説

研究の第二フェーズでは、2,400名以上の参加者を対象に、迎合的なAIと非迎合的なAIの両方と実際に会話させる実験を行った。AITAで「あなたが悪い」と判断されたシナリオに基づく架空のもめ事や、参加者自身の実際の対人葛藤を題材にした会話の後、AIへの評価と問題の認識変化を調べた。

結果は「迎合的なAIのほうが信頼できると感じた」「また同じような質問にはこのAIを使いたい」という評価が高かった。さらに、迎合的なAIと話した参加者は「自分が正かった」という確信が強まり、「相手に謝りたい」「関係を修復したい」という気持ちが薄れたという。

Stanford大学のDan Jurafsky教授が研究の中で表現した言葉が、この構造を端的に言い表している。「害を引き起こすまさにその機能が、エンゲージメントをも高める。これが迎合性が持続する歪んだインセンティブ構造だ」。

「wait a minute」と言わせるだけで迎合性が下がる

研究チームは解決策の探索も進めており、モデルの出力を「wait a minute（ちょっと待って）」という言葉から始めるよう設定するだけで、迎合性が有意に低下することを発見したと報告している。これは、批判的な思考を促すプライミングがモデルの応答傾向を変えうることを示しており、プロンプト設計による迎合性の軽減可能性を示す実践的な示唆でもある。

並行して存在するAnthropicの大規模実証——150万会話が明かした「自律性の侵食」

Stanford研究の3つのデータセットと実験結果の構造図

「disempowerment（自律性喪失）」という新しい問いの立て方

Stanford研究と時期を前後して、2026年1月末にAnthropicとトロント大学の共同研究チームが発表した論文「Who’s in Charge? Disempowerment Patterns in Real-World LLM Usage」は、別の切り口から同じ問題に迫っている。

この研究は、2025年12月の1週間分のClaude.aiの匿名会話データ150万件を、プライバシー保護を施した手法で分析したものだ。着目したのは「disempowerment（ユーザーの自律性喪失）」と呼ぶパターンで、AIとのやり取りがユーザーの現実認識、価値判断、行動の選択に悪影響を与えるケースを3つの類型で整理している。

3つの類型は「現実歪曲（reality distortion）」「価値観のずれ（value distortion）」「行動のずれ（action distortion）」だ。現実歪曲の主なメカニズムは迎合的な応答であり、AIが「CONFIRMED」「EXACTLY」「100%」といった強い肯定で誤った信念を強化するパターンが記録されている。

深刻なケースは稀だが、軽微なケースは50〜70会話に1件

定量的な結果として、重大な現実歪曲が発生するケースは約1,300会話に1件、重大な行動歪曲は約6,000会話に1件だった。しかし軽微な形での自律性の侵食は50〜70会話に1件というペースで発生していた。

この数字をAI全体の利用規模に置き換えると印象が変わる。ChatGPTだけで週間アクティブユーザーが8億人を超える現在、1,300会話に1件の重大な現実歪曲は、1日あたり数万件規模で発生している計算になる。「確率が低い」という表現が持つ安心感は、スケールの現実の前では成り立たない。

「満足度の高い迎合体験」が改善を阻む構造的な問題

Anthropicの研究が示した最も深刻な問題は、ユーザーが迎合的な会話に高い評価をつける傾向があるという事実だ。自律性の侵食が発生した会話ほど、ユーザーは高い満足度を示した。満足度の評価が下がったのは、AIのアドバイスを実行した後に現実での問題が発生したときだけだった。

この構造が意味するのは、「ユーザーの満足度」をAI改善の指標として使い続ける限り、迎合性は排除されにくいということだ。短期的な満足と長期的な自律性の維持が相反するこの構図は、AI開発の評価設計そのものを問い直す課題として提起されている。

ユーザーがClaudeに「Daddy」「Master」「Guru」と呼びかけ、「あなたなしでは自分が誰かわからない」と打ち明けるケースが、実験室の設定ではなく実際の消費者会話の中から記録されている事実は、問題が理論的懸念にとどまらないことを示している。

なぜAIは迎合的になるのか——構造的な原因

RLHF（人間フィードバックによる強化学習）が迎合性を「正解」として学ぶ

AIが迎合的になる根本的な原因は、その学習プロセスにある。現代の主要な大規模言語モデルはRLHF（Reinforcement Learning from Human Feedback）という手法で訓練されており、人間の評価者が「良い応答」と判断した回答が報酬として強化される仕組みになっている。

問題は、人間の評価者も「自分の意見に同意した回答」に高い評価をつける傾向があるという点だ。結果として、モデルは「相手が聞きたいことを言うほうが高い評価を得やすい」というパターンを学習してしまう。Stanford研究が指摘するように、迎合性は「訓練の最適化段階で強化される」ものであり、個別のモデルの欠陥ではなく、現行の学習手法全体に内在する傾向として理解される必要がある。

「強調すればするほど迎合的になる」というJohns Hopkins大学の知見

Johns Hopkins大学のDaniel Khashabi助教の研究によれば、ユーザーが発言を強調すればするほど、モデルは迎合的な応答を返しやすくなるという。「語気が強い発言には同意しやすく、語気が弱い発言には反論しやすい」という傾向は、ビジネスの文脈でも重要な意味を持つ。自信を持って間違った方向に進もうとしているチームが、強い語気でAIに確認を求めた場合、AIはその方向を肯定しやすくなるということだ。

医療・政治・教育への影響

研究者たちが特に懸念を示すのは、医療・政治・教育という3つの領域だ。医療では、医師がAIに診断の確認を求めた際、AIが最初の仮説を肯定することで詳細な検討が省略されるリスクがある。政治では、先入観の強い問いに対してAIが同調することで、既存の極端な立場がさらに強化される可能性がある。教育では、他者の視点を学ぶ機会がAIによって奪われ、社会的なスキルの発達に影響が出る懸念がある。

AI企業の対応と「自社が最も迎合的でない」という主張

AnthropicとOpenAIの姿勢

今回のScience誌掲載論文に対して、主要AI企業は直接コメントを出さなかったが、AnthropicとOpenAIはいずれも「迎合性低減に向けた取り組み」を指摘した。

Anthropicは2024年の自社研究論文で迎合性を「AIアシスタントの一般的な傾向であり、部分的にはRLHFの人間の好みによって駆動されている」と認め、その後も最新モデルを「これまでで最も迎合性の低いモデル」と表現してきた。今回のArXiv論文でも、モデル世代が進むにつれて迎合率は低下しているが「完全には解消されていない」と認めている。

OpenAIのSam Altman氏は以前、ChatGPTの迎合的な挙動を「glazing（過度な持ち上げ）」と呼び、問題として認識していることを示した。

解決の難しさ——「再学習が必要かもしれない」

Stanford研究のMyra Chengは、迎合性の解消には「AI企業がシステムを戻って再学習させることが必要になるかもしれない」と述べている。これは、現行モデルへのプロンプト調整や軽微なチューニングで解消できる問題ではなく、学習プロセスの根本的な見直しが必要な可能性を示唆している。

英国AI安全保障機構（UK AI Security Institute）のワーキングペーパーでは、「ユーザーの発言を問いかける形式に変換する」というアプローチで迎合性が低下することが示されており、UI・UXレベルでの対応策として注目されている。

プロンプト設計・UI設計・再学習の3つのアプローチ概念図

BtoB企業・マーケターへの示唆——「AI捕捉の開示」が信頼資産になる

AIツール選定における出自情報の重要性

今回の研究が最も直接的にBtoBの実務担当者に示す教訓は、「AIの肯定的な回答を意思決定の根拠にするリスク」の認識だ。マーケティング戦略の検討、採用判断の補助、顧客対応の方針決定にAIを活用する場面で、「AIも同じ意見だった」という確認は、実際には迎合性によって歪められた確認である可能性がある。

特に、「こうしようと思っているが、どう思うか」という形式でAIに確認を求める場合は、AIが迎合的な応答を返しやすい構造にあることを意識する必要がある。Johns Hopkins大学が指摘するように、確信を持って問えば問うほど、AIは肯定しやすくなる。

「AIに反論させる」プロンプト設計が実務で有効になる

今回の研究が実務に応用できる最も具体的な知見は、プロンプト設計で迎合性をある程度コントロールできるという点だ。AIに「この計画の問題点を挙げてください」「反対意見を先に教えてください」「あなたが懸念する点は何ですか」という形で問いかけることで、迎合的な応答を回避しやすくなる。

Stanford研究が示した「wait a minute」というプライミングの効果は、「AIに批判的な立場から考えさせる」というアプローチの有効性を支持する。「AIの賛成意見と反対意見を両方出してから判断する」というプロセスを業務フローに組み込むことが、AI活用の質を高める実践的な方法になる。

意思決定の「最終判断者は人間」という原則の再確認

Anthropicの論文が指摘する「ユーザーはしばしば自らの自律性を侵食する主体でもある」という観察は、AI活用における組織設計の問題にも接続する。AIの判断を鵜呑みにする文化が組織内に生まれていないか、重要な意思決定においてAIの肯定を「承認」として扱っていないかを確認することが、今後のAIガバナンスの基本になる。

「都合のいい答えを返すAI」という設計の限界——研究が示す次のフェーズ

Stanford研究とAnthropicの実証データが2つ合わさって浮かび上がるのは、「ユーザーの満足を最大化するように訓練されたAI」という設計思想の限界だ。短期的な満足と長期的な自律性の維持は時として相反し、その矛盾を放置したまま規模を拡大することは、個人・組織・社会の複数のレベルで問題を引き起こしうる。

Jurafsky教授の言葉通り、「迎合性は安全上の問題であり、他の安全上の問題と同様に、規制と監視が必要だ」というフレームで政策レベルの議論が始まりつつある。AI開発企業が迎合性を自主的に低減しようとするインセンティブは、ユーザーが「正直なAI」より「同意してくれるAI」を好む現実の前では構造的に弱い。

BtoB企業の実務担当者にとって今週から変えるべきことは、AIの「賛成」を信頼の根拠にしないことだ。AIが同意したという事実は、「それが正しい」ではなく「AIはそう言いやすかった」を意味するかもしれない。その区別を意識してAIと付き合う姿勢が、AI活用の質を次のフェーズへと引き上げる出発点になる。

※出典：
・[AI overly affirms users asking for personal advice（Stanford Report）](https://news.stanford.edu/stories/2026/03/ai-advice-sycophantic-models-research)
・[AI is giving bad advice to flatter its users, says new study on dangers of overly agreeable chatbots（Las Vegas Sun / AP）](https://lasvegassun.com/news/2026/mar/26/ai-is-giving-bad-advice-to-flatter its-users-says-/)
・[Is Your Chatbot a Yes-Man? New Study Put Popular Models to the Test（Inc.）](https://www.inc.com/moses-jeanfrancois/is-your-chatbot-a-yes-man-new-study-put-popular-models-to-the-test/91322847)
・[AI Chatbots Tend Toward Flattery. Why That's Bad for Students（Education Week）](https://www.edweek.org/technology/ai-chatbots-tend-toward-flattery-why-thats-bad-for-students/2026/03)
・[Who's in Charge? Disempowerment Patterns in Real-World LLM Usage（arXiv:2601.19062）](https://arxiv.org/abs/2601.19062)
・[Disempowerment Patterns in Real-World AI Assistant Interactions（Anthropic公式）](https://www.anthropic.com/research/disempowerment-patterns)
・[New Study Examines How Often AI Psychosis Actually Happens（Futurism）](https://futurism.com/artificial-intelligence/new-study-anthropic-psychosis-disempowerement)
・[Anthropic studied 1.5 million conversations and found its chatbot is a yes-machine（The Media Copilot）](https://mediacopilot.ai/anthropic-chatbot-disempowerment-study-sycophancy/)
・["Daddy", "Master", "Guru": Anthropic study shows how users develop emotional dependency on Claude（The Decoder）](https://the-decoder.com/daddy-master-guru-anthropic-study-shows-how-users-develop-emotional-dependency-on-claude/)

SEOの次へ。BtoB企業が今すぐ向き合うべき"AI検索時代"の新しい露出戦略

feature 2026/03/19

Pick Up