Shuichiro Ogawa

Notes ・ updated 2026-06-28

AI の期待-能力ギャップと UX — 学術レビュー(2026)

査読論文・主要プレプリント 32 件を軽量スコーピングで収集・整理した統合要約。 各文献の完全な書誌は末尾「参照文献」を参照(DOI/URL つきで追跡可能)。出典追跡・確度つきの内部作業台帳は source/review/ai-expectation-gap-ux/papers.md(リポジトリ内部・非公開)。産業側は ai-expectation-gap-ux-industry。 収集系統: scholarly-search-agent(探索)。規約 .claude/collection-protocol.md(捏造ゼロ・出典追跡)。

調査メタ情報

  • 収集日: 2026-06-28 / 件数: 32(軽量スコーピング=見落とし回避優先)
  • 媒体重心: ACM CHI / CSCW / IUI / FAccT、IJHCS、Human Factors、HDSR、arXiv(cs.HC)
  • 確度の注意: 未査読プレプリント 2 件(P20, P32)。P22 は Microsoft Research テクニカルレポート(非査読・方法論明示・T2 扱い)。

TL;DR

AI の期待-能力ギャップ研究は、2016 年の「Gulf of Expectation」問題提起(P02)から 2024 年の生成 AI 設計原則(P29)へ、一貫して「ユーザーが AI にできることとできないことを正しく把握し、適切に依存する」条件の解明を目指してきた。 知見は次の5領域に集約される。

  1. 信頼キャリブレーション: 過信も不信もパフォーマンスを損なう。「適切な依存(appropriate reliance)」が設計目標(P01, P23, P24, P31)。
  2. メンタルモデル: ユーザーの AI 能力理解の正確さがチーム性能を決定する。精度表示だけでは不十分で、エラー境界の理解が鍵(P05, P06, P13)。
  3. 期待値校正のデザイン介入: 不完全さの事前開示(P08)、オンボーディングでのグローバル特性説明(P07)、cognitive forcing functions(P15)が実証的に有効。
  4. 説明可能性の限界: 説明を付加するだけでは過信は減らない(P15, P17)。タスク難易度に応じた文脈的な説明設計が必要(P25)。
  5. 擬人化の逆効果: 人間らしさの付与が期待を過剰に引き上げ、失敗時の失望を増幅する(P02, P14, P21)。

領域別の要点

A. 信頼キャリブレーション(7件)

この領域の研究は「AI をどれだけ信頼すべきか」ではなく「AI の信頼性に見合った信頼を形成する条件」を扱う。

Lee & See(P01, 2004)が自動化への信頼を calibration(信頼と信頼性の一致度)、resolution(文脈による信頼の区別)、specificity(対象の粒度)の3軸で定義したのが基盤となり、以降の研究はこの枠組みを AI に適用・拡張してきた。 Wischnewski ら(P23, CHI 2023)は 1000 超の論文から 96 件を精査し、信頼キャリブレーションの測定法・介入・結果を体系化した。 Mehrotra ら(P31, 2024)も 96 論文の系統的レビューで「適切な信頼を育てる介入」の傾向を整理し、介入の多くが短期実験に偏り長期効果が未検証であることを指摘した。 Schemmer ら(P24, IUI 2023)は Appropriateness of Reliance(AoR)を過信・過小信頼を区別する2次元計量概念として定義し、説明付加の効果を 200 名実験で測定した。 Jacovi ら(P18, FAccT 2021)は warranted trust(根拠ある信頼)と unwarranted trust(根拠なき信頼)を概念的に区別し、contractual trust の形式化を提案した。

設計含意: 信頼度を上げること自体は目標ではない。目標は AI の実際の能力に見合った信頼の形成(calibration)であり、過信の低減と不信の解消は別の介入を必要とする。

B. メンタルモデルと期待形成(6件)

ユーザーが AI の能力・限界についてどのような理解を構築するかを扱う。

Luger & Sellen(P02, CHI 2016)が会話エージェントへの期待と実動作の乖離を「Gulf of Expectation」と名づけた。 Bansal ら(P05, HCOMP 2019)は AI の精度だけでなくエラー境界(どこで間違えるか)のメンタルモデルが人間-AI チームの成否を分けることを実証した。 Yin ら(P06, CHI 2019)は表示精度と観察精度の両方がユーザーの信頼に影響するが、非専門家は精度の文脈を正しく解釈できないことを示した。 Gero ら(P13, CHI 2020)は協調ゲームで AI エージェントのメンタルモデルを大域的行動・局所的行動・知識分布の3カテゴリに分類した。 Grimes ら(P14, DSS 2021)は Expectation Violation Theory を適用し、事前期待の高低が実際のパフォーマンスを超えて満足度を左右することを 175 名実験で示した。 Yang ら(P12, CHI 2020)は AI のアウトプット複雑性・能力不確実性・アダプティブ性が従来の UI 設計を本質的に困難にする構造を分析した。

設計含意: 精度の数値表示だけでは不十分。ユーザーが「この AI はどこで間違えるか」を把握できるグローバルな特性説明が、メンタルモデルの正確さを高める。

C. 期待値校正のデザイン介入(4件)

AI の不完全さをどう伝え、ユーザーの期待を現実に合わせるかの実証研究。

Kocielnik ら(P08, CHI 2019)は 550 名2実験で、誤り種別(False Positive / False Negative)の事前開示と精度表示が期待値校正に有効なことを示した。 Cai ら(P07, CSCW 2019)は 21 名の病理医を対象に、モデルのグローバルな特性・強み・限界・設計目的の事前説明が必要であり、それは同僚の観点を理解するのに近い情報ニーズであることを示した。 Kinney ら(P30, Heliyon 2024)は医療・教育の 14 名インタビューから、AI 導入前の期待管理フレームワークを構築した。 Lobentanzer(P32, arXiv 2026)はソフトウェア開発・臨床文書・臨床意思決定支援の3領域でメタ分析を行い、ソフトウェア開発では 24% の高速化期待に対し実際は 19% の遅延(43pp の誤差)という定量的乖離を示した。

設計含意: 「何ができるか」だけでなく「何ができないか」「どう間違えるか」の事前開示が期待校正の核。ただし医療や教育では導入前の文脈設定がオンボーディングより重要。

D. 説明可能性と過信の関係(7件)

XAI(説明可能 AI)のユーザー体験への影響を扱う。この領域の知見は直感に反する部分がある。

Buçinca ら(P15, CSCW 2021)は、説明の付加だけでは AI への過信は減らないことを示した。有効だったのは cognitive forcing functions(AI の回答を見る前にユーザー自身に判断させる等の思考促進 UI)であった。 Poursabzi-Sangdeh ら(P17, CHI 2021)は 3800 名事前登録実験で、モデルの解釈可能性を操作しても信頼やモデル誤り検出に一貫した効果がなかったことを報告した。 Vasconcelos ら(P25, CSCW 2023)は 731 名5研究で、説明が過信を減らすのはタスクが難しい場合に限られることを cost-benefit フレームワークで定式化した。 Liao ら(P11, CHI 2020)は XAI Question Bank を構築し、ユーザーが AI に尋ねる典型的な問い(What-Why-How-What if)を類型化した。 Ehsan ら(P16, CHI 2021)はアルゴリズム透明性だけでなく社会的透明性(組織・文脈との関わり)が必要だと指摘した。 Liao & Vaughan(P28, HDSR 2023)は LLM 時代の透明性欠如問題を指摘し、人間中心の透明性ロードマップを提示した。 Passi & Vorvoreanu(P22, MSR 2022)は約 60 論文を統合して過信の発生メカニズム・測定法・軽減策を体系化した。

設計含意: 「説明すれば信頼が適正化される」という素朴な期待は実証的に支持されない。思考を促す UI 介入(cognitive forcing)や、タスク難易度に応じた説明の出し分けが必要。

E. 擬人化と期待過剰(3件)

AI に人間らしさを付与するデザインが期待ギャップに与える影響。

Crolic ら(P21, J. Marketing 2022)はフィールドデータと4実験で、怒り状態のユーザーに対してチャットボットの擬人化が期待違反を拡大し顧客満足を低下させることを示した。 Feine ら(P10, IJHCS 2019)は会話エージェントの社会的手がかりを4大カテゴリに分類し、人間らしさのデザインと期待形成の関係を整理した。 Luger & Sellen(P02)の知見も、映画やメディアが形成する「知的アシスタント」イメージが過剰な期待の源泉であることを示している。

設計含意: 擬人化は期待を引き上げる。AI の能力がその期待に達しないとき、失望は非擬人化のケースより大きくなる。特に怒りや不満の文脈では逆効果が顕著。

F. デザインフレームワーク・ガイドライン(5件)

実装指針としてのフレームワーク。

Amershi ら(P04, CHI 2019)の 18 ガイドラインは初回インタラクション・通常使用・失敗時・長期変化の4段階で AI の振る舞いを規定し、産業界のガイドライン(Microsoft HAX)の基盤となった。 Weisz ら(P29, CHI 2024)は生成 AI 特有の6原則(Mental Models / Appropriate Trust & Reliance / Generative Variability / Co-Creation / Imperfection / Responsible Design)を提示した。Generative Variability(毎回異なる出力)が従来 UX の一貫性期待に反する点は生成 AI 固有の課題である。 Lai ら(P26, FAccT 2023)は人間-AI 意思決定の実験デザイン空間をタスクリスク・専門性・主観性の3次元で体系化した。 Cheng & Chouldechova(P27, CHI 2023)はアルゴリズム嫌悪が結果コントロールの付与で軽減されることを実証した。 Liao & Varshney(P20, 2021)は XAI を human-centered に設計する枠組みを整理した。

未解決の課題

  1. 長期効果の不在: ほぼ全ての実証研究が1回限りの実験。信頼キャリブレーション介入の長期的効果は未検証(P23, P31 が指摘)。
  2. 生成 AI の非決定性: 同じ入力でも異なる出力が返る生成 AI では、従来の信頼キャリブレーション理論がそのまま適用できるか不明(P29)。
  3. agentic AI への拡張: 行動を起こすエージェント型 AI の期待管理は、出力の閲覧が主の対話型 AI とは質的に異なる(P32)。
  4. 文化差: 収集文献の大半が北米・西欧のユーザーを対象としており、文化圏による期待形成の違いは未探索。

参照文献


← Notes 一覧ホーム