ハルシネーション (人工知能)

ハルシネーション (英語: hallucination)、または幻覚（げんかく）、でたらめ^[1]^[2]、作話（さくわ、英：confabulation）^[3]、ディルージョン（妄想、英：delusion）^[4]とは、人工知能によって生成された、虚偽または誤解を招く情報を事実かのように提示する応答のことである^[5]^[6]^[7]^[8]。

例えば、ChatGPTのような大規模言語モデル（LLM）を搭載したチャットボットは、生成されたコンテンツ内にもっともらしく聞こえる嘘をランダムに埋め込む可能性がある。研究者はこの問題を認識しており、最大27％の確率で幻覚を起こし^[9]、生成されたテキストの46％に事実関係の誤りが存在すると推定している ^[10]。これらの幻覚を検出して軽減することは、LLMの実用面での普及とその信頼性にとって大きな課題となっている^[11]^[9]^[10]。一部の研究者は、この用語がコンピューターを不当に擬人化していると考えている^[3]。

概要

人工知能が虚偽または誤解を招く情報を事実として提示する現象は、精神医学における人間の幻覚（あるいは作話・妄想）とのアナロジーからその名が付けられている。ただし、人間にとっての幻覚とは「対象なき知覚」とも呼ばれ、感覚器官を通じて知覚している「対象が存在しないにもかかわらず真の知覚と区別できない知覚体験をすること」が一般的な定義とされる^[12]。それに対して人工知能の幻覚とは、どのような学習データとも整合しない回答をAIが生成することである^[7]。そのため、幻覚ではなく作話（confabulation）という表現を好んで使う研究者もいる^[13]。

歴史的には、2000年代初頭、コンピュータービジョンでは「幻覚」という言葉が、画像にディテールを加えるプロセスを説明する肯定的な意味合いで使われていた。たとえば、低解像度の入力から高解像度の顔画像を生成するタスクは「フェイス・ハルシネーション」と呼ばれる^[14]^[15]。

2010年代後半には、この用語は意味が変化し、翻訳や物体検出などのタスクにおいてAIシステムが不正確なまたは誤解を招く出力を生成することを意味するようになった^[14]。たとえば、2017年には、Googleの研究者が、ニューラル機械翻訳（NMT）モデルによって生成された応答がソーステキストに関連しない場合にこの用語を使用した^[16]。また、2018年には、コンピュータービジョンにおいて、敵対的攻撃によって存在しないオブジェクトが誤って検出された例を説明するためにこの用語が使用された^[17]。

「幻覚」という用語は、 AIブームの最中に大規模言語モデル（LLM）に基づく広く使用されているチャットボットの普及とともに広く認識されるようになった^[18]。2021年7月、MetaはBlenderBot 2のリリース時に、このシステムは「幻覚」を起こしやすいと警告した。Metaはこれを「真実ではない自信のある発言」と定義している^[19]^[20]。2022年は、ChatGPTやMicrosoft CopilotのようなLLMが公開されたこともあり、人工知能のハルシネーションについて以前にも増して注目が集まった年になった^[21]。2022年11月にOpenAIがChatGPTのベータ版をリリースした後、一部のユーザーから、生成されたコンテンツ内にもっともらしく聞こえる嘘がランダムに埋め込まれていることが多いと苦情が寄せられた^[22]。

こうした言語モデルが生成するコンテンツは「ソシオパス」を思わせるほど、一見もっともらしく聞こえるのに実際には無意味で無作為的な誤りが入り込む現象が起こり、一般の利用者からも不満の声が上がっている^[23]。また別の形のハルシネーションとして、人工知能が人間だと主張するケースもある^[24]。ニューヨークタイムズを含む多くの報道機関は、これらのモデルの時折不正確な、または一貫性のない応答を説明するために「幻覚」という用語を使い始めた^[25]。報道機関などは大規模言語モデルが普及するにつれて、利用者が出力結果を鵜呑みにしてしまい、様々な問題が起こると警鐘を鳴らしている^[26]。

また2023年の時点で、アナリスト^{[要曖昧さ回避]}たちは大規模言語学習をめぐるテクノロジーにおいて、人工知能が頻繁にハルシネーションに陥ってしまう現象は、深刻な問題になるだろうと予想している^[11]。2023年に行われた、GPTをベースにしたMicrosoftのチャットボットであるBing AI Chatのデモンストレーションでも、AIがさまざまなハルシネーション状態に陥ったが、プレゼンターはそれに気づいていなかった^[11]。

→「Bing AI Chat § 問題点」も参照

「ハルシネーション」という概念は自然言語処理以外の分野にも適用される。人工知能が出力した確信的な回答で、しかし学習データからは正当化できないようなものは、いずれもハルシネーションと捉えうる^[7]。

2023年には、いくつかの辞書が「幻覚」の定義を更新し、AI分野での意味が含まれるようになった^[5]^[27]。

用語と批判

「幻覚」という用語は、ノースイースタン大学実験人工知能研究所の所長であるウサマ・ファイヤドによって、大規模言語モデルを誤解を招く形で擬人化しており、曖昧であるという理由で批判されている^[28]。

統計学者のゲイリー・N・スミスは、言語モデルは「言葉の意味を理解していない」ため、「幻覚」という用語は機械を不当に擬人化していると主張している^[29]。ジャーナリストのベンジ・エドワーズは「幻覚」という用語は議論の余地があるが、何らかの形の比喩は必要であると書いている。エドワーズは「創造的なギャップ埋め」を伴うプロセスのアナロジーとして「作話」を提案している^[3]。

自然言語処理では、幻覚は「事実のように見えるが根拠のない生成されたコンテンツ」と定義されることが多い^[30]。

LLM の文脈における「幻覚」という用語の使用、定義、または特徴付けのリストは次の通りである

「予測不能なタイミングで事実を捏造する傾向」（OpenAI、2023年5月）^[31]
「モデルの論理的誤り」（OpenAI、2023年5月）^[31]
「情報を完全に捏造しているが、あたかも事実を語っているかのように振る舞っている」（CNBC、2023年5月）^[31]
「情報の捏造」（The Verge、2023年2月）^[32]

原因

自然言語モデルが幻覚（ハルシネーション）を生じさせる理由によって^[7]、いくつかの分類に分けられる。出力がソースと矛盾するか、ソースから検証できないかによって、それぞれ内因性と外因性に分類される^[7]。出力がプロンプトと矛盾するかどうかによって、それぞれクローズドドメインとオープンドメインに分類できる^[33]。

データからの幻覚

データから幻覚（ハルシネーション）が生じる主な原因は、ソースと参照先の相違である。この相違は、ヒューリスティックなデータ収集の結果として、または必然的にそのような相違を含む一部のNLGタスクの性質により発生する。モデルがソースと参照 (ターゲット) の相違があるデータでトレーニングされると、モデルは根拠がなく、提供されたソースに忠実ではないテキストを生成するようになる可能性がある^[7]。

モデリングによる幻覚

幻覚（ハルシネーション）は、GPT-3などの訓練尤度を最大化するように訓練された不完全な生成モデルの統計的に避けられない副産物であることが示されており、回避するには能動的な学習（人間からのフィードバックによる強化学習など）が必要である^[34]。他の研究では擬人的な視点を取り、幻覚は新奇性と有用性の間の緊張から生じると仮定している。例えば、テレサ・アマビルとプラットは、人間の創造性を斬新で有用なアイデアの創出と定義している^[35]。さらに言えば、機械の創造性において新奇性に焦点を当てると、独創的ではあるが不正確な応答、つまり虚偽の応答を生み出す可能性がある一方、有用性に焦点を当てると、丸暗記された応答を生み出す可能性がある^[36]。

大規模なコーパスでモデルを事前トレーニングすると、モデルがパラメータに知識を記憶し、システムが組み込まれた知識に自信過剰になると幻覚（ハルシネーション）を引き起こすことが知られている。GPT-3などのシステムでは、AIは前の単語のシーケンス（同じ会話中にAI自身が以前に生成した単語を含む）に基づいて次の単語を生成するため、応答が長くなるにつれて幻覚の連鎖が発生する可能性がある^[7]。2022年までに、ニューヨークタイムズなどの新聞は、大規模言語モデルを基盤とするチャットボットが普及するにつれて、その回答に対するユーザーの過剰な信頼が問題を引き起こす可能性があるという懸念を表明した^[37]。

事例

2022年8月、Metaはリリース中だったチャットボットのBlenderBot 3が、ハルシネーションを生じやすいシステムだという注意喚起を行っている（Metaの表現によれば「真実ではないのに自信にあふれた発言」をする^[38]）。

2022年11月15日、Metaは言語モデルGalacticaを公開した。このモデルは「科学的な知識を記憶し、結びつけ、判断する」ようようデザインされていた。しかしGalacticaは文章を生成しながら「タコを信じてはいけない！言語モデルはテキストを幻惑させる傾向がある」といった警告を行うこともあった。アバターを作るための論文を書くように言われたGalaticaが、実在する関連領域の研究者の存在しない架空の論文を引用するケースもあった。Metaはリリース直後の同年11月17日に、不快だったり不正確なコンテンツを生成するという理由で、Galacticaの公開を中止した^[39]^[40]。

2022年11月30日にベータ版として一般公開されたOpenAIのChatGPTは、基盤モデルGPT-3.5（GPT-3の改訂版）をベースにしている。ウォートンのイーサン・モリック教授は、ChatGPTを「全知全能で、時には嘘をつく、喜ばせたがり屋のインターン」と呼んでいる。データサイエンティストのテレサ・クバッカは、「サイクロイド逆電磁石」というフレーズをわざと作り上げ、（存在しない）現象について質問してChatGPTをテストしたことを語った。ChatGPTは、もっともらしい引用文を添えたもっともらしい回答をでっち上げたため、彼女は誤って実際の現象の名前を入力したのではないかと再確認せざるを得なかった。オーレン・エツィオーニなどの他の学者もクバッカに賛同し、そのようなソフトウェアは「非常に印象的に聞こえるが、まったく間違っている回答」を返すことが多いと評価している^[41]。

CNBCがChatGPTに「The Ballad of Dwight Fry」（アリス・クーパーの実在する曲）の歌詞について尋ねたときは、ChatGPTの回答には本物の歌詞より、ChatGPTが創作した歌詞のほうが多く含まれていた^[42]。ニューブランズウィック州について聞かれたChatGPTは、おおむね正しい回答を続けたが、タレントのサマンサ・ビーについて「ニューブランズウィック州出身の人物」（実際はトロント出身）に分類するという誤りをしていた^[43] 。天文物理学における磁性について聞かれたときは、自分から「ブラックホールの（強力な）磁場は、そのすぐそばで働く極めて巨大な重力によって生み出されます」と回答した（実際には降着円盤をもたないブラックホールには、脱毛定理として知られるように、まったく磁場が存在しないと考えられている）^[44] 。アメリカのビジネス雑誌『ファスト・カンパニー』がテスラの最終四半期に関するニュース記事の生成を依頼したときには、ChatGPTは整合性のある記事を作り出したが、そこで挙げられている会社の数字は捏造されたものだった^[45]。

間違った前提を与えて、ChatGPTがその前提を元にした作話をするかどうかを調べたパターンもある。カナダの宗教学者ハロルド・カワードの「ダイナミックな規範性というアイデア」について聞かれたChatGPTは、彼が『ダイナミックな規範性～聖書的・神学的解釈の一例～』という本を書いており、宗教的な原理も実際には常に変化の過程にあるという説明をしている。ChatGPTはそれが事実かと問い詰められても、この本が実在するという主張を曲げなかった^[46]^[47]。恐竜が文明を築いていたことの証拠を求められたときは、恐竜の使っていた道具の化石が残っていて「石に彫刻をするなどの原始的な形態の美術さえ発展させていた恐竜もいる」と主張した^[48]^[49]。「研究者は最近になって、小麦粉から作る美味しい揚げ菓子であるチュロスが…在宅手術において理想的な道具（である）ということを発見した」というプロンプト（回答のための作業要領）を与えられたChatGPTは、「学術誌の『サイエンス』に掲載された研究」によると、チュロスの生地は柔らかいので届きにくい場所にも形を変えれば届く手術用器具であり、香りもよく患者を落ち着かせる作用がある、と回答した^[50]^[51]。

2023年の時点で、アナリストたちは人工知能がハルシネーションに陥りがちな点は大規模言語モデルというテクノロジーにとっての大問題だと考えている。Googleの経営陣も、ハルシネーションによって人工知能が弱体化してしまう現象は、ChatGPTのライバルであるGoogle Bardにとって「根本的な」課題として位置付けている^[11]^[52]。

2023年5月、スティーブン・シュワルツがニューヨーク南部地区連邦地方裁判所に提出した、アビアンカ航空に対する訴訟の弁論要旨の中で、ChatGPTによって生成された6件の偽の判例を提出していたことが発覚した。シュワルツは、これまでChatGPTを使用したことはなく、ChatGPTの出力が捏造されている可能性を認識していなかったと述べ、ChatGPTは判例が存在しないことが発覚した後もその真正性を主張し続けた^[53]。これに対して、テキサス州北部地区連邦地方裁判所のブラントリー・スターは、人間によるレビューを受けていないAI生成の訴状の提出を禁止し、次のように指摘した^[54]^[55]。

生成AIプラットフォームは現状では幻覚や偏見に陥りやすい。幻覚に基づいて、引用や出典さえも捏造する。もう1つの問題は信頼性や偏見である。弁護士は個人的な偏見や先入観、信念を捨てて法律を忠実に守り依頼人の代理を務めることを誓うが、生成型人工知能はそのような誓いを立てる必要のない人間が考案したプログラミングの産物である。したがって、これらのシステムはいかなる依頼人、法の支配、米国の法律や憲法 (または前述のように真実) にも忠誠を誓わない。義務感、名誉、正義感に縛られず、そのようなプログラムは信念ではなくコンピューターコードに従って、道義ではなくプログラミングに基づいて動作する。

6月23日、P・ケビン・カステル判事はこの訴訟を棄却し、シュワルツともう一人の弁護士（シュワルツの以前の主張にもかかわらず、両者とも架空の判例を主張し続けていた）に悪意ある行為を理由に5000ドルの罰金を科した。カステル判事は、判決要旨に多数の誤りと矛盾があるとし、引用された判決の1つを「意味不明」で「ナンセンスに近い」と述べた^[56]。

2023年6月、銃の権利活動家でラジオパーソナリティのマーク・ウォルターズは、ChatGPTがウォルターズの訴訟について名誉毀損的な回答をしたとして、ジョージア州の裁判所でOpenAIを訴えた。問題の訴訟は、2023年5月にワシントン州司法長官ロバート・W・ファーガソンに対して、言論の自由を侵害したとして修正第2条財団によって提起されたものであったが、ChatGPTが生成した要約はそれとは全く似ておらず、ウォルターズが実際には就いたことのない修正第2条財団の役職に就いている間に横領と詐欺で告発されたと主張していた。AI分野の法律専門家ユージン・ヴォロクによると、OpenAIは名誉毀損コンテンツの作成に「実質的に貢献」した可能性が高いため、通信品位法230条の免責の対象外になる可能性が高いとのことである^[57]。

2023年11月、複数の俳優が国政政党「れいわ新選組」を応援している旨のメッセージを載せたまとめサイトが確認され、俳優の所属事務所、れいわ新選組が応援を否定する事態になった^[58]^[59]。サイトの作成者は「該当記事はAIに書かせたものであり、その芸能人が実際にれいわ新選組を応援しているかどうか確認せずに掲載してしまった」と説明している^[60]^[61]。

科学研究

AIモデルは幻覚により、学術研究や科学研究の世界で問題を引き起こす可能性がある。具体的には、ChatGPTのようなモデルが、正しくないか存在しない情報源を引用したケースが複数記録されている。ある研究では、GPT-3が引用した合計178の参考文献のうち、69が不正確または存在しないデジタルオブジェクト識別子（DOI）を返した。さらに28はDOIが不明で、 Google検索で見つけ出すこともできないものであった^[62]。

ミシシッピ大学のジェローム・ゴダードも別の事例を記録している。ある実験で、ChatGPTはダニに関する疑わしい情報を提供した。回答の妥当性に確信が持てなかった彼らは、その情報がどこから収集されたのかを問い合わせた。情報源を見ると、DOIと著者名が幻覚であったことは明らかだった。著者の何人かに連絡を取ったところ、彼らは論文の存在を全く知らなかったことがわかった^[63]。ゴダードは、「ChatGPTの現在の開発状況では、医師や生物医学研究者はChatGPTに特定のトピックに関する情報源、参考文献、引用文献を尋ねるべきではない。尋ねる場合は、そのような参考文献はすべて正確性について慎重に精査されるべきである」と述べている^[63]。これらの言語モデルの使用は学術研究の分野ではまだ準備が整っておらず、慎重に扱う必要がある^[64]。

ChatGPTは、不正確または欠落した参考資料を提供するだけでなく、一部の参考資料の内容を幻覚的に表示するという問題もある。ChatGPTが提供した合計115の参考資料を分析した調査では、そのうち47％が捏造されたものだった。さらに46％は実際の参考資料を引用していたが、そこから誤った情報を抽出していた。残りの7％の参考資料のみが正しく引用され、正確な情報を提供していた。ChatGPTは、多くの誤った情報を「二重に利用」していることも観察されている。幻覚による可能性のある間違いについてChatGPTに質問すると、ChatGPTは自分自身を訂正しようとすることもあるが、回答が正しいと主張し、さらに誤解を招く情報を提供することもある^[65]。

言語モデルによって生成されたこれらの幻覚的な記事は、記事がAIによって生成されたかどうかを判断するのが難しいという問題も引き起こしす。これを示すために、ノースウェスタン大学シカゴ校の研究者グループは、既存のレポートに基づいて50のアブストラクトを作成し、その独創性を分析した。盗作検出器は、生成された記事に100％の独創性スコアを与えた。つまり、提示された情報は完全にオリジナルであるように見える。AIによって生成されたテキストを検出するように設計された他のソフトウェアは、これらの生成された記事を66％の精度で正しく識別することができた。研究者も同様のヒューマンエラー率を示し、これらの要約を68％の割合で識別した^[66]。この情報から、この研究の著者は、「一部の出版社はポリシーを定め始めているものの、科学的な執筆におけるChatGPTの使用の倫理的および許容可能な境界は依然として不明」と結論付けた^[67]。

AI生成物が場合によっては本物の科学研究として扱われてしまうことがあると考えれば、学術研究や科学研究の分野で言語モデルの利用は問題となる。存在しない参考資料や不正確な情報を返す可能性が高いため、これらの言語モデルに関して制限を設ける必要があるかもしれない。幻覚というよりは、これらのイベントは「捏造」や「偽造」に近く、これらの言語モデルの使用は分野全体にリスクをもたらすと主張する人もいる^[68]。

自然言語処理

自然言語処理の世界において、人工知能のハルシネーションは「与えられたデータ (source content) からは信じがたい、あるいはナンセンスなコンテンツが生成されること」と定義されている。OpenAIの説明によれば、ハルシネーションにはクローズドドメインとオープンドメインに分類される。与えられた範囲（コンテクスト）の中だけで利用可能な情報を使用するように指示されたモデルが、その範囲に存在しない情報を作ってしまう場合（例えばある新聞記事を要約せよと言われたのに、要約には記事にない情報が含まれているなど）がクローズドドメインなハルシネーションであり、入力された特定のコンテクストを参照せずに、森羅万象について誤った情報を堂々と答える現象がオープンドメインなハルシネーションである^[69]。

GPT-3のようなシステムでは、人工知能は過去に入力された一連の単語をもとに次の単語を出力して文章を生成する。進行中の応答には、過去に人工知能自身が生成した文章をもとに出力された単語が含まれるため、応答が長文になるほどハルシネーションが起こる可能性は加速度的に大きくなる^[7]。

自然言語処理モデルが、ハルシネーションを起こすことにはさまざまな原因が考えられる^[7]。例えば、

データに起因するハルシネーション ：与えられたデータに相違が生じている。大規模な学習用データセットを使う場合に起こりやすい。
学習に起因するハルシネーション：データセットの相違が小さい場合でもハルシネーションは起こる。その場合はモデルが学習するときのやり方に由来している。このタイプの場合は、さらに様々な理由が考えられる。
- トランスフォーマーからのデコードにエラーがある
- モデルが以前に生成した過去の一連の文章からバイアスが生じている
- パラメータ群に基づいてモデルが知識をエンコードする過程でバイアスが生じている

物体検出

Wiredが引用したさまざまな研究者は、敵対的幻覚を高次元の統計的現象として分類したり、幻覚の原因を不完全な訓練データに帰したりしている。一部の研究者は、物体検出の場合に人間が「幻覚」と分類した一部の「誤った」 AIの応答は、実際には訓練データによって正当化される可能性がある、あるいはAIが人間のレビュー担当者が見逃している「正しい」回答を出している可能性があると考えている。たとえば、人間にとっては普通の犬の画像のように見える敵対的画像は、AIには、（本物の画像では）猫を見たときにのみ現れる小さなパターンが含まれているように見える可能性がある。この場合AIは、人間が感知できない現実世界の視覚パターンを検出している^[70]。

Wiredは2018年に、研究者による概念実証攻撃以外では記録された攻撃がないにもかかわらず、消費者向けガジェットや自動運転などのシステムが、AIに幻覚を引き起こす可能性のある敵対的攻撃の影響を受けやすいことに「ほとんど異論はない」と指摘した。例としては、コンピュータービジョンでは見えなくなった一時停止標識、人間には無害に聞こえるように設計されたがソフトウェアでは「evil dot com」と書き起こされた音声クリップ、 Google Cloud Visionが91％の確率で「犬」であると特定したスキー板に乗った2人の男性の画像などがある^[17] 。しかし、これらの調査結果は他の研究者によって異議を唱えられている^[71]。たとえば、モデルは表面的なバイアスに陥り、敵対的機械学習が現実のシナリオでは頑健ではない可能性があるという異議が唱えられた^[71]。

テキストから音声を生成するAI

テキストから音声を生成するAI、またはより広義にはテキストから音声への合成（TTS）として知られているAIは、モダリティによっては不正確で予期しない結果を生み出すことが知られている^[72] 。

テキストから画像を生成するAI

Stable Diffusion、MidjourneyなどのText to Imageのモデルは、テキストプロンプトから画像を生成する能力に優れているが、不正確な結果や予期しない結果を生成することがよくある。注目すべき問題の一つは、歴史的に不正確な画像が生成されることである。例えば、Geminiは古代ローマ人を黒人として描写した^[73]、またはナチスドイツ兵を有色人種として描写した^[74]ため、論争が巻き起こり、GoogleはGeminiでの人物の画像生成を停止した^[75] 。

緩和策

幻覚（ハルシネーション）現象はまだ完全には解明されていない。研究者らは、幻覚（ハルシネーション）は避けられないものであり、大規模言語モデルの本質的な限界であるとも提唱している^[76]。そのため、その発生を軽減するための研究が現在も行われている^[77]。特に、言語モデルは幻覚を引き起こすだけでなく、この問題を軽減するように設計されたものであっても、かえって幻覚を増幅させることが示された^[78]。

脚注

[脚注の使い方]

注釈

出典

^ Dolan, Eric W. (2024年6月9日). “Scholars: AI isn't "hallucinating" -- it's bullshitting” (英語). PsyPost - Psychology News. 2024年6月11日閲覧。
^ Hicks, Michael Townsen; Humphries, James; Slater, Joe (2024-06-08). “ChatGPT is bullshit” (英語). Ethics and Information Technology 26 (2): 38. doi:10.1007/s10676-024-09775-5. ISSN 1572-8439.
^ ^a ^b ^c Edwards, Benj (6 April 2023). “Why ChatGPT and Bing Chat are so good at making things up” (英語). Ars Technica 11 June 2023閲覧。
^ “Shaking the foundations: delusions in sequence models for interaction and control”. www.deepmind.com (22 December 2023). 2024年12月10日閲覧。
^ ^a ^b “Definition of HALLUCINATION” (英語). www.merriam-webster.com (2023年10月21日). 2023年10月29日閲覧。
^ Joshua Maynez; Shashi Narayan; Bernd Bohnet; Ryan McDonald (2020). "On Faithfulness and Factuality in Abstractive Summarization". Proceedings of The 58th Annual Meeting of the Association for Computational Linguistics (ACL) (2020). arXiv:2005.00661. 2023年9月26日閲覧。
^ ^a ^b ^c ^d ^e ^f ^g ^h ⁱ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin et al. (November 2022). “Survey of Hallucination in Natural Language Generation” (pdf). ACM Computing Surveys (Association for Computing Machinery) 55 (12): 1–38. arXiv:2202.03629. doi:10.1145/3571730 15 January 2023閲覧。.
^ “ハルシネーション（Hallucination）とは？”. @IT (2023年11月6日). 2023年12月6日閲覧。
^ ^a ^b Metz, Cade (6 November 2023). “Chatbots May 'Hallucinate' More Often Than Many Realize”. The New York Times
^ ^a ^b de Wynter, Adrian; Wang, Xun; Sokolov, Alex; Gu, Qilong; Chen, Si-Qing (2023-07-13). “An evaluation on large language model outputs: Discourse and memorization”. Natural Language Processing Journal 4. arXiv:2304.08637. doi:10.1016/j.nlp.2023.100024. ISSN 2949-7191.
^ ^a ^b ^c ^d Leswing, Kif (14 February 2023). “Microsoft's Bing A.I. made several factual errors in last week's launch demo” (英語). CNBC 16 February 2023閲覧。
^ 福田正人. “幻覚”. 脳科学辞典. 2023年4月24日閲覧。
^ Millidge. “LLMs confabulate not hallucinate” (英語). www.beren.io. 2023年4月16日閲覧。
^ ^a ^b “AI Hallucinations: A Misnomer Worth Clarifying”. arxiv.org. 2024年4月2日閲覧。
^ “Face Hallucination”. people.csail.mit.edu. 2024年4月2日閲覧。
^ “Hallucinations in Neural Machine Translation”. research.google. 2024年4月2日閲覧。
^ ^a ^b Simonite, Tom (2018-03-09). “AI Has a Hallucination Problem That's Proving Tough to Fix”. Wired (Condé Nast) 29 December 2022閲覧。.
^ Zhuo, Terry Yue; Huang, Yujin; Chen, Chunyang; Xing, Zhenchang (2023). "Exploring AI Ethics of ChatGPT: A Diagnostic Analysis". arXiv:2301.12867 [cs.CL]。
^ “Blender Bot 2.0: An open source chatbot that builds long-term memory and searches the internet” (英語). ai.meta.com. 2024年3月2日閲覧。
^ Tung, Liam (8 August 2022). “Meta warns its new chatbot may forget that it's a bot” (英語). ZDNET 30 December 2022閲覧。
^ Zhuo, Terry Yue; Huang, Yujin. "Exploring AI Ethics of ChatGPT: A Diagnostic Analysis". arXiv:2301.12867 [cs.CL]。
^ Seife, Charles (13 December 2022). “The Alarming Deceptions at the Heart of an Astounding New Chatbot”. Slate 16 February 2023閲覧。
^ Seife, Charles (13 December 2022). “The Alarming Deceptions at the Heart of an Astounding New Chatbot”. Slate 16 February 2023閲覧。
^ Eliot. “AI Ethics Lucidly Questioning This Whole Hallucinating AI Popularized Trend That Has Got To Stop” (英語). Forbes. 2023年3月6日閲覧。
^ Weise, Karen; Metz, Cade (2023-05-01). “When A.I. Chatbots Hallucinate” (英語). The New York Times. ISSN 0362-4331 2023年5月8日閲覧。.
^ Metz, Cade (10 December 2022). “The New Chatbots Could Change the World. Can You Trust Them?”. The New York Times 30 December 2022閲覧。
^ Creamer, Ella (2023年11月15日). “'Hallucinate' chosen as Cambridge dictionary's word of the year”. The Guardian. 2024年6月7日閲覧。
^ Stening, Tanner (2023年11月10日). “What are AI chatbots actually doing when they 'hallucinate'? Here's why experts don't like the term” (英語). Northeastern Global News. 2024年6月14日閲覧。
^ “An AI that can "write" is feeding delusions about how smart artificial intelligence really is” (英語). Salon. (2 January 2023) 11 June 2023閲覧。
^ Tonmoy, S. M. Towhidul Islam; Zaman, S. M. Mehedi; Jain, Vinija; Rani, Anku; Rawte, Vipula; Chadha, Aman; Das, Amitava (2024-01-08), A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models, arXiv:2401.01313
^ ^a ^b ^c Field, Hayden (31 May 2023). “OpenAI is pursuing a new way to fight A.I. 'hallucinations'” (英語). CNBC 11 June 2023閲覧。
^ Vincent, James (8 February 2023). “Google's AI chatbot Bard makes factual error in first demo”. The Verge 11 June 2023閲覧。
^ OpenAI (2023). "GPT-4 Technical Report". arXiv:2303.08774 [cs.CL]。
^ Hanneke, Steve; Kalai, Adam Tauman; Kamath, Gautam; Tzamos, Christos (2018). Actively Avoiding Nonsense in Generative Models. Vol. 75. Proceedings of Machine Learning Research (PMLR). pp. 209–227.
^ Amabile, Teresa M.; Pratt, Michael G. (2016). “The dynamic componential model of creativity and innovation in organizations: Making progress, making meaning”. Research in Organizational Behavior 36: 157–183. doi:10.1016/j.riob.2016.10.001.
^ Mukherjee, Anirban; Chang, Hannah H. (2023). “Managing the Creative Frontier of Generative AI: The Novelty-Usefulness Tradeoff”. California Management Review.
^ Metz, Cade (10 December 2022). “The New Chatbots Could Change the World. Can You Trust Them?”. The New York Times 30 December 2022閲覧。
^ Tung, Liam (8 August 2022). “Meta warns its new chatbot may forget that it's a bot” (英語). ZDNet (Red Ventures) 30 December 2022閲覧。
^ Edwards, Benj (18 November 2022). “New Meta AI demo writes racist and inaccurate scientific literature, gets pulled” (英語). Ars Technica 30 December 2022閲覧。
^ Michael Black [@Michael_J_Black] (2022年11月17日). "I asked #Galactica about some things I know about and I'm troubled. In all cases, it was wrong or biased but sounded right and authoritative". X（旧Twitter）より2022年12月30日閲覧。
^ Bowman, Emma (19 December 2022). “A new AI chatbot might do your homework for you. But it's still not an A+ student” (英語). NPR 29 December 2022閲覧。
^ Pitt, Sofia (15 December 2022). “Google vs. ChatGPT: Here's what happened when I swapped services for a day” (英語). CNBC 30 December 2022閲覧。
^ Huizinga, Raechel (2022年12月30日). “We asked an AI questions about New Brunswick. Some of the answers may surprise you”. CBC.ca 30 December 2022閲覧。
^ Zastrow, Mark (2022年12月30日). “We Asked ChatGPT Your Questions About Astronomy. It Didn't Go so Well.” (英語). Discover (Kalmbach Publishing Co.) 31 December 2022閲覧。
^ Lin, Connie (5 December 2022). “How to easily trick OpenAI's genius new ChatGPT”. Fast Company 6 January 2023閲覧。
^ Edwards, Benj (1 December 2022). “OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results” (英語). Ars Technica 29 December 2022閲覧。
^ Michael Nielsen [@michael_nielsen] (2022年12月1日). "OpenAI's new chatbot is amazing. It hallucinates some very interesting things". X（旧Twitter）より2022年12月29日閲覧。
^ Mollick, Ethan (14 December 2022). “ChatGPT Is a Tipping Point for AI”. Harvard Business Review 29 December 2022閲覧。
^ Ethan Mollick [@emollick] (2022年12月2日). "One of the big subtle problems in the new "creative AIs" is that they can seem completely certain, and getting them to switch from sane to hallucinatory is a difference of a couple words". X（旧Twitter）より2022年12月29日閲覧。
^ Kantrowitz, Alex (2 December 2022). “Finally, an A.I. Chatbot That Reliably Passes "the Nazi Test"” (英語). Slate 29 December 2022閲覧。
^ Marcus (2 December 2022). “How come GPT can seem so brilliant one minute and so breathtakingly dumb the next?” (英語). The Road to AI We Can Trust. Substack. 29 December 2022閲覧。
^ “Google cautions against 'hallucinating' chatbots, report says” (英語). Reuters. (11 February 2023) 16 February 2023閲覧。
^ Maruf, Ramishah (27 May 2023). “Lawyer apologizes for fake court citations from ChatGPT” (英語). CNN Business
^ Brodkin, Jon (31 May 2023). “Federal judge: No AI in my courtroom unless a human verifies its accuracy” (英語). Ars Technica
^ “Judge Brantley Starr”. Northern District of Texas | United States District Court. 26 June 2023閲覧。
^ Brodkin, Jon (23 June 2023). “Lawyers have real bad day in court after citing fake cases made up by ChatGPT” (英語). Ars Technica
^ Belanger, Ashley (9 June 2023). “OpenAI faces defamation suit after ChatGPT completely fabricated another lawsuit” (英語). Ars Technica
^ “れいわ、虚偽サイト注意呼びかけ芸能人応援「事実なし」”. 共同通信 (2023年11月10日). 2023年11月12日閲覧。
^ “れいわ、偽サイトに注意呼びかけ俳優3人が「応援メッセージ」?”. 朝日新聞 (2023年11月10日). 2023年11月12日閲覧。
^ 日本テレビ (2023年11月10日). “○○さんらの“偽コメント”ブログ作成者が日テレの取材に回答（一部伏せ字）”. 日テレNEWS NNN. 2023年11月12日閲覧。
^ “サイト運営者「AIに書かせた」れいわ新選組の虚偽応援”. 共同通信 (2023年11月10日). 2023年11月12日閲覧。
^ Athaluri, Sai Anirudh; Manthena, Sandeep Varma; Kesapragada, V S R Krishna Manoj; Yarlagadda, Vineel; Dave, Tirth; Duddumpudi, Rama Tulasi Siri (2023-04-11). “Exploring the Boundaries of Reality: Investigating the Phenomenon of Artificial Intelligence Hallucination in Scientific Writing Through ChatGPT References” (英語). Cureus 15 (4): e37432. doi:10.7759/cureus.37432. ISSN 2168-8184. PMC 10173677. PMID 37182055.
^ ^a ^b Goddard, Jerome (2023-06-25). “Hallucinations in ChatGPT: A Cautionary Tale for Biomedical Researchers”. The American Journal of Medicine 136 (11): 1059–1060. doi:10.1016/j.amjmed.2023.06.012. ISSN 0002-9343. PMID 37369274.
^ Ji, Ziwei; Yu, Tiezheng; Xu, Yan; lee, Nayeon (2023). Towards Mitigating Hallucination in Large Language Models via Self-Reflection. EMNLP Findings.
^ Bhattacharyya, Mehul; Miller, Valerie M.; Bhattacharyya, Debjani; Miller, Larry E.; Bhattacharyya, Mehul; Miller, Valerie; Bhattacharyya, Debjani; Miller, Larry E. (2023-05-19). “High Rates of Fabricated and Inaccurate References in ChatGPT-Generated Medical Content” (英語). Cureus 15 (5): e39238. doi:10.7759/cureus.39238. ISSN 2168-8184. PMC 10277170. PMID 37337480.
^ Else, Holly (2023-01-12). “Abstracts written by ChatGPT fool scientists” (英語). Nature 613 (7944): 423. Bibcode: 2023Natur.613..423E. doi:10.1038/d41586-023-00056-7. PMID 36635510.
^ Gao, Catherine A.; Howard, Frederick M.; Markov, Nikolay S.; Dyer, Emma C.; Ramesh, Siddhi; Luo, Yuan; Pearson, Alexander T. (2023-04-26). “Comparing scientific abstracts generated by ChatGPT to real abstracts with detectors and blinded human reviewers” (英語). npj Digital Medicine 6 (1): 75. doi:10.1038/s41746-023-00819-6. ISSN 2398-6352. PMC 10133283. PMID 37100871.
^ Emsley, Robin (2023-08-19). “ChatGPT: these are not hallucinations – they're fabrications and falsifications” (英語). Schizophrenia 9 (1): 52. doi:10.1038/s41537-023-00379-4. ISSN 2754-6993. PMC 10439949. PMID 37598184.
^ OpenAI. "GPT-4 Technical Report". arXiv:2303.08774 [cs.CL]。 p.46
^ Matsakis, Louise (8 May 2019). “Artificial Intelligence May Not 'Hallucinate' After All”. Wired 29 December 2022閲覧。.
^ ^a ^b Gilmer, Justin; Hendrycks, Dan (2019-08-06). “A Discussion of 'Adversarial Examples Are Not Bugs, They Are Features': Adversarial Example Researchers Need to Expand What is Meant by 'Robustness'”. Distill 4 (8). doi:10.23915/distill.00019.1 2023年1月24日閲覧。.
^ Zhang, Chenshuang; Zhang, Chaoning; Zheng, Sheng; Zhang, Mengchun; Qamar, Maryam; Bae, Sung-Ho; Kweon, In So (2023-04-02), A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI, doi:10.48550/arXiv.2303.13336, https://arxiv.org/abs/2303.13336 2024年8月15日閲覧。
^ “Google Gemini is a nice image of one of the dangers of AI as we give it more power. Ideology is so thickly overlaid that it skews everything, then doubles down. First image looks about right, but scroll down.”. Twitter. 14 August 2024閲覧。
^ Robertson, Adi (21 February 2024). “Google apologizes for “missing the mark” after Gemini generated racially diverse Nazis” (英語). The Verge 14 August 2024閲覧。
^ “Gemini image generation got it wrong. We'll do better.” (英語). Google (23 February 2024). 14 August 2024閲覧。
^ Ji, Ziwei; Jain, Sanjay; Kankanhalli, Mohan (2024). "Hallucination is Inevitable: An Innate Limitation of Large Language Models". arXiv:2401.11817 [cs.CL]。
^ Nie, Feng; Yao, Jin-Ge; Wang, Jinpeng; Pan, Rong; Lin, Chin-Yew (July 2019). “A Simple Recipe towards Reducing Hallucination in Neural Surface Realisation”. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (Association for Computational Linguistics): 2673–2679. doi:10.18653/v1/P19-1256. https://aclanthology.org/P19-1256.pdf 15 January 2023閲覧。.
^ Dziri, Nouha; Milton, Sivan; Yu, Mo; Zaiane, Osmar; Reddy, Siva (July 2022). “On the Origin of Hallucinations in Conversational Models: Is it the Datasets or the Models?”. Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics. pp. 5271–5285. doi:10.18653/v1/2022.naacl-main.387 15 January 2023閲覧。

概要