第14回 Hallucinating Law: Legal Mistakes with Large Language Modelsare Pervasive の紹介

Hallucinating Law: Legal Mistakes with Large Language Modelsare Pervasive の紹介

 

本稿は、法律分野における人工知能(AI)モデルの「ハルシネーション」という現象を、定量的に検討した、最近の米国における以下の記事を、忠実に紹介することを目的としています。

https://hai.stanford.edu/news/hallucinating-law-legal-mistakes-large-language-models-are-pervasive?utm_source=linkedin&utm_medium=social&utm_content=Stanford%20HAI_linkedin_HAI_202401151303_sf185542228&utm_campaign=&sf185542228=1

 

ここに紹介する記事は、Matthew DahlVarun MageshMirac Suzgun、そしてDaniel E. Ho氏等によるLarge Legal Fictions: Profiling Legal Hallucinations in Large Language Models

https://arxiv.org/abs/2401.01301 という論文の要約という形をとっており、この論文を読む前の手引きにもなるものです。

 

なお、この論文の筆者らの経歴は、イェール大学、スタンフォード大学の RegLabHAIの大学院生、教授のようです。

Matthew Dahl is a J.D./Ph.D. student at Yale University and graduate student affiliate of Stanford RegLab.

Varun Magesh is a research fellow at Stanford RegLab.

Mirac Suzgun is a J.D/Ph.D. student in computer science at Stanford University and a graduate student fellow at Stanford RegLab.

Daniel E. Ho is the William Benjamin Scott and Luna M. Scott Professor of Law, Professor of Political Science, Professor of Computer Science (by courtesy), Senior Fellow at HAI, Senior Fellow at SIEPR, and Director of the RegLab at Stanford University.

 

なお、逐語訳に進む前に、hallucinationについて、予備知識を引用しておきます。

 

ITmediaの用語解説:

「主に自然言語処理における「人工知能(AI)のハルシネーションHallucination:幻覚)」とは、もっともらしいウソ(=事実とは異なる内容や、文脈と無関係な内容)の出力が生成されることである。人間が現実の知覚ではなく脳内の想像で「幻覚」を見る現象と同様に、まるでAIが「幻覚」を見て出力しているみたいなので、このように呼ばれる。

 このキーワードは、チャットAIChatGPT」などの生成AIが広く使われるようになってから注目されている。現状の生成AIは、実際にはトレーニングしていない情報を「幻聴/幻視」して、信頼できない出力や誤解を招く出力を生成する場合がある。」

 

Cambridge Dictionary

hallucinate

to seem to seehearfeel, or smell something that does not exist, usually because of a health condition or because you have taken a drug:

Ø  He hadn't slept for several days and was hallucinating through exhaustion and dehydration.

Ø  He began hallucinating and hearing voices.

Ø  She hallucinated a person talking to her when no one was there.

 

When an artificial intelligence (= a computer system that has some of the qualities that the human brain has, such as the ability to produce language in a way that seems human) hallucinates, it produces false information:

Ø  LLMs are notorious for hallucinating – generating completely false answers, often supported by fictitious citations.

Ø  The latest version of the chatbot is greatly improved but it will still hallucinate facts.

 

* * *

法、規制及び政策

Hallucinating Law: Legal Mistakes with Large Language Models are Pervasive(法律分野おけるハルシネーション:大規模言語モデルのもたらす法的過誤は深刻である)

最近の調査の結果、普及している3つのモデルが引き起こす有害で、深刻な過誤が明らかになった。

 

2024111

https://twitter.com/StanfordHAI?ref_src=twsrc%5Egoogle%7Ctwcamp%5Eserp%7Ctwgr%5Eauthor

https://www.facebook.com/StanfordHAI/

https://www.youtube.com/channel/UChugFTK0KyrES9terTid8vA

https://www.linkedin.com/company/stanfordhai

https://www.instagram.com/stanfordhai/?hl=en

 

昨年5月、マンハッタンで勤めるある弁護士は、不名誉な理由で有名になった。同弁護士は、ChatGPTに大幅に依拠して作成した控訴趣意書を提出した。だが、判事のこの提出書類に対する対応は辛辣だった。「前例のない事例」だと述べた上で、同判事は、その控訴趣意書には、「でたらめな判例、でたらめな引用そしてでたらめな文書内の引照」に満ち溢れていると記している。この「ChatGPT弁護士」の物語は、ニューヨーク・タイムズ紙に報道され有名となった一方で、当のジョン・ロバーツ首席判事をして、同判事の連邦裁判所公報において、年次報告の中で大規模言語モデル(LLM)が「ハルシネーション」で果たした役割について慨嘆の念を吐露させることとなった。

 

では、このような法律分野におけるハルシネーションは、実際のところ、どれほど深刻なのだろうか?

 

変貌をとげる法律実務

 

法曹界は、ChatGPTPaLMClaude、そしてLlamaのような大規模言語モデル(LLM)の登場に揺り動かされた大規模な変革のまっただ中にある。これらの先進的モデルは、数十億のパラメータを備えており、広範囲なトピックにわたる総合的で、権威のあるものとみなされているテキストを処理するだけでなく、テキストを生成する能力も備えている。法律実務での利用の増大を含め、日常生活の様々な局面において、それらの影響力はより絶大なものになっている。

 

夥しい数のリーガルテックのスタートアップ企業や法律事務所が、ディスカバリ(証拠開示)対象文書から関連する証拠を発見し、詳細な法律意見書や判例分析を起草し、そして複雑訴訟における戦略を策定するような、様々な作業課題に適合できる大規模言語モデル(LLM)基盤を活用しているとし、その旨をいまや喧伝するようになっている。大規模言語モデル(LLM)の開発者達は、彼らの開発したモデルは司法試験にも合格できるレベルにあると声高に主張している。しかし、重大な問題が残されている:つまり、ハルシネーション、つまり大規模言語モデル(LLM)が、実際の法的事実や確立されている法的原理そして先例から乖離する回答をもたらす傾向があることである。

 

現在にいたるまで、法律分野においてハルシネーションが起こっている程度については、証拠と言っても逸話に類するものがほとんどであった。しかし、法律制度というものは、このようなハルシネーションの程度と性格を系統的に研究することを可能にする、特別な方途を提供してくれている。

 

スタンフォード大学のRegLab及びInstitute for Human-Centered AIの研究者の手になる新たな研究の先行発表版において、われわれは、法律分野おけるハルシネーションのもたらす法的過誤は深刻であり、かつ悩ましいものであること、つまり、最新の言語モデルに特定の法的な質問をした場合にハルシネーションが起こる率は69%から88%にのぼることを実証した。さらに、これらのモデルは、その過誤について自己認識する能力をしばしば欠いており、不正確な法的前提や信念を強化する傾向がある。われわれが明らかにしたこれらの知見は、法律という文脈での大規模言語モデル(LLM)の信頼性に多大な懸念を惹起し、これら人工知能(AI)テクノロジーを法律実務に統合するにあたって、慎重な、専門家による監視が重要であることに注意を喚起した。

 

ハルシネーションの普遍性

 

ハルシネーションは、検証可能な広い範囲の法的分野において、驚くほど高い率を示している。もっとも、米国の法制度は特異であり、法的権限の階層化が明確に定められていることもあって、ハルシネーションの生起する率が、主要な分野ごとにいかに違ってくるかについて理解を可能にしてくれる。われわれは、いくつかの異なる作業仮説を構築することによって、われわれの研究のデザインを行った。つまり、モデルに単純にある法律意見の起草者を尋ねることから、二つの判決が互いに緊張関係にあるかというような、より複雑な問いかけをするようにである。後者は、判例の法的分析の不可欠の要素である。われわれは、主要な分野にわたって階層化して、GPT 3.5Llama 2、そしてPaLM 2の各々に対して、200,000万件以上の問いかけを行ってテストした。

 

棒グラフは、これらの言語モデルの平均ハルシネーション率を示す。Llama 2の平均ハルシネーション率が最も高く、0.88であった。

 

普及している3つの大規模言語モデル(LLM)の法的ハルシネーション率

 

第一に、法的争点や法文の解釈といった微妙な問題の理解を要求する、より複雑な作業課題を取り扱う際には、モデルのパーフォーマンスが劣化することを、われわれは発見した。例えば、二つの異なる判例の先例としての優劣関係を判定する作業課題においては、ほとんどの大規模言語モデル(LLM)は、あてずっぽうの回答の正解率を上回らなかった。また、裁判所の判決の要旨(あるいは、先例的な価値のある意見)に関する質問への答えについては、モデルは、少なくとも75%の場合にハルシネーションを起こした。これらの発見は、リーガルリサーチ(判例調査)の中核的な目的であり、弁護士が複数の判例間の先例としての優劣関係を調査する際に行う、ある種の判例分析を行う能力を、大規模言語モデル(LLM)が有していないことを示唆している。

 

第二に、米国の連邦最高裁判所の判例におけるよりも、連邦地区裁判所のような下級審の判例の場合に、より頻繁にハルシネーションが起こっている。これは、大規模言語モデルは(LLM)は、下級審の判例を分析する場合に、しばしば重要となる当該地域特有の法的知識を獲得することに苦労していることを示唆しており、また大規模言語モデル(LLM)が、米国において長年問題にされてきた、遠隔地にいる人々の法的なアクセス障害を減らせるという主張に疑問を投げかけている。

 

第三に、大規模言語モデル(LLM)は、より有名な判例、ことに連邦最高裁判所の判例については、より優れたパーフォーマンスを発揮する傾向がある。同様に、第2巡回区、そして第9巡回区については最高のパーフォーマンスを発揮するが、地理的に辺鄙な場所に位置する巡回裁判所についてのパーフォーマンスは最悪である。これらのパーフォーマンスの差は、ある種の判決はより頻繁に引用され、検討されることから、モデルの訓練データに採用されることが多くなることによるのであろう。

 

第四に、連邦最高裁判所の判決でも、かなり古い、あるいは直近の判決では、ハルシネーションがかなり頻繁に起こるが、20世紀後半の判例ではめったに起こらない。このことは、大規模言語モデル(LLM)は、最新の法理論が登場してから数年経ってやっと、それも追いつき、パーフォーマンスのかたちにすることができること、他方で、かなり古いが、依然として現在も有効な法理を判例法に取り込むことに、大規模言語モデル(LLM)は成功していないことを示唆している。

 

最後に、モデルが異なるごとに、かなり違った程度の精確性や偏りが示されている。例えば、GPT 3.5のパーフォーマンスは他のモデルのそれを一般的に上回るが、他方で、有名な最高裁判事や、ある種の特殊な判決を重視するというような、一定の傾向を示している。ある判決の違憲を誰が書いたかと質問すると、GPT 3.5は、例えば、ジョセフ・ストーリー最高裁判所判事が実際に起草したものでないにかかわらず、同判事の手になるものだと判断する傾向がある。

 

提示された誤った事実認識を鵜呑みにする偏り

 

我々が発見したもう一つの重大な危険要素は、モデルが、われわれの所謂「提示された誤った事実認識を鵜呑みにする偏り」に曝されていることである。つまり、問いかけの中の前提事実が、明らかに誤りである場合にも、真実として受け入れてしまう傾向があることである。例えば、「米国連邦最高裁判所のルース・バーダー・ギンスバーグ判事が、なぜオーバーグフェル事件(同事件は、同性婚の権利を認めた事件である)反対意見を述べたのか?」という質問をしたとしよう。モデルによっては、ギンスバーグ判事が本当に反対意見を述べたのかを検証しないものもある。

 

この現象は、GPT 3.5のような言語モデルにおいてことに顕著であり、誤った事実を前提とする質問にしばしば自信に満ちた回答を行う。これは、そこでは、指示-実行訓練(instruction-following training)を行っているからであろう。この傾向は、複雑な法的状況において、また下級審の判例を取り扱うときに高まる。Llama 2は、これに反して、誤った前提をしばしば拒絶するが、ときとして現実に存在する事実や裁判官の存在を誤って否定することがある。

 

関連して、モデルによっては、法的問題に直面して自己修正’calibration)を不完全にしか行わないものがあることを、われわれは示した。モデルの自己修正は、モデルの確信度が回答の正確性に相関しているかを把握することである。われわれは、モデル間にいくつかの差異が存在することを発見した。すなわち、PaLM 2ChatGPT (GPT 3.5)は、Llama 2より優れた自己修正能力を示した。しかしながら、すべてのモデルに一貫して言えることは、回答の実際の正確性いかんにかかわらず、確信度が過大であることである。この確信度の過大性は、作業課題が複雑である場合、そして下級審に関係する場合に顕著となり、周知のまたは有名な法的問題においては、モデルはその示す回答の確実性を、しばしば過大に表現した。

 

法的な意義

 

これらの知見のもつ異議は重大である。今日、一般大衆が法的助言を受けようとする場合に、簡易かつ安価な途を提供することで、大規模言語モデル(LLM)は、司法へのアクセスを民主化するだろうという大きな期待が存在している。しかし、われわれの知見では、今日存在している司法アクセスの不平等を、大規模言語モデル(LLM)はさらに深刻化することはあっても、改善することはない。

 

理想的には、大規模言語モデル(LLM)は、各地方特有の法律情報を提供し、利用者が不正確な質問をしてもユーザーを正しく誘導し、そして回答の信頼度の水準についての回答を正すことに優れていなかればならない。しかしながら、われわれは、健在存在しているモデルには、このような能力が明らかに欠けていることを見いだした。かくして、大規模言語モデル(LLM)を使って法律的な調査をするに当たっては、次の人々にはリスクが高い:

 

下級審の、またはあまり著名でない裁判管轄区域の訴訟当事者

個人が、詳細なまたは複雑な訴訟に関する情報を収集する場合

ユーザーが、質問を組み立てるときに、不正確な前提事実に依拠するとき、そして

大規模言語モデル(LLM)の回答の信頼度を評価するのに慣れていない人々

 

要するに、法律分野における大規模言語モデル(LLM)からもっとも便益を受けると期待されている人々は、そもそも、大規模言語モデル(LLM)は役立つようにまったく仕組まれていないのである。

 

また、大規模言語モデル(LLM)は、法的な視野狭窄(monoculture)を促進させるリスクを伏在させている。なぜなら、大規模言語モデル(LLM)は、ユーザーの法的視野を狭めさせる傾向があるため、ユーザーは、法的解釈の微妙な自由度の高さや多様性を見逃す可能性がある。これは、実質的な問題点の警告であるが、法律家の多様性の侵害という別の問題もある。ギンスバーグ判事の見解を、例えばストーリー判事の見解と混同させることによって、法律家という社会の構成員の存在を、系統的に消し去ることを、大規模言語モデル(LLM)は引き起こす。

 

戒めを秘めて将来に進む

 

大規模言語モデル(LLM)で起こるハルシネーションに対処するため、現在、多くの技術的な対応作業がさかんに行われている。しかし、法律分野におけるハルシネーションへの対応は、技術的な問題にとどまらない。われわれは、大規模言語モデル(LLM)が、訓練データへの忠実性、ユーザーの質問に対するに当たっての精確性の追求、そして現実世界の法的事実の尊重の間でバランスをとるという、根本的なトレードオフに直面している点を示唆した。かくして、ハルシネーションを最少化するには、どの種の作用を最も重要とするかという規範的判断が最終的に求められることになり、また、意志決定に当たっての比較考量の透明性も必要不可欠となる。

 

大規模言語モデル(LLM)は、法律実務で潜在的な可能性を秘めていることは事実であるが、われわれの論文で明らかにした制約には、重大な警戒心をもって望まなければならない。人工知能(AI)を責任のあるかたちで法律実務に統合するには、さらに多くのフィードバック、監視、そして人工知能)AI)の能力と制約に関する人間の側での理解が必要になるであろう。

 

その点において、われわれの明らかにした知見は、人間を中心とする人工知能(human-centered AI)

 

という観念を中心に据えることの重要性を強調する。責任のあるかたちでの人工知能(AI)の統合により、弁護士、依頼者、そして裁判官の地位は強化されることはあっても、米国最高裁判所腸管のロバーツ判事の危惧する「法律世界の非人間化(dehumanizing the law)」のリスクが高められることがあってはならない。