ChatGPTのフェイク論文を99%見破るアルゴリズム、米カンザス大学が発表

公開日 2023/06/09 16:35 多根清史

今や巷には人間がAIチャットボットに書かせた論文やレポートが溢れかえっている一方で、それを見分ける技術が追いついていない。

何十もの企業が検出技術の開発を競っているものの、ChatGPTを開発したOpenAIが作ったものでさえ上手く機能しておらず、どれもが有効とは言えない。直近では、ChatGPT自らにChatGPTが書いたのか判定させた教員が大問題になった出来事もあった。

そんななか米カンザス大学の研究者らが、ChatGPTによる学術的なテキストを99%以上の精度で検出できるアルゴリズムを開発したとの論文を発表した。

この論文は、査読を経て『Cell Reports Physical Science』に掲載されたもの。まず生物学から物理学まで、人間の著者による科学研究論文データをChatGPTに与え、そこから128本のAI論文、合計1,276段落分のデータセットを生成させた。

これらAIによる段落をもとにして、ChatGPT検出アルゴリズムを構築。そして人間が書いた30本の記事とChatGPTによる60本の記事、合計1,210段落に相当するデータセットを作成し、アルゴリズムをテストしたという。

その結果、99%の確率でChatGPTによる記事を検出できたとのこと。そして段落レベルでは、92％の確率で判別したと主張されている。

本論文によると、ChatGPTによる文章にはいくつかのクセがあるそうだ。例えば人間の執筆者であればより長い段落を書き、より多くのボキャブラリや句読点を使い「しかし」「だが」などの接続詞を使う傾向があるとのこと。またChatGPTは、図や他の研究者の説を引用することが苦手らしい。

このアルゴリズムは、あくまで学術的な文章、特に科学雑誌に掲載される学術論文向けに構築されており、高校生のレポート等にはそのままでは使えない。しかし、理論的には同じ手法で他のタイプの文章を検出するモデルも構築できるという。

また、本研究は「概念実証」にすぎず、より大規模なデータセットを用いて、より堅牢で、おそらくより正確なアルゴリズムが開発できるとも述べられている。まだまだ伸びしろがあり、学術論文を超えた汎用性を実現できるポテンシャルはある、と示唆されているようだ。

しかし、ChatGPTを初めとしたAIチャットボットはまだ発展途上であり、検出アルゴリズムの進歩が追いつく前に人間が書く文章により近づき、判別が難しくなる可能性もあるだろう。そうしたイタチごっこがAI関連企業へのさらなる投資を促し、ますますAIの進化を加速させるのかもしれない。

Source: Cell Reports Physical Science
via: Gizmodo

オリジナルサイトで読む

この記事をシェアする

ChatGPTのフェイク論文を99%見破るアルゴリズム、米カンザス大学が発表

トピック

関連記事