AI訓練の落とし穴？DiscordのCAPTCHA認証で“非実在”物体が出題される

公開日 2023/05/29 10:33 多根清史

ゆがんだ文字を読み解かせたり画像クイズを出題するCAPTCHA認証は、「人間には理解できるがプログラムには解析しがたい」問題によりボットを検出し、スパムや自動攻撃を防ぐしくみだ。しかし今回、チャットアプリDiscordのユーザー複数名が、CAPTCHA認証において実在しない物体を提示され、次の画像から選べと言われて困惑したと報告している。

問題の物体は、カタツムリとヨーヨーを混ぜ合わせたような「Yoko」だ。もともと実在しない物体を選ぶよう求められ、難しすぎるとTwitterで嘆かれている。このYoko画像は、他のCAPTCHA画像と同じくAIにより生成されているようだ。

別のDiscordユーザーは、パズルキューブの画像を識別するよう求められたが、もう8回も失敗し続けているという。こちらも「不気味の谷（ロボットやCGが人間に近づくほど、逆に違和感が勝ること）から来たような画像」と言われるように、やはりAI生成画像と思われる。

DiscordのCAPTCHAは、hCaptchaという会社が運営している。同社はCAPTCHA関連企業の大手であり、2020年末には15%のシェアを獲得したと報告していた。

同社は「ほとんどのhCaptchaのやり取りは視覚的な挑戦にならないが、時として多くの亜種が使われることがある」「この特定の質問は、ごく一部の人々に確認された短いテストだが、hCaptchaの膨大な規模（数億人のユーザー）は、数人の人々が挑戦に驚いたとき、しばしば数個のツイートに繋がる」とコメントしている。

要は、ごく例外的な現象に過ぎず、一握りのユーザーが大げさに取り上げているだけと示唆しているようだ。

2018年のブログによると、hCaptchaの出題は「機械学習のニーズに応える高品質の人間の注釈」を探すクライアントにより生成されているという。機械学習に必要な画像のラベル付けが依頼される、ということだ。

hCaptchaの収益は、DiscordのようにCAPTCHA認証を利用するクライアントと、出題を依頼したクライアントの両方から得られている。つまり機械学習システムや敵対的生成ネットワークの訓練に使うため、hCaptchaの出題する問題にも奇妙なAI画像が混ざるというわけだ。

2か月前、大手掲示板Redditのあるユーザーは、Discordでホッケーやゴルフをする人々の画像から、AI生成のサッカー選手を探すよう指示されたという。また「ロボットを選べ」との出題で、どの画像も人間に見えないとの苦情もあった。

hCaptchaの奇妙なAI画像は、機械学習システムの2つの問題点を浮き彫りにしている。1つは、AIを適切に訓練するためには、膨大な量の人力が必要ということだ。一般的に画像のラベル付けは外国人労働者に委託され、彼らは少額の報酬を得るために行っている。

もう1つは、AI訓練時の入力データが現実とずれていく「データドリフト」の問題だ。機械学習システムは稼働時間が長ければ長いほど、より多くの入力を必要とする。必然的に、自らが生成したデータを使って学習するようになり、その先に「Yoko」のような意味不明の物体を出題するというわけだ。

Source: Motherboard

オリジナルサイトで読む

この記事をシェアする

AI訓練の落とし穴？DiscordのCAPTCHA認証で“非実在”物体が出題される

トピック

関連記事