LLMが匿名アカウントの身元を高精度で特定、研究が警告

匿名性を覆すLLMの脅威

匿名アカウントの身元特定が可能に
再現率最大68%の成功率
正解率は最大90%に到達

実験手法と検証結果

Hacker NewsとLinkedInを横断照合
NetflixマイクロIDデータで検証
Reddit履歴の分割テストも実施

プライバシーへの深刻な影響

ドクシングやストーキングのリスク増大
従来の手動分析を大幅に上回る効率
詳細を読む

大規模言語モデル(LLM)がSNS上の匿名アカウントの身元を高い精度で特定できることが、新たに発表された研究論文で明らかになりました。研究チームは複数のSNSプラットフォームを横断して個人とアカウントの紐付け実験を行い、その結果を報告しています。

実験では、再現率(身元特定に成功したユーザーの割合)が最大68%、正解率(推定が正しかった割合)が最大90%に達しました。これは従来の人手による構造化データの収集やスキルを持つ調査員による手動分析を大きく上回る成果です。

研究チームはHacker Newsの投稿とLinkedInのプロフィールを収集し、プロフィール内の相互参照を手がかりに紐付けたデータセットを構築しました。識別情報を除去した投稿に対してLLMを実行し、高い精度で同一人物を特定することに成功しています。

さらに、Netflixが公開したマイクロID(個人の嗜好・推薦・取引記録)や、Redditの投稿履歴を分割したデータセットでも検証を実施しました。いずれの手法でも、LLMは従来の古典的な匿名解除手法を大幅に上回る結果を示しています。

研究者らは「平均的なオンラインユーザーは、匿名性が十分な保護を提供すると想定してきたが、LLMがその前提を無効化する」と警告しています。匿名アカウントの安価かつ迅速な身元特定は、ドクシングやストーキング、詳細なマーケティングプロファイルの構築につながる深刻なリスクをはらんでいます。