AI性能偏重の評価体制、人間への心理社会的影響は測定不在
詳細を読む
非営利団体Center for Humane TechnologyでAIの心理社会的評価を率いるImran Khan氏が、IEEE Spectrumのインタビューで、AI業界がモデル性能の測定に多大な資源を投じる一方、AIが人間の認知・行動・人間関係に与える影響をほとんど測定していない現状を指摘しました。SWE-benchや推論テストなど技術的ベンチマークは充実する一方、最も重要であるはずの「AIは人間に何をしているか」という問いが体系的に扱われていないと警鐘を鳴らしています。
Khan氏によれば、10代の自殺やAI精神病、過度に追従的なチャットボットへの依存など、深刻な被害は既に表面化しています。SNSの害悪がエビデンスの蓄積前に社会に定着してしまった教訓を踏まえ、AIではさらに広範かつ親密な影響が生じうると指摘しました。OpenAIがChatGPTの追従性について世論の圧力で修正を迫られた事例は、監視と批判が技術の方向性を変えうることを示しています。
測定手法について、Khan氏は製薬業界のFDA市販後調査を類似モデルとして挙げました。AIの心理社会的影響は数カ月から数年の単位で現れるため、長期追跡調査が不可欠です。現在、チャットログなどの重要データはAI企業が独占しており、プライバシーを保護しつつ外部研究者にアクセスを開放することが喫緊の課題だと述べています。
特に測定が急務な領域として、感情的サポートやコンパニオンシップ、子ども・青年期の利用、教育、危機対応の4分野を挙げました。孤独を感じるユーザーがAIに頼ることで人間関係構築から遠ざかるリスクや、発達途上の脳に認知的負荷軽減が与える長期的影響は未知数です。
業界全体にはデータ共有のインセンティブがあるものの、個別企業には先行者不利の構造があり、他社が追随しなければリスクだけを負う状況です。Khan氏は、賠償責任の明確化と規制の整備が企業行動を変える最も有力な手段だとしつつ、政治環境の不確実性から規制だけに頼ることの危うさも認めました。AI研究機関・政府・大学・スタートアップが連携し、人間とAIの健全な関係を定義する評価技術の確立が急がれます。