UC Berkeley、LLM解釈性の相互作用を大規模特定する新手法SPEXを発表

GPT-4

SPEXの基本原理

信号処理と符号理論を応用
重要な相互作用は少数との知見
従来比数千規模まで拡張可能
ProxySPEXで計算コスト10分の1

3つの応用領域

入力特徴量の相互作用を特定
訓練データ間の冗長性と相乗効果を発見
注意ヘッドの枝刈りで性能向上

実証と今後の展望

GPT-4o miniの誤答原因を解明
SHAP-IQに統合し公開
詳細を読む

UC Berkeleyの研究チームは、大規模言語モデルの判断過程における特徴量間の相互作用を効率的に特定する新手法「SPEX」および「ProxySPEX」を発表しました。SPEXはICML 2025、ProxySPEXはNeurIPS 2025に採択されています。

従来の解釈性手法では、個別の特徴量の重要度は測定できても、特徴量間の複雑な相互作用を大規模に捉えることは計算量の壁により困難でした。SPEXは「重要な相互作用は実際には少数である」というスパース性の知見に基づき、信号処理と符号理論の手法を活用して、この問題を効率的に解決します。

後続手法のProxySPEXは、モデル内部の階層構造を追加で活用することで、SPEXと同等の性能をわずか10分の1の計算コストで実現します。これにより特徴量帰属、訓練データ帰属、モデル内部構造の分析という3つの領域すべてで実用的な相互作用の発見が可能になりました。

具体的な検証では、GPT-4o miniがトロッコ問題の変形版で92%の確率で誤答する原因を分析しました。従来手法は「trolley」という単語を個別に重要と判定しましたが、SPEXは「trolley」2箇所と「pulling」「lever」の4語の相乗効果を特定し、同義語への置換で誤答率がほぼゼロになることを実証しました。

また訓練データ分析では、冗長な重複データと意思決定境界の形成に不可欠な相乗的データを区別でき、注意ヘッドの枝刈りではProxySPEXの知見に基づく手法が既存手法を上回る性能を達成しました。コードはSHAP-IQリポジトリで公開されており、研究コミュニティへの貢献が期待されます。