MIT、空間データの信頼区間推定を刷新する新手法を開発

既存手法の限界と問題の発見

機械学習モデルによる空間統計推定の信頼区間が根本的に誤る問題を特定

既存手法が持つ「データは独立同分布」という前提が空間データでは成立しない現実

モデルが95%の確信度を示しながら実際の値を全く捉えていないケースを実証

ソースデータとターゲットデータの空間的乖離がバイアスを生む構造的欠陥の解明

EPA大気センサーの設置場所と農村部の実態乖離など具体的な偏りの例示

NeurIPS 2024で発表された研究成果

空間的平滑性の仮定を採用し、従来手法の欠陥を根本から回避する設計

シミュレーションと実データの双方で唯一一貫して正確な信頼区間を生成

ランダム誤差によるデータ歪みが存在する条件下でも安定した信頼性を維持

環境科学・疫学・経済学など広域空間分析を行う分野への応用が期待される

出典：MIT News

詳細を読む

MITの研究チームは、空間データを対象とした統計的関連性推定において、従来の機械学習手法が生成する信頼区間が根本的に誤っている問題を発見し、それを解決する新しい手法を開発しました。

従来手法は、データが独立同分布であること、モデルが完全に正しいこと、学習データと推定対象データが類似していることを前提としています。しかし空間データではこれらの前提が成立しないため、信頼区間が完全に外れてしまうことがあります。

たとえば、EPA（米国環境保護庁）の大気センサーは都市部に集中して設置されていますが、そのデータを使って農村部の健康アウトカムを推定しようとすると、データの性質が根本的に異なるためバイアスが生じます。

新手法は「空間的平滑性」という仮定を採用しています。たとえば微粒子大気汚染は一つのブロックから次のブロックへ急激に変化せず、汚染源から遠ざかるにつれ緩やかに減少するという性質です。この仮定は空間問題の実態により即した合理的なものです。

主任研究者のタマラ・ブロダリック准教授（MIT EECS）は、「天気や森林管理など、空間的な現象の理解が求められる問題は非常に多い。この種の問題群に対して、より適切な手法が存在し、より良いパフォーマンスと信頼性の高い結果をもたらせることを示した」と述べています。

シミュレーションと実データを用いた比較実験において、この新手法は既存の複数の手法の中で唯一、空間分析において一貫して信頼できる信頼区間を生成することが確認されました。観測データにランダムな誤差が混入している場合でも安定した性能を発揮します。

今後の研究として、チームは本手法をさまざまな変数タイプに適用し、他の応用分野への展開も探る予定です。本研究は、MIT社会的・倫理的コンピューティング責任（SERC）シード助成金、海軍研究局、Generali、Microsoft、全米科学財団（NSF）の支援を受けています。