MIT、数学五輪3万問超のデータセット公開

2026年04月24日 DeepSeek 検索数学 GPT-5 専門家学生

MathNetの概要

47カ国143大会から3万問超を収録

17言語対応で既存の5倍規模

公式問題集から専門家の解答を収集

学生とAI研究者の双方に無償公開

AIの弱点を浮き彫りに

GPT-5でも正答率は約69%

図形問題で性能が大幅に低下

モンゴル語問題でOSSモデルが全滅

類似問題の検索精度はわずか5%

出典：MIT News

詳細を読む

MITのCSAIL、KAUST、HUMAINの研究チームは2026年4月24日、数学オリンピックレベルの証明問題を集めた世界最大のデータセット「MathNet」を公開しました。47カ国・143大会から収集した3万問超の問題と解答を含み、17言語に対応しています。同種のデータセットとしては既存最大の5倍の規模です。成果はブラジルで開催されるICLR 2026で発表されます。

従来のデータセットは米国と中国の大会に偏っていましたが、MathNetは6大陸にまたがる公式大会の問題集を網羅しています。1,595件のPDF資料・計2万5000ページ以上を追跡し、数十年前のスキャン文書まで含めて収録しました。問題と解答はすべて専門家が執筆・査読したもので、複数の解法が示されるケースも多く、AIの数学的推論の学習に質の高い信号を提供します。

AIモデルのベンチマークとしても重要な知見をもたらしています。最高性能のGPT-5でも6,400問のベンチマークで正答率は約69.3%にとどまり、約3問に1問を解けませんでした。図形を含む問題では全モデルで精度が大幅に低下し、視覚的推論が一貫した弱点であることが判明しました。また複数のオープンソースモデルはモンゴル語の問題で正答率0%を記録しています。

さらに類似問題の検索ベンチマークでは、最先端の埋め込みモデル8種を評価した結果、初回で正しい類似問題を特定できた割合はわずか約5%でした。検索拡張生成の実験では、関連性の高い問題を与えるとDeepSeek-V3.2-Specialeの正答率が最大12ポイント向上する一方、無関係な問題の提示は約22%のケースで性能を低下させました。

筆頭著者のShaden Alshammari氏はIMO出場経験を持ち、「多くの国で独力で大会準備をしている学生がいる。質の高い問題と解答を一カ所に集めたかった」と語っています。データセットはIMO財団とも共有される予定で、mathnet.csail.mit.eduから誰でもアクセスできます。