GitHubが多言語AI向け公開データセットを無償公開
詳細を読む
GitHubは6月15日、非英語の自然言語コンテンツを含む公開リポジトリを発見するためのメタデータ集「GitHub Multilingual Repositories Dataset」を公開しました。4000万を超えるリポジトリにわたる8000万件超の言語分類を収め、ライセンスはCC0-1.0で誰でも自由に利用できます。多言語AIの開発と評価を加速させる狙いです。
このデータセットはリポジトリ本文をそのまま収録するものではなく、あくまで多言語の協働が起きていそうな場所を探すためのメタデータ集です。各リポジトリについて、READMEと最もコメントの多い課題・プルリクエストの冒頭150文字を入力サンプルとして言語を分類し、20文字未満のテキストは除外しています。スター数やフォーク数、主要プログラミング言語、ライセンスといった付随情報も併せて提供します。
言語判定にはfastText・gcld3・lingua-pyの3つの分類器を用い、それぞれ信頼度スコア付きで結果を併記しています。GitHubはあえて単一ラベルに統合せず、利用者が精度と再現率のどちらを重視するか選べるようにしました。例えば高精度なギリシャ語の部分集合が欲しければ、3分類器すべてが一定の信頼度で一致する条件を課せばよいわけです。
今回の公開で見えてきた事実も興味深いものです。課題テキストで最も多い非英語は韓国語でしたが、READMEでは5番目にとどまりました。READMEの非英語首位はポルトガル語で、300万を超えるリポジトリで使われていました。言語の使われ方が文書の種類によって大きく異なることがわかります。
背景にあるのは、AIの学習・評価に使われるオンラインテキストで欧州言語が過小評価されているという課題です。一部の開発者や言語にだけ有効で、ほかを取り残すAIツールが生まれる懸念があります。READMEや課題、プルリクエストに含まれる開発者特有の言葉は、一般的なウェブテキストとは異なる価値を持つとGitHubは説明します。
なぜ今このタイミングなのでしょうか。本データセットは2025年のMicrosoftの欧州デジタル公約に基づくもので、GitHubは6月16日にストラスブールで開かれる催しでその意義を議論する予定です。ただし言語判定は短いテキストでは難しく、正解ベンチマークとして扱うべきではないと注意を促しています。あくまで透明性の高い発見ツールという位置づけです。