LinkedIn、5つの検索基盤をLLM統合し13億人のフィード刷新
出典:VentureBeat
詳細を読む
LinkedInは13億人以上が利用するフィード基盤を全面刷新し、従来の5つの独立した検索パイプラインを1つのLLMベースシステムに統合したことを発表しました。エンジニアリング担当副社長のTim Jurka氏によると、1年間で数百回のテストを実施したとのことです。
従来のフィードは、ネットワークの時系列インデックス、地域トレンド、興味ベースのフィルタリングなど、異なるインフラと最適化戦略を持つ複数のソースから構成されていました。これにより保守コストが増大し、統一的な改善が困難になっていたことが刷新の背景にあります。
新システムでは投稿のフォーマット、著者情報、エンゲージメント数、メタデータをテキスト化するプロンプトライブラリを構築しました。特にエンゲージメント数値をそのままプロンプトに入れるとモデルが重要性を認識できない問題を発見し、パーセンタイルバケットと特殊トークンで解決しています。
ランキング層では独自の生成的推薦モデル(GR)を開発し、ユーザーの過去1000件以上のインタラクション履歴を時系列として処理します。個々の投稿を独立にスコアリングするのではなく、職業的な関心の変遷をシーケンスとして理解する設計です。
GPU コスト削減のため、CPU処理とGPU推論を分離するアーキテクチャを採用しました。Pythonマルチプロセスの代わりにC++データローダーを開発し、独自のFlash Attention変種やチェックポイントの並列化により、GPU メモリの効率的な活用を実現しています。