LangSmith(プロダクト)に関するニュース一覧

LangChainとMongoDBがAIエージェント基盤で戦略提携

統合プラットフォームの全容

Atlas上でベクトル検索・状態管理を一元化
自然言語からMongoDB問い合わせを自動生成
LangSmithエージェント全工程を可視化

導入企業の活用事例

Kai Securityが1日で本番運用を実現
Fortune 500企業が金融・医療分野で採用
コンプライアンスや顧客対応を自動化

オープンな設計思想

LLMプロバイダー・クラウド自由に選択可能
LangGraph等の主要コンポーネントはOSS公開

LangChainMongoDBは2026年3月、AIエージェントの開発から本番運用までを単一プラットフォームで完結させる戦略的パートナーシップを発表しました。6万5000社以上が利用するMongoDB Atlas上にエージェント基盤を構築する統合ソリューションです。

統合の中核は、Atlas Vector SearchによるRAG検索拡張生成の実装です。セマンティック検索、ハイブリッド検索、GraphRAGを単一のMongoDBデプロイメントから実行でき、ベクトルデータと業務データを同じ基盤で管理するため、同期処理や二重管理の負担がなくなります。

MongoDB Checkpointerエージェントの状態をMongoDBに永続化する仕組みで、会話履歴の保持、障害からの自動復旧、任意時点への巻き戻しデバッグが可能です。LangSmithデプロイメント環境で設定するだけで、アプリケーションデータと同じデータベースにエージェントの状態が保存されます。

Text-to-MQL機能では、自然言語をMongoDBクエリ言語に自動変換し、エージェントが業務データに直接アクセスできます。「過去30日間の配送遅延注文を表示」といった質問を、カスタムAPIなしで処理できるため、開発工数を大幅に削減できます。

サイバーセキュリティ企業のKai Securityは、この統合により1日で本番デプロイを達成しました。従来は別途データベース層の構築に1カ月を要していた作業が、既存のMongoDB基盤上で一時停止・再開、障害復旧、監査証跡を即座に実装できたとしています。

LangChain CEOのHarrison Chase氏は「MongoDBの顧客はプロトタイプから本番エージェントまで、既存インフラを離れずに完結できる」と述べています。全統合機能は即日利用可能で、AWS・Azure・GCPのマルチクラウドに対応し、主要コンポーネントはオープンソースとして公開されています。

LangChainがエージェント基盤カスタマイズ用ミドルウェア機構を公開

ミドルウェアの仕組み

フックでループ各段階に介入
PII除去やコンプライアンスを確実適用
実行時にツールやモデルを動的切替
コンテキスト要約でトークン超過防止

Deep Agentsの評価手法

行動単位の標的型evalを重視
正確性・効率性・遅延の多軸計測
理想軌道との比較で無駄なステップ検出
pytestとCI連携で再現性確保

LangChainは、AIエージェントの中核ループをカスタマイズできる「AgentMiddleware」機構を公開しました。モデル呼び出しの前後やツール実行時にフックを挿入し、業務固有のロジックを組み込めます。

ミドルウェアはコンポーザブル設計で、PII検出・動的ツール選択・コンテキスト要約・リトライ制御など主要パターンが標準搭載されています。開発者AgentMiddlewareクラスを継承し、独自のビジネスロジックも追加できます。

同社のDeep Agentsはこのミドルウェア基盤上に構築されたオープンソースのエージェントハーネスです。ファイルシステム管理・サブエージェント・要約・スキル開示など複数のミドルウェアを組み合わせ、本番運用に耐える構成を実現しています。

Deep Agentsの品質管理では、大量のベンチマークを闇雲に追加するのではなく、本番で重要な行動を特定し、それを検証可能な形で計測する標的型evalを設計しています。正確性に加え、ステップ比率・ツール呼び出し比率・遅延比率・解決速度の多軸で効率性も評価します。

評価データは自社のドッグフーディングやTerminal Bench・BFCLなど外部ベンチマークから厳選し、各evalにカテゴリタグと目的を明記しています。全実行トレースをLangSmithに記録することで、チーム全体での障害分析と継続的改善を可能にしています。

LangChain、エージェント間で業務知識を共有する「スキル」機能を公開

スキルの概要と特徴

業務知識エージェントに付与
関連時のみスキルを自動読込
ワークスペース全体で共有・同期
退職者の知見も組織に残存

作成方法と拡張性

AIとの対話から自動生成可能
テンプレートや手動作成にも対応
CLIでコード開発環境に連携
バージョン管理と権限拡張を予定

LangChainは2026年3月、AIエージェント開発基盤LangSmith Fleetにおいて、エージェント間で業務知識を共有できる「スキル」機能を正式に公開しました。スキルとは、特定タスクに必要な手順やドメイン知識をまとめた指示セットです。

現在のAIエージェント推論能力に優れる一方、業務固有の知識がなければ実用性に限界があります。たとえばサポートエージェントがSLAの優先度を知らなければ、すべての問い合わせを同一に扱ってしまいます。スキルはこの課題を解決する仕組みです。

スキルの作成方法は多彩で、AIとのチャットから自動生成する方法、エージェント作成時の自動提案、テンプレートからの選択、手動記述の4通りが用意されています。作成したスキルはワークスペースに共有でき、チーム全員のエージェントが即座に利用可能になります。

特筆すべきはポータビリティの高さです。LangSmith CLIを使えば、Fleet上のスキルをローカル開発環境にダウンロードし、Claude CodeCursorCodexなど任意のコーディングエージェントにそのまま連携できます。知識の再記述やコピーは不要です。

今後の機能拡張として、スキルのバージョン固定とロールバック、および複数オーナーによる共同編集権限の追加が予定されています。エージェントが高度な業務を担うほど、指示の質が成果を左右するとLangChainは強調しています。

Moda、AIデザインエージェントを本番投入し非デザイナー向け設計基盤を構築

マルチエージェント構成

3種のエージェントが協調動作
デザイン・リサーチ・ブランドの役割分担
Deep Agents基盤で構築
LangSmithで全実行をトレース

コンテキスト工学の工夫

独自DSLでレイアウト抽象化
トリアージでスキル動的注入
キャンバス規模に応じた文脈制御

UXと今後の展開

Cursor型サイドバーで対話的編集
B2B営業チーム向けにPMFを確認

Modaは、マーケターや創業者などデザイン未経験者向けのAIネイティブデザインプラットフォームです。LangChain Deep Agentsを基盤としたマルチエージェントシステムにより、プレゼン資料やSNS投稿、PDFなどをプロ品質で自動生成する仕組みを本番環境で稼働させています。

システムの中核は、デザインエージェント、リサーチエージェントブランドキットエージェント3つのエージェントで構成されています。リサーチエージェントは外部ソースから構造化コンテンツを取得し、ブランドキットエージェントはロゴやフォント、カラーなどのブランド資産を取り込み、一貫したデザインを実現します。

AIデザインの最大の課題は、PowerPointのXML仕様のようなXY座標ベースの表現がLLMの推論に不向きな点です。Modaは独自のコンテキスト表現レイヤーを開発し、HTMLのFlexboxのようなレイアウト抽象化をLLMに提供することで、トークンコストを削減しつつ出力品質を大幅に向上させました。

各リクエストはまず軽量なトリアージノードで分類され、適切なスキルが動的に注入されます。コアツールは12〜15個に抑え、追加の約30ツールは必要時のみ読み込む設計により、プロンプトキャッシュの効率を最大化しています。LangSmithによるノード単位のコスト追跡が、この最適化を可能にしました。

UX面では、生成と置換の一方通行ではなく、完全に編集可能な2Dベクターキャンバ上でAIが直接操作する設計を採用しています。Cursor風のサイドバーで反復的な対話を行い、ユーザーとAIが協調してデザインを仕上げます。B2B企業の営業チームを中心にプロダクトマーケットフィットを確認しており、今後はメモリ機能の統合やマルチブランド対応の拡張を予定しています。

LangSmith Fleetがエージェント認可を2種類に分類

2つの認可モデル

Assistant型はユーザー代理で動作
Claw型は固定資格情報を保持
専用アカウントでアクセス範囲を制御
チャネル連携でSlackに展開可能

運用と今後の展望

Human-in-the-loopで危険操作を制御
メール応答エージェントClaw型で運用
ユーザー別メモリ権限を今後導入
WorkOSと連携し認可を高度化

LangChainは2026年3月にエージェント管理基盤「LangSmith Fleet」を正式リリースし、エージェントが外部ツールを利用する際の認可方式として「Assistant」と「Claw」の2種類を導入しました。

Assistant型はユーザーの代理として動作する方式です。たとえばオンボーディングエージェントNotionやRipplingにアクセスする場合、操作者本人の資格情報を使用します。これによりAliceはBobの非公開情報にアクセスできず、適切なアクセス制御が実現されます。

一方のClaw型は、OpenClawの登場を契機に生まれた概念です。エージェント作成者が設定した固定の資格情報で動作するため、誰が利用しても同一の権限範囲となります。作成者個人の認証情報を使う代わりに、専用アカウントを作成してアクセス範囲を限定する運用が推奨されています。

実際の活用例として、オンボーディングエージェントはAssistant型でSlackNotionに連携し、メール応答エージェントはClaw型でカレンダー確認やメール送信を実行します。Claw型では危険な操作に対してHuman-in-the-loopのガードレールを設けることが重要とされています。

今後の展開として、エージェント種別に応じたメモリ権限の細分化が計画されています。現在はアクセス権限ベースで管理していますが、将来的にはユーザー固有のメモリを導入し、Assistant型でAliceの機密情報がBobとの会話に漏洩しない仕組みを構築する方針です。

LangChain、エージェント群管理基盤「LangSmith Fleet」を公開

Fleet の主要機能

エージェント共有と3段階権限
認証情報の一元管理
Slack連携で個別ボット運用
全操作の監査トレース記録

企業向け管理体制

Inboxで承認を一元化
Claw型とAssistant型のIDモデル
OAuth対応のユーザー別認証
編集・実行・複製の権限制御

LangChainは、企業向けAIエージェント管理基盤「LangSmith Fleet」を発表しました。複数のエージェントを組織全体で作成・共有・運用するためのワークスペースで、権限管理や認証、監査機能を備えています。

Fleet最大の特徴は、エージェント共有モデル権限管理です。個人またはワークスペース全体への共有が可能で、「複製可」「実行可」「編集可」の3段階の権限を設定できます。コアチームには編集権限、一般ユーザーには実行のみといった柔軟な運用が実現します。

エージェント認証モデルには2種類があります。「Claw」型は共有サービスアカウントで全ユーザーが同一認証情報を使用し、「Assistant」型は各ユーザーがOAuthで個別認証します。用途に応じた使い分けにより、セキュリティと利便性を両立させています。

Slack連携では、各エージェントに専用のSlackボットを割り当てられます。@vendor-intakeや@weekly-sales-numbersのように個別ハンドルで呼び出せるため、チームメンバーはチャンネル上でエージェントにタスクを直接依頼できます。

企業運用に不可欠な監査機能も充実しています。全エージェントの操作を一元管理する「Inbox」で承認・却下が可能なほか、LangSmithのトレース機能により、どのエージェントが誰の代理でどのデータにアクセスしたかを完全に記録・検索できます。

LangSmith全機能にAIアシスタントPollyが正式対応

Pollyの主な進化

全ページで利用可能に
会話コンテキスト永続化
プロンプト修正等の実行操作対応
評価コード自動生成機能

デバッグ支援の強化

300ステップのトレース解析
スレッド全体の感情分析
実験結果の比較と推奨提示
ページ横断での文脈維持

LangChainは、LLMアプリ開発プラットフォームLangSmithに搭載するAIアシスタントPolly」の一般提供を開始しました。従来は一部ページに限定されていた機能が、全ページ・全ワークフローで利用可能になっています。

Pollyの最大の特長は、数百ステップに及ぶトレースを自動的に読み解き、障害の原因箇所を特定できる点です。エージェント開発特有の複雑なデバッグ作業において、従来は人手で追跡していた長大なログ解析をAIが代行します。

今回の更新ではページ間のコンテキスト維持が実現しました。トレースの確認から実験の比較、データセットへの追加、プロンプトの修正まで、一連のワークフローを通じてPollyが文脈を保持し続けるため、作業の中断や再説明が不要になります。

さらにPollyは質問への回答だけでなく、プロンプトの更新、失敗した実行からのデータセット作成、評価コードの生成といった実行操作にも対応しました。スレッド全体のユーザー感情分析や、実験結果に基づく最適な構成の推奨も可能です。

利用にはLangSmithアカウントとモデルプロバイダーのAPIキー設定が必要です。Cmd+I(Mac)またはCtrl+I(Windows/Linux)で任意のページから即座に起動でき、エージェント開発チームの生産性向上が期待されます。

LangChainがエージェント向け安全なコード実行環境を公開

Sandboxesの概要

LangSmith SDKから1行で起動
microVMによるカーネル級隔離
Docker独自イメージの持ち込み対応
プール事前確保でコールドスタート回避

主要機能と安全設計

認証プロキシで秘密情報を隔離
長時間セッションとWebSocket配信
複数エージェント共有アクセス対応
Python・JavaScript両SDK対応

LangChainは、AIエージェントが安全にコードを実行できるサンドボックス環境「LangSmith Sandboxes」をプライベートプレビューとして公開しました。エージェントによる任意コード実行のリスクを軽減する目的で開発されています。

従来のコンテナは既知のアプリケーションコード向けに設計されており、エージェントが生成する予測不能なコードの実行には適していませんでした。LangSmith Sandboxesは各サンドボックスをハードウェア仮想化されたmicroVMで隔離し、Linuxの名前空間だけに頼らないカーネルレベルの保護を提供します。

セキュリティ面では認証プロキシを介して外部サービスに接続する仕組みを採用し、認証情報がサンドボックス内に一切残らない設計です。CPU・メモリ・ディスクのリソース制限も組み込まれており、エージェントの暴走を防止します。

実行機能としては、長時間タスクのタイムアウトなし動作、WebSocketによるリアルタイム出力ストリーミング、複数スレッドにまたがる永続的な状態保持に対応します。また、ウォームプールの事前確保とオートスケーリングにより、需要増加時にも待ち時間を最小化します。

今後は共有ボリュームによるエージェント間の状態共有、実行可能バイナリの制御、仮想マシン内の全プロセス・ネットワーク呼び出しの完全トレーシング機能を開発予定です。同社のOpen SWEプロジェクトでも内部利用されており、コーディングエージェント構築の基盤として位置づけられています。

LangChain、エージェント一発デプロイCLIを公開

deploy CLIの主要機能

langgraph deployで即時デプロイ
Docker構築からインフラ自動構成まで一貫
Postgres・Redisも自動セットアップ
CI/CDパイプラインへの組み込みに対応

管理コマンドと開発支援

デプロイ一覧・ログ確認・削除を完備
uvx経由で即座に利用可能
deep agent・simple agentテンプレート提供

LangChainは、langgraph-cliパッケージに新たなdeploy CLIコマンド群を追加し、コマンドライン一つでAIエージェントLangSmith Deploymentデプロイできる機能を公開しました。

中核となるlanggraph deployコマンドは、ローカルのLangGraphプロジェクトからDockerイメージを自動構築し、本番運用に必要なインフラを一括で構成します。手動でのサーバー設定が不要になり、開発者の負担を大幅に軽減します。

インフラ面では、永続化のためのPostgreSQLとメッセージストリーミング用のRedisが自動的にセットアップされます。これにより、エージェントは追加設定なしに本番環境で安定稼働できます。

GitHub ActionsやGitLab CI、Bitbucket Pipelinesなど既存のCI/CDワークフローとの統合も容易です。デプロイの一覧表示、ログ確認、削除といった管理コマンドも同時に提供されています。

開発者向けにはdeep agentとsimple agentの新テンプレートも公開されており、langgraph newコマンドで雛形を生成できます。uvxを使えばインストール不要で即座に試用が可能です。

LangChainとNVIDIAがエージェントAI開発基盤で包括提携

統合プラットフォームの全容

LangGraphとNIM統合で本番運用
NeMo Agent Toolkitとの連携
推論レイテンシの自動最適化機能
NIMで最大2.6倍のスループット向上

評価・監視と今後の展開

LangSmithで150億トレース処理実績
Nemotronモデル群での横断評価
LangChainNemotron Coalition参加
GPU環境でのDeep Agents実行構想

LangChainは2026年3月16日、NVIDIAとの包括的な統合を発表し、企業向けエージェントAI開発プラットフォームを提供すると明らかにしました。累計ダウンロード数10億回を超える同社のオープンソースフレームワーク群と、NVIDIAのAIツールキットを組み合わせた構成です。

プラットフォームはLangGraphによるマルチエージェントのオーケストレーション、Deep Agentsによるタスク計画とサブエージェント生成、そしてNVIDIA AI-Q Blueprintによるディープリサーチ機能を備えます。NeMo Agent Toolkitにより既存のLangGraphエージェントを最小限のコード変更で導入できます。

実行面ではNIMマイクロサービスが標準デプロイ比で最大2.6倍のスループットを実現します。Nemotron 3 SuperのMoEアーキテクチャにより単一GPUでのコスト効率の高い展開が可能です。並列実行や投機的実行によるレイテンシ削減も自動的に適用されます。

監視面ではLangSmithが150億トレース・100兆トークンの処理実績を持ち、分散トレーシングやコスト監視を提供します。NeMo Agent Toolkitのテレメトリと統合することで、インフラレベルとアプリケーションレベルの可観測性を一元化できます。

さらにLangChainNVIDIANemotron Coalitionに参画し、オープンなフロンティアモデルの共同開発に取り組みます。将来的にはDeep AgentsがCUDA-Xライブラリを活用したGPUアクセラレーション環境で動作し、金融や医療分野での大規模データ処理を可能にする構想も示されました。

LangChainがGTMエージェントで商談転換率250%向上を達成

主な成果

商談転換率が250%向上
パイプライン収益が3倍に拡大
営業担当者が月40時間を回収
低意図リードへのフォロー97%増
週次アクティブ利用率86%達成

技術構成

Deep Agentsで長期マルチステップ処理
Salesforce・Gong・LinkedInを自動連携
LangSmithで全行動をトレース記録
担当者編集から自動学習するメモリ機構
サブエージェント並列実行でスケール対応

LangChainは2025年12月から2026年3月にかけて、営業チーム向けGTMエージェントを自社開発・運用し、リードから有望商談への転換率を250%向上させ、パイプライン収益を3倍に拡大した成果を公表しました。

このエージェントSalesforceに新リードが登録されると自動起動し、サポートチケットの有無や直近の接触履歴を確認してから、Gongの通話記録やLinkedInプロフィール、Exaによるウェブ調査を組み合わせてパーソナライズされたメール下書きを生成します。

担当者はSlack上で下書きの内容とエージェント推論根拠を確認し、送信・編集・キャンセルを選択できる仕組みで、ヒューマン・イン・ザ・ループを徹底することで誤送信リスクを排除しています。

担当者がSlackで下書きを編集すると、LLMが変更差分を解析してスタイル上の傾向を抽出し、PostgreSQLにレップごとに記録します。次回以降の下書きはこの個人メモリを参照して自動改善されます。

GTMエージェントはSDR向けとして始まりましたが、Salesforce・Gong・BigQuery・Gmailへのアクセスを持つ点が口コミで広まり、エンジニアやカスタマーサクセスなど社内各チームが想定外の用途で自発的に活用を始めており、組織横断的なAIエージェント活用の好例となっています。

LangChain、コーディングエージェント向けスキル評価手法を公開

評価パイプラインの要点

Dockerで再現性ある環境構築
制約付きタスクで採点精度向上
バグ修正型タスクが検証に有効
スキル有無で完了率を比較

スキル設計の知見

XMLタグでモジュール化推奨
AGENTS.mdで確実な呼び出し実現
スキル数は12以下で正確に選択
LangSmithで軌跡を可視化

LangChainは2026年3月、Claude CodeCodexなどのコーディングエージェントに与える「スキル」の評価手法とベストプラクティスをブログで公開しました。スキルとは、特定領域でエージェントの性能を高めるための指示・スクリプト・リソースの集合体です。

評価パイプラインの基本は、タスクを定義し、スキルの有無エージェントの成績を比較する手法です。テスト環境には軽量なDockerコンテナを用い、ディレクトリの初期状態を統一することで再現性を確保しています。

タスク設計では、オープンエンドな課題よりもバグ修正型の制約付きタスクが有効であると報告されています。採点が容易になるだけでなく、エージェントの設計空間を適切に限定できるためです。評価指標には、スキルの呼び出し有無、タスク完了率、ターン数、実行時間などを採用しています。

スキル設計においては、AGENTS.mdCLAUDE.mdにスキルの使用方法を記載することで呼び出し率が安定しました。スキルを単独でプロンプト任せにした場合の呼び出し率は最大70%にとどまる一方、事前読み込みファイルに案内を記載すると一貫した呼び出しが実現できたと報告されています。

実験の結果、スキルを搭載したClaude Codeのタスク完了率は82%に達した一方、スキルなしでは9%に低下しました。LangSmithのトレース機能でエージェントの全行動を記録・分析し、失敗原因の特定とスキル内容の反復改善を高速に回すワークフローが紹介されています。

LangChain、AIエージェント開発向けSkills機能を公開

Skills機能の概要

動的読み込みで性能劣化を回避
Claude Codeの正答率が29%→95%
LangSmith用も17%→92%に向上

LangSmith新機能

Agent Builderに統合チャット追加
トレース表示のカスタム設定が可能に
Insights Agentで定期レポート自動化
実験のベースライン固定で差分比較

エージェント運用の知見

ハーネス工学でベンチTop5達成
本番監視の専用手法を体系化

LangChainは2026年2月、AIコーディングエージェントの専門性を高める「Skills」機能を公開しました。LangChain、LangGraph、Deep Agentsの3カテゴリ計11スキルを提供し、エージェント開発の精度を大幅に向上させます。

Skillsはマークダウンファイルとスクリプトで構成される携帯可能な指示セットです。タスクに関連する場合のみ動的に読み込む「プログレッシブ・ディスクロージャー」方式を採用し、ツール過多による性能劣化の問題を解決しています。

評価セットでは、Skills導入によりClaude CodeLangChainタスク正答率が29%から95%へ、LangSmithタスクでは17%から92%へと劇的に改善しました。npx skillsコマンドで簡単にインストールでき、プロジェクト単位またはグローバルに設定可能です。

同時にリリースされたLangSmith CLIは、エージェントネイティブな設計思想で構築されています。トレース取得、データセット管理、実験実行をターミナルから完結でき、エージェントによる改善ループの自動化を実現します。

LangSmithプラットフォームでも複数の新機能が追加されました。Agent Builderの統合チャット、ファイルアップロード対応、トレーステーブルの入出力カスタマイズ、Insights Agentによる定期レポートなど、本番運用を見据えた機能強化が進んでいます。

技術ブログでは、コーディングエージェントがモデル変更なしでTerminal Bench 2.0のTop30からTop5へ躍進した事例も紹介されました。自己検証ループやループ検知ミドルウェアなどの「ハーネス工学」が成功の鍵とされています。

エージェント本番運用をLangChainが解説

エージェント可観測性と評価

エージェントは実行するまで何をするか不明という根本的特性
LangChainトレースエージェント評価の中核に位置づけ
ソフトウェア可観測性とは質的に異なるエージェント監視の必要性
LangSmithエージェント評価フレームワークの詳細を初公開
複雑タスクの評価困難性をトレースで克服するアプローチ

メモリシステムと監査ループ

Agent Builderのメモリシステムはノーコードで実装済み
シャドウモードで本番前にエージェントを並行テスト
ドリフトアラートでモデル挙動の変化を自動検知
監査ログコンプライアンスデバッグの要に
スタティックコンプライアンスからリアルタイム監視

2026年2月22日、LangChainは三つの重要なブログ記事を通じて、AIエージェントの本番運用に向けた包括的なフレームワークを公開しました。これらの記事は、AIエージェントが単なる実験から本番システムへと移行する際に直面する核心的な課題に答えるものです。

エージェント可観測性の記事では、AIエージェントが実行されるまでその行動を予測できないという根本的な特性を起点に、トレース(実行ログの詳細記録)をエージェント評価の基盤とするアプローチを詳述しています。従来のソフトウェア監視とは異なり、エージェントは開かれたタスクを実行するため、評価基準自体を動的に設計する必要があります。

Agent Builderのメモリシステムに関する記事では、ノーコードツールがどのようにして会話履歴、ユーザー設定、長期記憶を管理するかを技術的に詳説しています。メモリはエージェントの文脈理解と一貫性を確保する上で不可欠ですが、その設計にはプライバシーとストレージのトレードオフがあります。

VentureBeatの記事では、シャドウモード(新エージェントを本番システムと並行稼働させ比較するテスト手法)、ドリフトアラート(AIモデルの更新による挙動変化の自動検知)、監査ログ(コンプライアンスデバッグ用の完全な実行記録)を組み合わせた「現代の監査ループ」を解説しています。

これら三つの記事が同日に公開されたことは偶然ではありません。AIエージェントを本番環境で安全・適法・信頼できる形で運用するためのエンタープライズMLOpsの成熟が急速に進んでいます。2026年はAIエージェントの「実験から本番」への転換年になるとの見方が強まっています。

monday.comがLangSmithでAI評価

LLMOpsの実践事例

LangSmithで評価基盤を構築
コードファーストのテスト戦略
CS業務でのAI精度向上

monday.comはLangSmithLangChain社の評価ツール)を用いて、コードファーストのAI評価戦略を構築した事例を公開しました。

この事例では、顧客サポート業務でのAIモデルの精度と信頼性を継続的に測定・改善するためのパイプラインが紹介されています。LLMOpsの実践として参考になる内容です。

エージェントフレームワークと可観測性が生産AIエージェントに不可欠

フレームワーク設計の原則

エージェントフレームワークの選択が成否を左右
観測可能性(オブザーバビリティ)がデバッグに必須
本番AIエージェント信頼性確保の実践方法

エージェントAIの本番運用において、フレームワーク選択と観測可能性(オブザーバビリティ)の整備が重要であることを論じた分析記事です。プロダクション品質エージェントに求められる要素を整理しています。

エージェントのオブザーバビリティとは、エージェントがいつ何を考え、何を決定し、何を実行したかの完全なトレースを記録・可視化することです。これなしに複雑なエージェントデバッグは困難です。

LangSmith、LangFuse、Phoenix(Arize)などのエージェント監視ツールの役割が今後さらに重要になる中、AI運用チームがどのようなスタックを構築すべきかへの示唆が含まれています。

LangSmith、GCPマーケットプレイスに登場

提供内容

エージェント運用基盤
GCP課金で簡単導入
既存契約での利用が可能

意義と展望

LLMOpsの導入障壁低下
エンタープライズ採用を促進
LangChainのエコ系拡大

LangChainエージェントエンジニアリングプラットフォーム「LangSmith」がGoogle Cloud Marketplaceで利用可能になりました。

Google Cloudの既存アカウントで調達できるため、請求の一元化や導入手続きの簡素化が実現します。企業での採用障壁が大幅に下がります。

LangSmithはAIエージェント評価、トレース、デバッグを行う運用基盤です。LLMアプリケーションの品質管理不可欠なツールとなっています。

クラウドマーケットプレイスでの提供はエンタープライズ顧客の調達プロセスに合致しており、大企業での導入が加速する見込みです。

LangChainエコシステムの拡大は、AIエージェント開発ツール市場における同社のリーダーポジションを強化するものです。

AIエージェントの行動をトレースで解析、大規模運用の知見を公開

トレースベース解析の価値

トレースエージェントの思考を可視化
デバッグ効率が大幅に向上
ボトルネックの特定が容易に
ループ検出など異常を自動発見
本番環境での品質保証に活用

大規模運用への示唆

観測可能性が最重要インフラ
LangSmithなど専用ツールが台頭
エージェントの評価が標準化へ
コスト管理にも活用できる
規制準拠の証跡管理にも有効

AIエージェントを大規模に運用する際の知見として、トレース分析による行動理解と品質管理の方法論が共有されました。エージェントの「思考過程」を記録し分析することが実用化の鍵とされています。

エージェントが複数のツールを呼び出す際に生成されるトレースデータから、失敗パターンや非効率なフローを特定できます。これはソフトウェアのAPMと同様の概念です。

観測可能性(Observability)はAIエージェント運用の必須インフラとして位置づけられており、LangSmith、Langfuse、Arize AIなどの専用ツールが市場を形成しています。

エージェントベースのシステムを本番環境で安定稼働させるためには、トレース・評価・フィードバックループの整備が前提条件となっています。

LangChain:AIシステムの「ドキュメント」はトレースが担う

トレースが新しいドキュメントとなる理由

LangChainが「AIシステムではトレースがドキュメント」という考え方を提示
ソフトウェアではコードが実装を記録するが、AIでは実行ログが重要
入力・出力・中間ステップがすべて記録されたトレースで動作を理解
LLMの確率的な挙動はコードだけでは把握できない
可観測性(Observability)がAI開発の必須要素に
LangSmithなどのトレーシングツールの役割が急速に重要化

LangChainエンジニアは「ソフトウェア開発ではコードがアプリを記録するが、AI開発ではトレースが記録する」というテーゼを提示しました。確率的に動作するLLMにおいては、実際の実行ログ(トレース)を見ることが唯一の正確な理解手段です。

特定の入力に対してどのようなプロンプトが送られ、モデルが何を返し、どのツールが呼び出されたかという実行の連鎖をトレースとして記録・可視化することで、初めてシステムの動作を「文書化」できます。

この観点はAIシステムのデバッグ品質管理・改善のすべてに影響します。LangSmithやWeights & Biases、Arizeなどのトレーシングプラットフォームが、従来のAPIドキュメントやコードコメントに相当する役割を担う時代の到来を示しています。

AIが通信・教育・生命科学の現場を変える

LangGraphで実現した通信大手の顧客対応エージェント

Fastweb+VodafoneがLangChain/LangGraphでAIエージェントを本番稼働
顧客向けSuper TOBiは約950万人に対応、正答率90%・解決率82%を達成
コールセンター向けSuper AgentはOne-Call解決率86%超に貢献
Neo4jナレッジグラフとRAGを組み合わせた手順主導のトラブル解決
LangSmithによる日次自動評価でモデル改善サイクルを継続運用
Supervisorパターンが意図ルーティングを決定論的に制御

AI支援で生命科学の実験効率を79倍に向上

OpenAIGPT-5がHiFi DNA分子クローニング手順を自律最適化
RecA/gp32という新規酵素ペアを提案しRAPF-HiFi手法を発案
酵素アセンブリと形質転換の両最適化を合わせ79倍の効率改善を確認
ロボットシステムによる自律実験でヒト実験比89%の性能を実証
Replit Learnがコーディング不要の無料AI開発教育プラットフォームを開始
バイブコーディング」の概念でAIとの反復的な試作学習を提供

イタリアの通信大手Fastweb+VodafoneはLangChainとLangGraphを基盤として、顧客向けチャットボット「Super TOBi」とコールセンター支援ツール「Super Agent」の2つのAIエージェントを本番環境に展開しました。約950万人の顧客に対応するSuper TOBiは正答率90%、解決率82%を達成しています。

Super Agentは、Neo4jに格納されたナレッジグラフとベクトルストアを組み合わせたハイブリッドRAGによって、コンサルタントへリアルタイムで最適な次のアクションを提示します。One-Call解決率は86%を超え、オペレーターの対応品質と一貫性が大幅に向上しました。

LangSmithを初日から導入した同社は、日次で自動評価パイプラインを稼働させ、チャットボット応答を分類・採点して継続的な改善フィードバックを生成しています。この仕組みにより、ビジネス担当者と技術チームが連携しながら目標品質水準を維持しています。

OpenAIGPT-5を用いて湿式実験室における分子生物学のクローニング手順を自律最適化する実験を実施しました。固定プロンプトで人的介入なしに複数ラウンドの反復実験を行い、最終的に79倍の効率改善を達成したと報告しています。

特筆すべき発見はGPT-5が提案した新しい酵素メカニズムです。大腸菌由来の組換え酵素RecAとファージT4のgp32タンパク質を組み合わせたRAPF-HiFi手法は、DNA末端の安定化とホモロジー検索を促進し、既存のHiFi Gibsonクローニングより2.6倍の改善をもたらしました。

形質転換工程ではT7プロトコルがコンピテントセルの濃縮処理により36倍の改善を達成し、酵素と形質転換の両手法を組み合わせることで累計79倍という成果に至りました。これらの結果はAIが実際の実験室研究を意味ある形で支援できることを示しています。

一方でReplitコーディング経験不要の無料教育プラットフォーム「Replit Learn」を公開しました。アプリの仕組み、LLMの基礎、バイブコーディングという3つのレッスンから構成されるAI Foundationsコースを提供し、誰でもAIを使ったアプリ開発を学べる環境を整えています。

これら3つの事例はいずれも、AIがドメイン固有の複雑な課題に対して実務レベルで機能し始めていることを示しています。通信の顧客対応、生命科学の実験最適化、そしてノーコードのソフトウェア教育という異なる領域で、エージェント型AIの実用化が着実に進んでいます。

LangChain、複雑なAIエージェントの解析・修正を自動化

AIがログ解析・修正提案

膨大な実行ログからエラー原因を特定
自然言語でプロンプト修正案を自動生成

CLIで開発フローを統合

ターミナルからトレースデータを直接取得
ログをコーディングAIに渡し修正を自動化

複雑なエージェント開発を支援

数百ステップに及ぶ長時間処理を可視化
人手困難な解析作業をAIが代替

LangChainは10日、LLMアプリ開発プラットフォーム「LangSmith」にて、自律型AIエージェントデバッグを支援する新機能「Polly」と「Fetch」を発表しました。複雑化するAI開発において、エンジニアの負担を劇的に軽減し、生産性を高めるツールとして注目されます。

近年のAIエージェントは数百のステップを経て数分間稼働するなど複雑化し、「ディープエージェント」と呼ばれます。その結果、膨大な実行ログの中からエラー原因や非効率な挙動を人間が目視で特定することが極めて困難になり、開発のボトルネックとなっていました。

新機能の「Polly」は、ログ画面に常駐するAIアシスタントです。「どこで間違えたか」「より効率的な方法はないか」とチャットで問うだけで、AIが膨大なトレースを解析し回答します。さらに、改善点に基づきシステムプロンプトの具体的な修正案も提示します。

同時に発表されたCLIツール「Fetch」は、ターミナルやIDEでの開発を加速します。直近の実行ログをコマンド一つで取得し、Claude CodeなどのコーディングAIに直接パイプすることで、原因究明からコード修正までを半自動化するワークフローを実現します。

従来、多くの時間を要していたログ解析作業をAIに任せることで、エンジニアは本質的なロジック構築やアーキテクチャ設計に集中できます。これらのツールは、高度なAIエージェント開発の生産性と品質を同時に高める強力な武器となるでしょう。

LangSmith、対話で作れる自律AI構築機能を一般公開

チャットで自律エージェント開発

会話のみでノーコード開発
動的な判断でタスクを自律完遂
詳細プロンプト自動生成

社内ツール連携とチーム共有

MCP社内システムと接続
APIで既存ワークフロー統合
チーム内での共有と再利用

LangChainは2025年12月2日、コーディング不要で実用的なAIエージェントを作成できる「LangSmith Agent Builder」をパブリックベータ版として公開しました。従来の固定的な手順書型とは異なり、チャットで指示するだけで、自律的に判断・実行する高度なエージェントを誰でも短時間で構築・展開できる点が画期的です。

最大の特徴は、エンジニアでなくとも対話形式で開発が完結する点です。ユーザーの曖昧なアイデアから、システムが自動で詳細なプロンプトを作成し、必要なツールを選定します。これにより、現場の担当者が自ら業務特化型AIを作ることが可能です。

従来の手順型自動化とは異なり、このエージェントは状況に応じて動的に計画を修正しながらタスクを遂行します。複雑な調査や分析など、事前に手順を定義しきれない業務でも、エージェントが試行錯誤を繰り返して目的を達成するため、生産性が向上します。

企業利用を見据え、拡張性も強化されました。MCPサーバーを介して社内データやAPIと安全に接続できるほか、作成したエージェントをAPI経由で呼び出すことも可能です。また、タスクに応じてOpenAIAnthropicなどのモデルを選択できます。

先行ユーザーにより、営業リサーチやチケット管理など多岐にわたる事例が生まれています。チーム内でテンプレートを共有し、個々のニーズに合わせて微調整することで、開発リソースを使わずに組織全体の業務効率化を加速させることができます。

独JimdoがLangChain採用、個人事業主の注文数が40%増

課題と技術的アプローチ

人事業主の専門知識不足を解決
LangGraphで文脈認識AIを構築
10以上のデータを統合分析

導入効果と今後の展望

初成約の達成率が50%向上
注文や問い合わせが40%増加
提案から実行の自動化へ進化

ドイツのWebサイト作成サービスJimdoは、LangChainを活用したAI「Jimdo Companion」を開発しました。個人事業主が抱える集客や運営の課題に対し、10以上のデータソースを分析して最適な行動を提案します。このAI導入により、ユーザーの注文数が40%増加するなど顕著な成果を上げています。

多くの個人事業主はWebサイトを作成できても、SEOやマーケティングの専門知識が不足しています。その結果、トラフィックやコンバージョンを伸ばせず、効果的な施策を打てないという課題がありました。

開発チームはLangGraph.jsを採用し、状況に応じて動的に判断するAIを構築しました。ユーザーのビジネス状況や過去の行動履歴といった文脈を保持しつつ、複数の分析を並行して実行できる点が特徴です。

「Companion Assistant」はユーザーのブランドトーンを学習し、SEOや予約管理などを支援します。ダッシュボードでは、次に優先すべきアクションを具体的に提示し、意思決定をサポートします。

導入効果は明確で、AI利用者は利用しない層に比べて最初の顧客獲得率が50%高くなりました。単なる集客増だけでなく、提供価値の明確化や価格設定の最適化にも貢献しています。

AIの信頼性を担保するため、LangSmithを用いて回答精度や遅延を監視しています。評価プロセスを確立することで、継続的なプロンプトの改善やバグ修正の迅速化を実現しました。

今後は「アドバイス」から「実行」の自動化へ進化します。設定や最適化を自律的に行うエージェント群を強化し、個人事業主がビジネスの本質に集中できるプラットフォームを目指します。

ServiceNow、AIエージェント連携で顧客体験を革新

散在するエージェントの課題

部署ごとに断片化したAIエージェント
顧客体験の一貫性の欠如

LangChainによる高度な連携

LangGraphで複雑な連携を構築
LangSmith挙動を可視化デバッグ
人間が開発に介在し効率化

厳格な評価と今後の展望

独自の評価基準で性能を測定
成功例から品質データを自動生成
本番稼働後の継続的な監視

デジタルワークフロー大手のServiceNowが、セールスとカスタマーサクセス業務の変革を目指し、LangChainのツール群を活用したマルチエージェントシステムを開発しています。顧客獲得から契約更新まで、一貫した顧客体験を提供することが狙いです。本記事では、その先進的なアーキテクチャと開発手法を解説します。

これまで同社では、AIエージェントが各部署に散在し、顧客のライフサイクル全体を横断する複雑なワークフローの連携が困難でした。この「エージェントの断片化」が、一貫性のある顧客対応を提供する上での大きな障壁となっていたのです。

この課題を解決するため、ServiceNowは顧客ジャーニー全体を統括するマルチエージェントシステムを構築しました。リード獲得、商談創出、導入支援、利用促進など各段階を専門エージェントが担当し、スーパーバイザーエージェントが全体を指揮する構成です。

システムの核となるエージェント間の連携には、LangGraphが採用されました。これにより、複雑な処理をモジュール化して組み合わせることが可能になりました。また、開発者が途中で処理を停止・再開できる機能は、開発効率を劇的に向上させました。

一方、エージェントの挙動監視とデバッグにはLangSmithが不可欠でした。各ステップの入出力や遅延、トークン数を詳細に追跡できるため、問題の特定が容易になります。これにより、開発チームはエージェントのパフォーマンスを正確に把握し、改善を重ねることができました。

品質保証の仕組みも高度です。LangSmith上で、エージェントのタスクごとに独自の評価基準を設定。さらに、LLMを判定者として利用し、出力の精度を評価します。基準を満たした成功例は「ゴールデンデータセット」として自動で蓄積され、将来の品質低下を防ぎます。

システムは現在、QAエンジニアによるテスト段階にあります。今後は本番環境でのリアルタイム監視に移行し、収集したデータで継続的に品質を向上させる計画です。ServiceNowのこの取り組みは、AIを活用した顧客管理の新たな標準となる可能性を秘めています。

LangChain、誰でもAIエージェントを開発できる新ツール

ノーコードで誰でも開発

開発者でも対話形式で構築
従来のワークフロービルダーと一線
LLMの判断力で動的に応答
複雑なタスクをサブエージェントに分割

連携と自動化を加速

Gmail等と連携するツール機能
イベントで起動するトリガー機能
ユーザーの修正を学習する記憶機能
社内アシスタントとして活用可能

AI開発フレームワーク大手のLangChainは10月29日、開発者以外のビジネスユーザーでもAIエージェントを構築できる新ツール「LangSmith Agent Builder」を発表しました。このツールは、プログラミング知識を必要としないノーコード環境を提供し、対話形式で簡単にエージェントを作成できるのが特徴です。組織全体の生産性向上を目的としています。

新ツールの最大の特徴は、従来の視覚的なワークフロービルダーとは一線を画す点にあります。あらかじめ決められた経路をたどるのではなく、大規模言語モデル(LLM)の判断能力を最大限に活用し、より動的で複雑なタスクに対応します。これにより、単純な自動化を超えた高度なエージェントの構築が可能になります。

エージェントは主に4つの要素で構成されます。エージェントの論理を担う「プロンプト」、GmailSlackなど外部サービスと連携する「ツール」、メール受信などをきっかけに自動起動する「トリガー」、そして複雑なタスクを分割処理する「サブエージェント」です。これらを組み合わせ、目的に応じたエージェントを柔軟に設計できます。

開発のハードルを大きく下げているのが、対話形式のプロンプト生成機能です。ユーザーが自然言語で目的を伝えると、システムが質問を重ねながら最適なプロンプトを自動で作成します。さらに、エージェント記憶機能を備えており、ユーザーによる修正を学習し、次回以降の応答に反映させることができます。

具体的な活用例として、メールやチャットのアシスタントSalesforceとの連携などが挙げられます。例えば、毎日のスケジュールと会議の準備資料を要約して通知するエージェントや、受信メールの内容に応じてタスク管理ツールにチケットを作成し、返信案を起草するエージェントなどが考えられます。

LangSmith Agent Builder」は現在、プライベートプレビュー版として提供されており、公式サイトからウェイトリストに登録できます。同社は、オープンソースのLangChainやLangGraphで培った知見を活かしており、今後もコミュニティの意見を取り入れながら機能を拡張していく方針です。

LangSmith、AIエージェントの本番監視・評価を強化

利用状況を自動で可視化

膨大な利用ログを自動分類
ユーザーの意図をパターン化
失敗原因の特定を支援

対話全体の成否を評価

複数回のやり取り全体を評価
ユーザー目的の達成度を測定
LLMによる自動スコアリング

LangChain社が、LLMアプリ開発基盤「LangSmith」にAIエージェントの監視・評価を強化する新機能を追加しました。2025年10月23日に発表された「Insights Agent」と「Multi-turn Evals」です。これにより開発者は、本番環境でのユーザーの利用実態を深く理解し、エージェントの品質向上を加速できます。

AIエージェントが本番投入される事例が増える一方、その品質評価は大きな課題でした。従来の監視手法では、単なる稼働状況しか分からず、エージェントが「ユーザーの真の目的」を達成できたかまでは把握困難でした。膨大な対話ログの全てに目を通すのは非現実的です。

新機能「Insights Agent」は、この課題に応えます。本番環境の膨大な利用ログをAIが自動で分析し、共通の利用パターンや失敗モードを抽出。「ユーザーは何を求めているか」「どこで対話が失敗しているのか」をデータに基づき把握でき、改善の優先順位付けが格段に容易になります。

もう一つの新機能「Multi-turn Evals」は、複数回のやり取りからなる対話全体を評価します。個々の応答の正しさだけでなく、一連の対話を通じてユーザーの最終目的が達成されたかを測定。LLMを評価者として活用し、対話の成否を自動でスコアリングできるのが特徴です。

これら2つの機能を組み合わせることで、開発サイクルは劇的に変わるでしょう。「Insights Agent」で"何が起きているか"を把握し、「Multi-turn Evals」で"それが成功か"を測定する。この本番データに基づいた高速な改善ループこそが、信頼性の高いエージェントを構築する鍵となります。

LangChain社は、エージェント開発における「本番投入後の改善」という重要課題に正面から取り組みました。今回の新機能は、開発者実世界のデータから学び、迅速に製品を改良するための強力な武器となるでしょう。今後の機能拡充にも期待が高まります。