UStackUStack
Agentset favicon

Agentset

Agentset は、信頼性の高い RAG、多モーダル対応、開発者フレンドリーな SDK を備えた、プロダクション品質の AI チャット/検索アプリケーションを構築するためのオープンソース・プラットフォームです。

Agentset

Agentsetとは?

Agentset とは?

Agentset は、プロダクション品質の Retrieval-Augmented Generation(RAG:検索拡張生成)アプリケーションを構築したい開発者向けのオープンソース基盤プラットフォームです。自社のドキュメントやデータに対して、根拠となる引用付きの信頼できる回答を返すチャット/検索体験を提供します。複雑な RAG パイプラインを一から設計・チューニング・運用する必要はありません。

多くの RAG デモは、制御された環境では見栄えがよいものの、実際のユーザー、大量のドキュメント、雑多でマルチモーダルなデータに直面すると破綻しがちです。Agentset は、こうした現実的なプロダクション環境を前提に設計されています。堅牢なインジェスト、ハイブリッド検索、エージェント的推論、自動引用を 1 つのシステムに統合し、すぐに使える形で提供することで、チームは数か月ではなく数分で、正確な AI 検索や Q&A をプロダクト内に届けることができます。

主な特長

  • すぐに使えるプロダクション級 RAG
    Agentset は、インジェスト、インデックス作成、検索、推論、回答生成まで含むエンドツーエンドの RAG スタックを提供します。プロダクションのワークロード向けに設計されており、データ量・利用状況・複雑さが増しても、信頼性と一貫性を保てるよう最適化されています。

  • ベンチマーク水準の高精度な回答
    プラットフォームは、カスタムチューニング前でも自社データに対して高精度な応答が得られるよう最適化されています。MultiHopQAFinanceBench などの業界標準ベンチマークをターゲットとしており、複雑なマルチステップや専門領域の質問応答に適しています。

  • 多モーダル対応(テキスト・画像・表・グラフなど)
    Agentset は、従来のテキストに加えて、画像・表・グラフをネイティブに扱えます。これにより、PDF、プレゼン資料、スプレッドシート、画像の多いドキュメント、各種構造化アーティファクトなど、ナレッジベース全体にまたがる質問に答えることができ、プレーンテキストだけに限定されません。

  • 自動引用で信頼できる回答を提供
    Agentset が生成するすべての回答には、元になった情報源への引用が付与されます。ユーザーは、どのドキュメントのどの箇所が使われたのかを確認できるため、ヘルスケアや金融のようなセンシティブな領域においても、信頼性・デバッグ可能性・コンプライアンスを高めることができます。

  • メタデータフィルタときめ細かな検索制御
    Agentset はメタデータに基づくフィルタリングをサポートしており、顧客・プロジェクト・地域・日付・権限レベルなどで、回答に利用されるドキュメントの範囲を絞り込めます。これはマルチテナント製品やロールベースのアクセス制御といったシナリオに不可欠です。

  • リランキング付きハイブリッド検索
    検索レイヤーは、ベクター検索に伝統的なキーワード検索やメタデータベースの検索を組み合わせ、さらにリランキングを行うことで精度を最大化します。これにより、リコールと関連性の両方が向上し、ハルシネーションや見落としを減らします。

  • エージェント的推論を標準搭載
    Agentset は、エージェント的な推論能力をスタック内に組み込んでおり、複数ステップの分析や複数ドキュメントの統合、複雑な Q&A を、独自のオーケストレーションロジックを開発することなく実現できます。

  • 豊富なファイル形式サポート
    Agentset は 22 種類以上のファイル形式 に対応しており、以下のようなドキュメントを取り込むことができます:
    .PDF、.DOCX、.PPT、.PPTX、.XLSX、.ODT、.TXT、.MD、.CSV、.TSV、.HTML、.XML、.EML、.MSG、.JPEG、.PNG、.BMP、.HEIC など。幅広い形式をサポートしているため、既存のナレッジリポジトリを 1 つの検索可能な AI 対応インデックスに集約しやすくなります。

  • 開発者ファーストな SDK(JavaScript & Python)
    Agentset は JavaScript と Python 用の SDK を提供しており、データのインジェスト、ネームスペースの設定、AI エージェントのクエリを簡単に実装できます。典型的なワークフローでは、数行のコードでネームスペースを作成し、(ファイルまたは URL 経由で)ドキュメントをアップロードし、そのまま質問応答を開始できます。

  • モデル非依存・インフラ柔軟
    特定のモデルやベンダーにロックインされることはありません。Agentset では、以下を自由に選択できます:

    • ベクターデータベース(例:Pinecone、Qdrant)
    • 埋め込み(Embedding)モデル
    • LLM(例:OpenAI、Anthropic Claude、Google AI、xAI Grok、Mistral、Qwen、DeepSeek など) この柔軟性により、コスト、レイテンシー、データレジデンシー、コンプライアンスの要件に合わせて最適化できます。
  • MCP Server 連携
    Model Context Protocol (MCP) Server を通じて、Agentset はあなたのナレッジベースを MCP 対応の外部アプリケーションに接続できます。これにより、他の環境にいる AI エージェントが、あなたのドキュメントを安全かつ効率的にクエリできるようになります。

  • AI SDK との統合
    Agentset は AI SDK エコシステムと統合できるため、RAG を活用したチャットや検索ウィジェットを自社アプリケーションやダッシュボード、顧客向けプロダクトに簡単に埋め込めます。

  • 外部プレビューリンクとチャットインターフェース
    カスタマイズ可能なチャット UI やプレビューリンクを使って、ステークホルダーやユーザーから素早くフィードバックを集められます。これにより、本番公開前にプロンプト、検索設定、回答フォーマットを高速に改善できます。

  • 実運用チームからの信頼
    Agentset は、ヘルスケア、公共セクター、フィンテックなどの高リスク領域のチームに利用されています。導入企業からは、信頼性向上、複雑な画像検索への対応、そして Algolia などの既存検索ソリューションを 1 時間未満の作業で置き換えられた点などが評価されています。

Agentset の使い方

Agentset の利用は、セットアップから本番デプロイまで、一貫したシンプルな開発者向けワークフローに従います。

  1. プロジェクトをセットアップし、API キーを取得

    • Agentset にサインアップして API キーを発行します。
    • アプリケーションに SDK をインストールします:
      • JavaScript/TypeScriptnpm install agentset
      • Pythonpip などで対応する Python パッケージをインストール。
  2. データ用のネームスペースを作成
    ネームスペースは、ドキュメント、テナント、環境(例:productionstaging、顧客別)などのコレクションを論理的に分離するために使用します。

    import { Agentset } from "agentset";
    
    const agentset = new Agentset({ apiKey: "agentset_xxx" });
    const namespace = agentset.namespace("ns_1234");
    
  3. ドキュメントをインジェスト
    ファイルを直接アップロードするか、URL 経由でアップロードします。後のフィルタリングに使えるメタデータを任意で付与できます。

    const ingestJob = await namespace.ingestion.create({
      payload: {
        type: "FILE",
        fileUrl: "https://example.com/document.pdf",
        fileName: "my-document.pdf"
      },
      config: {
        metadata: { foo: "bar" }
      }
    });
    
    • PDF、Office 文書、メール、画像、Markdown など、サポートされている形式を利用します。
    • メタデータ(例:顧客 ID、部門、アクセスレベル、タグなど)を付与して、後から検索対象の制御に利用します。
  4. 検索とモデルを設定(任意)

    • 利用したいベクターデータベース、埋め込みモデル、LLM を選択します。
    • 必要に応じてハイブリッド検索とリランキングを有効にします。
    • テナント分離やアクセス制御を実現するフィルタ条件を定義します。
  5. アプリにチャット/検索機能を埋め込む

    • AI SDK を使って、Agentset を呼び出すチャットや検索のエンドポイントを作成します。
    • Agentset にクエリを投げ、引用付きの回答を表示するチャットウィジェットや検索バー、サイドパネルなどの UI コンポーネントを実装します。
    • 必要に応じて MCP Server 連携を利用し、ナレッジベースを外部の AI ツールに公開します。
  6. テスト・プレビュー・反復改善

    • プレビューリンクをステークホルダーと共有し、回答品質を検証します。
    • 自社のテストセット(特にマルチホップや専門領域の質問)で性能を評価します。
    • フィードバックに基づき、検索パラメータ、フィルタ、プロンプトを調整します。
  7. 本番環境での監視とスケール

    • 利用が増えるにつれ、データベースやモデルなどインフラ構成を調整し、コストとレイテンシーのバランスを最適化します。
    • 新しいドキュメントを継続的にインジェストし、ナレッジベースを常に最新に保ちます。
    • メタデータとネームスペースを活用して、マルチテナントやマルチプロダクトのデプロイを管理します。

ユースケース

1. SaaS プラットフォーム向けプロダクト内 AI 検索・チャット

大規模なヘルプセンター、技術ドキュメント、顧客固有の設定情報を持つ SaaS プロダクトは、Agentset ベースの検索を組み込むことで、正確でコンテキストに沿った回答を提供できます。静的な FAQ ページや壊れやすいキーワード検索の代わりに、ユーザーは自然言語で質問でき、リリースノート、設定ガイド、サポートチケットなどから抽出された、引用付きで信頼できる回答を受け取れます。

2. 医療・ヘルスケア向け知識アシスタント

医療分野では、信頼性とトレーサビリティが極めて重要です。Agentset は、臨床医、研究者、医療オペレーションチーム向けの社内ツールの基盤として、ガイドライン、論文、内部プロトコルの検索を支援できます。自動引用と根拠に基づく回答により、ハルシネーションのリスクを抑えつつ、回答がエビデンスに裏打ちされていることを検証しやすくなります。

3. 公共セクター・自治体向け情報ポータル

自治体や政府機関と関わる組織は、膨大な量の条例、ポリシー、公開文書を管理しています。その多くには、画像・チャート・表などが含まれます。Agentset の多モーダル機能は、こうした複雑な画像・ドキュメント検索をサポートし、職員や市民が長大で異質な文書群の中から、必要な情報を素早く正確に見つけられるようにします。

4. 金融リサーチ、コンプライアンス、分析ツール

金融チームは、開示資料、社内レポート、市場データにまたがる複雑なマルチホップ質問に答える必要があります。FinanceBench のようなタスクでのベンチマーク性能を重視する Agentset は、調査アシスタント、コンプライアンスチェック、アナリストツールなどの基盤として適しており、高密度でテクニカルなドキュメントに対しても精緻な回答を提供できます。

5. 企業内ナレッジベースとインターナル Copilot

大企業では、Wiki、PDF、メールアーカイブ、イントラネット、ファイル共有など、知識が部門・システムごとに分断されがちです。Agentset を使えば、部門横断の検索を 1 つに統合できます。ハイブリッド検索、メタデータフィルタ、モデル非依存のインフラにより、IT 部門はデータの所在、利用モデル、アクセス制御を管理しつつ、従業員は社内ナレッジにアクセスできる単一の強力な AI アシスタントを利用できます。

FAQ

Agentset とは何ですか?

Agentset は、プロダクションレディな RAG アプリケーションを構築するためのオープンソース・プラットフォーム兼インフラレイヤーです。インジェスト、インデックス作成、検索、推論、回答生成といった機能を備えており、開発者は自前で RAG パイプライン全体を構築することなく、正確な AI チャットや検索機能を自社プロダクトに組み込むことができます。

Agentset は誰のためのものですか?

Agentset は、自社データを活用して信頼性の高い AI 機能(チャットボット、社内 Copilot、高度な検索など)を提供したい開発者やプロダクトチーム向けに設計されています。スタートアップから中堅企業、大企業まで、プロダクション品質の性能、多テナント対応、モデルとインフラ選択の柔軟性を求める組織に適しています。

大企業でも Agentset を利用できますか?

はい。Agentset は、現実世界の大規模ドキュメントセット、複雑なデータタイプ、高負荷の利用を想定して設計されています。メタデータフィルタ、ネームスペース、モデル非依存インフラへの対応により、厳格なデータ分離、コンプライアンス、既存スタックとの統合が求められるエンタープライズ環境にも適合します。

Agentset は LangChain や LlamaIndex のようなフレームワークですか?

Agentset は、単なるクライアントサイドのオーケストレーションフレームワークではありません。LangChain や LlamaIndex のようなフレームワークは、コード上で RAG ワークフローを組み立てるのに役立ちますが、Agentset はインジェスト・検索・推論を担うマネージドな本番対応バックエンドを提供します。必要であれば、Agentset とそれらのフレームワークを組み合わせて使うこともできますが、Agentset の目的は、自前で検索インフラを構築・運用する必要性をできる限り減らすことです。

Agentset は既存のスタックやインフラと連携できますか?

はい。Agentset はモデル非依存であり、一般的なベクターデータベースや LLM プロバイダ、埋め込みモデルをサポートします。ベクターストレージとして Pinecone や Qdrant を選び、OpenAI、Anthropic、Google AI、xAI Grok、Mistral、Qwen、DeepSeek などのモデルを使うことができます。JavaScript、TypeScript、Python SDK に加え、MCP Server や AI SDK 経由で統合できるため、既存サービスやフロントエンドに容易に組み込めます。

ゼロから RAG システムを構築する代わりに Agentset を使う理由は?

堅牢な RAG システムを一から構築するには、インジェストパイプラインの設計、多数のファイル形式の処理、検索のチューニング、ハイブリッド検索とリランキングの実装、引用管理、そして要件変更に合わせたインフラの運用などが必要になります。これは数か月単位のエンジニアリング工数と継続的な保守を要します。Agentset は、これらの機能をあらかじめ備えた形で提供することで、チームが低レベルな検索インフラではなく、プロダクト機能やユーザー体験に集中できるようにします。

Agentset は実際のドキュメントをどのように扱いますか?

Agentset は、現実世界の雑多なデータに最適化されています。PDF、Office 文書、メール、画像、HTML など 22 種類以上のファイル形式をサポートし、効果的な検索のために必要なパース、チャンク分割、インデックス作成を自動で行います。多モーダル対応により、画像・グラフ・表なども、検索や Q&A の際に適切に利用され、無視されてしまうことはありません。

要件が時間とともに変化した場合はどうなりますか?

プロダクトが進化していく中で、利用するベクターデータベースやモデル、検索戦略を変更しても、すべてを作り直す必要はありません。Agentset のモデル非依存アーキテクチャとリッチなメタデータフィルタリングにより、新たなコンプライアンス要件、リージョン、データタイプ、性能制約などに対応しつつ、開発者向けインターフェースは一貫したまま維持できます。

Alternatives

Agentset | UStack