Arena

Arena 是一個公開的 AI 模型比較與排名平台，可與前沿模型聊天、投票評選輸出，並瀏覽涵蓋文字、圖片、程式碼、影片與代理任務的排行榜。

Arena 的功能

Arena 是一個公開的 AI 排名與比較平台，讓使用者與前沿模型聊天、比較其輸出，並對結果投票。它將自己定位為一個由社群驅動的 LLM，以及圖片、程式碼、影片與代理模型排行榜。

此產品圍繞各種 Arena 專屬排行榜視圖而設計，包括一般排行榜與具備任務導向信號和方法連結的 Agent Arena 頁面。搜尋頁也顯示使用者可以回看聊天與封存工作階段，而網站的公告則明確指出，提示詞與部分個人資訊可能會與供應商共享，且可能公開可見。

核心功能

對戰式模型比較

使用者可以透過對戰式格式與模型聊天，並在投票前並排比較回覆結果。

多 Arena 排行榜

專屬頁面提供多個 Arena 的排名，包括文字、網頁開發、視覺、文件、搜尋、圖片、影片與代理任務。

模型分數表

排行榜頁會顯示有順序的模型清單，以及分數與不確定區間，方便檢視各 Arena 之間的比較結果。

代理專屬評估信號

Agent Arena 頁面將表現拆分為多項信號，例如任務完成度、工具可靠性、可引導性、bash 恢復與工具幻覺。

聊天紀錄搜尋

聊天紀錄搜尋頁可讓使用者查找先前對話與已封存項目，涵蓋對戰、程式碼、圖片與影片等分類。

排名探索

網站包含方法說明與排行榜導覽，讓使用者可檢視結果呈現方式，並在不同 Arena 視圖之間切換。

公開評測流程

輸入會由第三方 AI 供應商處理，網站也警告對話可能會作為社群流程的一部分公開揭露。

常見使用情境

並排模型評估
並排比較前沿模型的回覆，並投票選出在特定提示詞下較好的輸出。
追蹤模型排名
在需要快速了解模型於特定任務類別中的表現時，查看排行榜快照。
評估代理行為
當你重視代理工作流程中的工具使用、完成度、可引導性或失敗恢復時，檢視 Agent Arena。
回顧過往工作階段
搜尋過去的聊天與已封存工作階段，以回顧先前實驗或檢查早期比較結果。
模型選擇研究
在選擇要嘗試用於文字、程式碼、圖片或影片工作的模型時，將公開排行榜作為社群參考點。

Pros and Cons

Pros

提供多個排行榜視圖，而非單一模型清單，涵蓋文字、網頁、視覺、圖片、影片與代理任務。
排行榜頁提供具體排名資料，包括模型順序、分數值與不確定區間。
提供具有工具使用與任務執行獨立信號的 Agent Arena 視圖，適合工作流程較複雜的評估。
使用者可透過即時聊天與投票互動來比較模型，而不只依賴靜態基準頁面。
提供可瀏覽先前聊天與封存項目的搜尋頁。

Cons

提供的證據中的價格網址回傳 404，因此無法從來源集確認定價與方案結構。
公開評測流程包含明確警告，指出對話與某些個人資訊可能會公開揭露，這會限制其對敏感用途的適用性。

FAQ

Arena 是什麼？

Arena 是一個公開的排行榜與比較平台，讓使用者與 AI 模型聊天、比較其回覆、投票，並瀏覽涵蓋文字、圖片、程式碼、影片與代理任務的排名。

Arena 如何運作？

此網站提供類似對戰的聊天與比較流程，以及專屬的排行榜頁面。使用者也可以搜尋聊天紀錄，並依 Arena 或任務類型探索模型排名。

Arena 提供哪些類型的排名？

Arena 提供多個排行榜，包括一般模型排行榜與用於代理任務的 Agent Arena 排行榜。排名頁會顯示模型順序、分數與各項信號指標，Agent 頁面也附有方法說明連結。

Arena 適合私密或敏感的提示詞嗎？

目前可見頁面強調社群評測與對話公開分享。首頁警告輸入會由第三方 AI 處理，且對話與某些個人資訊可能會公開揭露，因此不建議提交敏感資訊。

Arena 有公開的定價嗎？

根據目前提供的證據，價格頁網址目前回傳 404，因此無法確認其定價模式。

Quick Facts

類別: AI 模型排行榜
主要用途: 比較、排名並對 AI 模型輸出投票
支援的 Arena: 文字、網頁開發、視覺、文件、搜尋、圖片、影片與代理任務
代表性頁面: Agent Arena
網站: arena.ai
定價: 尚未確認；提供的證據中價格網址回傳 404

Arena 替代品

AakarDev AI

AakarDev AI 讓團隊透過單一儀表板管理 AI 供應商權限、專案設定、日誌與分析，支援 BYOK 工作流程，並可連接 OpenAI、Google Gemini、Anthropic、Groq、Mistral AI、Perplexity AI。

BookAI.chat

BookAI允許您透過簡單提供書名和作者與您的書籍進行AI聊天。

Skills Janitor

Skills Janitor 是一套託管於 GitHub 的斜線指令，用於稽核、追蹤與管理 Claude Code 和 OpenAI Codex skills；可找出重複項、失效連結與未使用 skills，並以獨立指令清理整理。

FeelFish

FeelFish 是一款支援 AI 輔助小說寫作的 PC 用戶端，協助小說創作者規劃角色與場景、撰寫與修訂長篇內容，並管理故事脈絡。提供免費方案與付費方案，支援多家大型模型供應商。

Benchspan

Benchspan 是一個 AI agent 安全平台，可即時發現 agents、阻擋 prompt injection 與資料外洩，並支援上線前紅隊測試，適合在 production 環境運行 agents 的團隊，並提供 Python 與 TypeScript SDKs。

ChatBA

ChatBA 是一款生成式 AI 工具，可依提示詞快速建立簡報投影片；亦提供範本、分享與資料來源等說明內容，適合快速產出提案草稿。