Arena

Arena 支持多模型并排聊天与对比回复，结合众包基准与排行榜，帮助你更易评估不同AI模型表现。

大语言模型

Arena

Arena 是什么？

Arena 是一个基于网页的服务，支持多模型并排聊天并对比回复。该产品的目的是通过直接的“对战”式比较和社区驱动的基准测试，让模型输出更容易评估。

网站还强调，模型输入和输出可能涉及第三方 AI 提供商。它警告回复可能不准确，且对话及某些个人信息可能被披露给相关 AI 提供商，并可能以其他方式公开，以支持社区并推进 AI 研究。

主要功能

并排模型对话（“Battle Mode”）：对比不同 AI 模型对同一提示的回复，以评估措辞、推理风格和实用性的差异。
聚焦聊天输出的模型对比：产品设计围绕自然语言回复评估，而非仅依赖离线指标。
众包基准与排行榜：利用社区基准生成排行榜，对比顶级 LLM。
文件上传支持：提供“Add files”选项，表示提示可通过用户提供的文件增强处理。
透明分享与准确性说明：明确说明回复可能不准确，且某些对话内容可能披露给 AI 提供商，并可能公开以支持社区活动。

如何使用 Arena

打开 Arena，选择 Battle Mode 以在一视图中对比多个模型。
输入提示，供您要对比的模型使用。
如需，点击 Add files 以在提示旁添加额外输入。
查看并排输出，并基于回复质量进行对比。
使用 Arena 时，请遵循网站指引：避免提交个人信息或其他不希望公开的敏感信息。

使用场景

提示调试与模型选择：跨模型测试同一提示，决定哪款模型能持续输出最适合您需求的回复。
学习模型行为差异：通过并排输出观察风格、完整性和解释的差异。
特定任务回复评估：对比模型在措辞和内容覆盖重要的任务表现，如解释、重写或结构化回答。
文件辅助问答或分析：使用 Add files 上传支持材料，对比模型如何利用提供内容回答。
社区基准查看：通过排行榜查看众包对比中排名更高的模型，然后运行自己的提示测试验证。

常见问题

分享个人信息或敏感信息安全吗？ 不安全。网站声明，用户不应提交个人信息或其他不希望公开的敏感信息。
谁处理输入并生成输出？ Arena 说明，输入由第三方 AI 处理，且回复可能不准确。
模型对话是私密的吗？ 网站指出，对话及某些个人信息将被披露给相关 AI 提供商，并可能以其他方式公开，以支持社区并推进 AI 研究。
“Battle Mode” 是什么意思？ 指使用同一对话/提示并排对比多个 AI 模型，以便直接比较回复。
可以为提示添加文件吗？ 可以。页面包含 Add files 选项，表明可将文件输入纳入交互。

替代方案

单模型聊天应用（如专用 ChatGPT 式界面）：一次提供一个模型；对比需手动跨工具测试，而非并排对战。
聚焦基准（非聊天）的模型对比平台：强调已发布评估和排名；可能不提供您自己提示的实时并排聊天输出。
LLM 游乐场或多模型网关：允许从一个界面选择多个提供商，但可能不包含众包排行榜或对战式呈现。
开发者评估框架：针对运行自动化测试的团队，聚焦结构化指标和可重复评估；不同于 Arena 的对话式并排对比流程。

替代品

AakarDev AI

AakarDev AI 是一个强大的平台，通过无缝的向量数据库集成简化 AI 应用程序的开发，实现快速部署和可扩展性。

BookAI.chat

BookAI允许您通过简单提供书名和作者与您的书籍进行AI聊天。

skills-janitor

skills-janitor 插件用于审计和跟踪 Claude Code 技能使用情况，并与九个聚焦的斜杠命令进行对比，零依赖。

FeelFish

FeelFish AI 小说写作助手PC客户端，支持人物与设定规划、章节生成与编辑，并凭上下文一致性续写剧情。

BenchSpan

BenchSpan 支持 AI agent 基准并行运行，自动记录得分与失败并整理运行历史；按提交标签复现，减少失败重跑浪费的 token。

ChatBA

ChatBA 是用于生成幻灯片的生成式 AI，可用聊天式流程快速根据你的输入创建演示内容与幻灯片。