[AI 大模型] 大模型排行榜单推荐

很多小伙伴有这样的需求，我该如何判断一个大模型的好坏，如何找到最新最先进的大模型呢？基于此需求，给出的解决方案是，使用专业机构的大模型评分来判断。{alertInfo}

大模型排行榜单

Artificial Analysis 是一个功能全面、数据详实的AI模型评估平台，适合需要深入了解和比较不同AI模型性能的用户。无论是从性能、价格还是多模态能力方面，平台都提供了丰富的信息，助力用户做出更明智的选择。

平台对主流大语言模型（如 GPT-4 Turbo、Claude 3、Gemini 1.5、Mistral 等）进行横向比较，涵盖以下指标：

这些数据主要来源于开源基准测试或经过审查的社区测试，具有较高的参考价值。

Artificial Analysis 通过结合权威基准测试数据、用户交互反馈、性能成本指标和多模态能力，形成一套系统全面的评估体系，保障评估结果的科学性和实用性。特点是：基于能力的评分，而不是大模型的评分，大模型也有很多能力，比如：TTS、TTI、STT等。

Artificial Analysis

Open LLM Leaderboard 是 Hugging Face 发起的一个开源大语言模型（LLM）排行榜，用来比较不同开源模型在一组统一基准测试上的表现。它的目标是为研究者、开发者和用户提供一个公平、可重复、可验证的性能参考。

根据不同等级算力GPU级别给出榜单

各个方向的评估类别

评估指标	全称或含义	说明	应用方向或侧重点
Average	综合平均分	模型在所有测试任务上的平均表现得分，综合能力的总体衡量指标	用于快速评估模型整体性能
IFEval	Instruction-Following Eval	指令遵循能力评估，衡量模型理解和执行自然语言指令的准确性	关注模型是否能正确理解和执行指令
BBH	Big Bench Hard	BigBench（大型基准测试）中难度较高的任务表现	测试模型处理复杂、推理类问题的能力
Math	数学能力测试	测试模型在数学计算、推理和题解方面的能力	适合数学、科学等需要精确推理的场景
GPQA	General-Purpose Question Answering	通用问答任务表现，评估模型回答常识性和事实性问题的准确率	测试模型事实和知识的准确性
MUSR	Multi-Task Understanding and Reasoning	多任务理解与推理测试，衡量模型在多种类型任务中的理解和推理能力	测试多任务综合能力
MMLU-PRO	Massive Multitask Language Understanding (Professional)	MMLU专业版本，覆盖多个领域的专业知识测试	测试模型在专业学科领域的表现
CO2cost	推理碳排放成本	推理过程中的碳排放估计，反映模型运行时对环境的影响	关注绿色 AI，低碳环保模型的选择

LMArena由加州大学伯克利分校的研究人员创建，是一个开放平台，每个人都可以轻松访问、探索并与世界领先的 AI 模型互动。通过并排比较这些模型并投票选出最佳模型，社区帮助塑造了一个公共排行榜，使 AI 进展更加透明，并扎根于实际应用。

评估方式：通过用户匿名对比两个模型的回答，选择更优者，采用 Elo 等级分系统进行排名。

数据来源：截至目前，收集了超过 2.9 百万次用户投票，涵盖多种语言模型。

它的评估方式就是使用的用户匿名投票方式进行评估，更具实际用户体验进行评估方式。

同样的用户可以查看各个方面能力的排行，但是，他是通过匿名用户的投票决定。更加注重用户体验。可以说，科学性会变低，不具有重复性。对比HuggingFace 标榜的重复性，缺点和优点都很明显。无法重复的同时，更加贴近用户使用体验。

他的评估方式就很简单了，由于OpenRouter 提供统一API调用接口，他依据的是用户使用量，依旧是用户调用占比进行排名。其实不是大模型排名。但是，我们可以知道的是使用者众多，难道不是一个表明一个模型的好坏吗？

本文分析了，四种大模型榜单，重点是来自不同方向对比，是我们可以更好的了解大模型在各个方面排名。

版权声明：
感谢您的阅读，除非文中已经注明来源网站，否则均为理科生网原创内容，转载时请务必以超链接(而非纯文本链接)标注来源于理科生网及本文完整链接，感谢！{alertInfo}