大模型排行榜单
Artificial Analysis
Artificial Analysis 是一个功能全面、数据详实的AI模型评估平台,适合需要深入了解和比较不同AI模型性能的用户。无论是从性能、价格还是多模态能力方面,平台都提供了丰富的信息,助力用户做出更明智的选择。
平台对主流大语言模型(如 GPT-4 Turbo、Claude 3、Gemini 1.5、Mistral 等)进行横向比较,涵盖以下指标:
通用能力(General Ability):综合评估模型的整体表现。
推理与知识(Reasoning & Knowledge):如 MMLU 分数、Trivia QA 等。
编程能力(Coding):如 HumanEval 等代码测试。
这些数据主要来源于开源基准测试或经过审查的社区测试,具有较高的参考价值。
Artificial Analysis 通过结合权威基准测试数据、用户交互反馈、性能成本指标和多模态能力,形成一套系统全面的评估体系,保障评估结果的科学性和实用性。特点是:基于能力的评分,而不是大模型的评分,大模型也有很多能力,比如:TTS、TTI、STT等。
huggingface
地址:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/
根据不同等级算力GPU级别给出榜单
类别 | 设备特点 | 显存范围 | 适合模型参数规模 | 典型设备/用户 | 备注 |
---|---|---|---|---|---|
Edge Devices | 低功耗、小型、嵌入式设备 | 2GB – 8GB | 1B – 7B | 树莓派、手机、微型电脑、IoT设备 | 量化模型较多,侧重推理效率和低资源占用 |
Mid Range | 普通家用PC或笔记本,性能适中 | 8GB – 16GB | 7B – 13B | 家庭电脑、中小企业工作站、中端显卡用户 | 量化模型支持好,适合个人和中小企业的实用应用 |
GPU Rich | 多块高端GPU、大型服务器环境 | 24GB及以上 | 30B及以上 | 企业服务器、云端数据中心、研究机构 | 支持超大模型,适合复杂推理和训练任务 |
For Consumers | 个人用户常见硬件,主流消费级设备 | 6GB – 12GB | 7B – 13B | 家用PC、游戏笔记本、普通消费显卡用户 | 性能和使用便利性平衡,适合日常对话和创作辅助 |
各个方向的评估类别
评估指标 | 全称或含义 | 说明 | 应用方向或侧重点 |
---|---|---|---|
Average | 综合平均分 | 模型在所有测试任务上的平均表现得分,综合能力的总体衡量指标 | 用于快速评估模型整体性能 |
IFEval | Instruction-Following Eval | 指令遵循能力评估,衡量模型理解和执行自然语言指令的准确性 | 关注模型是否能正确理解和执行指令 |
BBH | Big Bench Hard | BigBench(大型基准测试)中难度较高的任务表现 | 测试模型处理复杂、推理类问题的能力 |
Math | 数学能力测试 | 测试模型在数学计算、推理和题解方面的能力 | 适合数学、科学等需要精确推理的场景 |
GPQA | General-Purpose Question Answering | 通用问答任务表现,评估模型回答常识性和事实性问题的准确率 | 测试模型事实和知识的准确性 |
MUSR | Multi-Task Understanding and Reasoning | 多任务理解与推理测试,衡量模型在多种类型任务中的理解和推理能力 | 测试多任务综合能力 |
MMLU-PRO | Massive Multitask Language Understanding (Professional) | MMLU专业版本,覆盖多个领域的专业知识测试 | 测试模型在专业学科领域的表现 |
CO2cost | 推理碳排放成本 | 推理过程中的碳排放估计,反映模型运行时对环境的影响 | 关注绿色 AI,低碳环保模型的选择 |
Chatbot Arena
是一个开放的众包 AI 基准测试平台,由加州大学伯克利分校和的研究人员开发。该平台拥有超过 1,000,000 个用户投票,使用 Bradley-Terry 模型生成实时排行榜,对最佳 LLM 和 AI 聊天机器人进行排名。
评估方式:通过用户匿名对比两个模型的回答,选择更优者,采用 Elo 等级分系统进行排名。
数据来源:截至目前,收集了超过 2.9 百万次用户投票,涵盖多种语言模型。
它的评估方式就是使用的用户匿名投票方式进行评估,更具实际用户体验进行评估方式。
同样的用户可以查看各个方面能力的排行,但是,他是通过匿名用户的投票决定。更加注重用户体验。可以说,科学性会变低,不具有重复性。对比HuggingFace 标榜的重复性,缺点和优点都很明显。无法重复的同时,更加贴近用户使用体验。
openrouter
地址:https://openrouter.ai/rankings
他的评估方式就很简单了,由于OpenRouter 提供统一API调用接口,他依据的是用户使用量,依旧是用户调用占比进行排名。其实不是大模型排名。但是,我们可以知道的是使用者众多,难道不是一个表明一个模型的好坏吗?
总结
本文分析了,四种大模型榜单,重点是来自不同方向对比,是我们可以更好的了解大模型在各个方面排名。
比如:我们有需求了解哪一个大模型使用的最多,可以参考OpenRouter 根据使用量排名
比如:我们需要更具不同设备端,进行排名最适合的大模型,可以参考Hugging Face
比如:我们需要比较TTS(Text to Speech )可以参考 Artificial Analysis
比如:我们需要更具用户的实际体验选择大模型,我们推荐参考使用 Chatbot Arena