大模型排行榜单参考推荐

大模型排行榜单参考推荐
很多小伙伴有这样的需求,我该如何判断一个大模型的好坏,如何找到最新最先进的大模型呢?基于此需求,给出的解决方案是,使用专业机构的大模型评分来判断。

大模型排行榜单

Artificial Analysis

Artificial Analysis 是一个功能全面、数据详实的AI模型评估平台,适合需要深入了解和比较不同AI模型性能的用户。无论是从性能、价格还是多模态能力方面,平台都提供了丰富的信息,助力用户做出更明智的选择。

平台对主流大语言模型(如 GPT-4 Turbo、Claude 3、Gemini 1.5、Mistral 等)进行横向比较,涵盖以下指标:

  • 通用能力(General Ability):综合评估模型的整体表现。

  • 推理与知识(Reasoning & Knowledge):如 MMLU 分数、Trivia QA 等。

  • 编程能力(Coding):如 HumanEval 等代码测试。

这些数据主要来源于开源基准测试或经过审查的社区测试,具有较高的参考价值。

Artificial Analysis 通过结合权威基准测试数据、用户交互反馈、性能成本指标和多模态能力,形成一套系统全面的评估体系,保障评估结果的科学性和实用性。特点是:基于能力的评分,而不是大模型的评分,大模型也有很多能力,比如:TTS、TTI、STT等。

大模型排行榜

大模型排行榜

huggingface

地址:https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard#/

根据不同等级算力GPU级别给出榜单

类别设备特点显存范围适合模型参数规模典型设备/用户备注
Edge Devices低功耗、小型、嵌入式设备2GB – 8GB1B – 7B树莓派、手机、微型电脑、IoT设备量化模型较多,侧重推理效率和低资源占用
Mid Range普通家用PC或笔记本,性能适中8GB – 16GB7B – 13B家庭电脑、中小企业工作站、中端显卡用户量化模型支持好,适合个人和中小企业的实用应用
GPU Rich多块高端GPU、大型服务器环境24GB及以上30B及以上企业服务器、云端数据中心、研究机构支持超大模型,适合复杂推理和训练任务
For Consumers个人用户常见硬件,主流消费级设备6GB – 12GB7B – 13B家用PC、游戏笔记本、普通消费显卡用户性能和使用便利性平衡,适合日常对话和创作辅助

各个方向的评估类别

评估指标全称或含义说明应用方向或侧重点
Average综合平均分模型在所有测试任务上的平均表现得分,综合能力的总体衡量指标用于快速评估模型整体性能
IFEvalInstruction-Following Eval指令遵循能力评估,衡量模型理解和执行自然语言指令的准确性关注模型是否能正确理解和执行指令
BBHBig Bench HardBigBench(大型基准测试)中难度较高的任务表现测试模型处理复杂、推理类问题的能力
Math数学能力测试测试模型在数学计算、推理和题解方面的能力适合数学、科学等需要精确推理的场景
GPQAGeneral-Purpose Question Answering通用问答任务表现,评估模型回答常识性和事实性问题的准确率测试模型事实和知识的准确性
MUSRMulti-Task Understanding and Reasoning多任务理解与推理测试,衡量模型在多种类型任务中的理解和推理能力测试多任务综合能力
MMLU-PROMassive Multitask Language Understanding (Professional)MMLU专业版本,覆盖多个领域的专业知识测试测试模型在专业学科领域的表现
CO2cost推理碳排放成本推理过程中的碳排放估计,反映模型运行时对环境的影响关注绿色 AI,低碳环保模型的选择

大模型排行榜

Chatbot Arena

是一个开放的众包 AI 基准测试平台,由加州大学伯克利分校SkyLabLMArena的研究人员开发。该平台拥有超过 1,000,000 个用户投票,使用 Bradley-Terry 模型生成实时排行榜,对最佳 LLM 和 AI 聊天机器人进行排名。

评估方式:通过用户匿名对比两个模型的回答,选择更优者,采用 Elo 等级分系统进行排名。

数据来源:截至目前,收集了超过 2.9 百万次用户投票,涵盖多种语言模型。

它的评估方式就是使用的用户匿名投票方式进行评估,更具实际用户体验进行评估方式。

大模型排行榜

同样的用户可以查看各个方面能力的排行,但是,他是通过匿名用户的投票决定。更加注重用户体验。可以说,科学性会变低,不具有重复性。对比HuggingFace 标榜的重复性,缺点和优点都很明显。无法重复的同时,更加贴近用户使用体验。

openrouter

地址:https://openrouter.ai/rankings

他的评估方式就很简单了,由于OpenRouter 提供统一API调用接口,他依据的是用户使用量,依旧是用户调用占比进行排名。其实不是大模型排名。但是,我们可以知道的是使用者众多,难道不是一个表明一个模型的好坏吗?

大模型排行榜

总结

本文分析了,四种大模型榜单,重点是来自不同方向对比,是我们可以更好的了解大模型在各个方面排名。

  • 比如:我们有需求了解哪一个大模型使用的最多,可以参考OpenRouter 根据使用量排名

  • 比如:我们需要更具不同设备端,进行排名最适合的大模型,可以参考Hugging Face

  • 比如:我们需要比较TTS(Text to Speech )可以参考 Artificial Analysis

  • 比如:我们需要更具用户的实际体验选择大模型,我们推荐参考使用 Chatbot Arena

发表评论

后一页 前一页