ZoyaPatel

Kimi K2 thinking国产大模型的普通版本纯纯刷榜行为,被抓包了!

SohaniSharma

Kimi K2 thinking

由人工编写审核,非AI生成内容,请放心观看!

{getToc} $title={文章目录}

Kimi 在大火之后,不少用户提出了质疑,很多用户反馈kimi 似乎并不是宣传中的那么好?

问题出在哪来了呢?




问题分析

根据最新的X 平台上的用户反馈消息



Kimi 使用的是一种中国古老文化:田忌赛马的智慧。简单来说,一般发布大模型的厂商会发布好几个版本,各个版本会个各个厂商的对应版本进行对比。比如说:大模型对应大模型,小模型mini版本对比mini 版本,medium 对比 medium 版本。

Kimi k2 Thinking 就是采用另外一种对比方式,在跑分模式是,为了凸显效果,建立一种 heavy 模式,厂商通过同时跑 8 个后台模型,然后整合输出结果。

也就是:你是一个老师,而我是8个老师,一起做题。这样的就可以 实际跑出来的效果。关键问题在于:实际的榜单中效果和实际体验效果存在严重偏差

最终结论

用户如果不开通,所谓额外的付费的专属模式,用户无法感受到的具体的“高分水平”。

下面的结论,是没有数据依据的,纯属UP自己的感受。博主对于国产厂商存在刷榜行为见怪不怪 ,up 经历的国产厂商刷榜行为有:

  1. minimax 文字转语音,实际效果差的可怜
  2. deepseek v2 实际效果慢点出奇,无法具体的工程使用
最后补充下,v2 大佬的给出的建议


  • 作为终端用户,只能把榜单作为一个参考,而不能作为具体的使用体验。
  • 打榜推理的行为和实际的用户体验上,厂商会作为明确的区分。

最后:榜单和实际体验,差距真的很大


版权声明:感谢您的阅读,资源整理自网络,如果您发现任何侵权行为,请联系 理科生网 管理人员,管理员将及时删除侵权内容。否则均为 理科生网 原创内容,转载时请务必以超链接(而非纯文本链接)标注来源于理科生网及本文完整链接,感谢!{alertInfo}

Ahmedabad
Kolkata
Hyderabad
后一页 Bangalore 前一页

Random Manga

Ads

نموذج الاتصال