由人工编写审核,非AI生成内容,请放心观看!
{getToc} $title={文章目录}
Kimi 在大火之后,不少用户提出了质疑,很多用户反馈kimi 似乎并不是宣传中的那么好?
问题出在哪来了呢?
问题分析
根据最新的X 平台上的用户反馈消息
Kimi 使用的是一种中国古老文化:田忌赛马的智慧。简单来说,一般发布大模型的厂商会发布好几个版本,各个版本会个各个厂商的对应版本进行对比。比如说:大模型对应大模型,小模型mini版本对比mini 版本,medium 对比 medium 版本。
Kimi k2 Thinking 就是采用另外一种对比方式,在跑分模式是,为了凸显效果,建立一种 heavy 模式,厂商通过同时跑 8 个后台模型,然后整合输出结果。
也就是:你是一个老师,而我是8个老师,一起做题。这样的就可以 实际跑出来的效果。关键问题在于:实际的榜单中效果和实际体验效果存在严重偏差
最终结论
用户如果不开通,所谓额外的付费的专属模式,用户无法感受到的具体的“高分水平”。
下面的结论,是没有数据依据的,纯属UP自己的感受。博主对于国产厂商存在刷榜行为见怪不怪 ,up 经历的国产厂商刷榜行为有:
- minimax 文字转语音,实际效果差的可怜
- deepseek v2 实际效果慢点出奇,无法具体的工程使用
最后补充下,v2 大佬的给出的建议
- 作为终端用户,只能把榜单作为一个参考,而不能作为具体的使用体验。
- 打榜推理的行为和实际的用户体验上,厂商会作为明确的区分。
最后:榜单和实际体验,差距真的很大
版权声明:感谢您的阅读,资源整理自网络,如果您发现任何侵权行为,请联系 理科生网 管理人员,管理员将及时删除侵权内容。否则均为 理科生网 原创内容,转载时请务必以超链接(而非纯文本链接)标注来源于理科生网及本文完整链接,感谢!{alertInfo}Ahmedabad
