亚搏体育官方网站 - YABO-亚博app 春节6天,我找到了各个范围最强的大模子。

亚博app 春节6天,我找到了各个范围最强的大模子。

发布日期:2026-02-24 11:59  点击次数:81

亚博app 春节6天,我找到了各个范围最强的大模子。

数字人命卡兹克

这个春节,快情景乐的在故乡vibe coding了近6天。

我作念了一个还蛮意思意思的东西,便是一个18个大维度、近100个小维度,一共970谈题的原创大模子评测集。

作念这个东西的思法其实很是浅显,便是我但愿任何一个新模子一出来,就能用这套评测集径直过全自动过一遍,再配合我我方的实测,梗概就能在3个小时里,就对新模子的才调比拟了了了,以便捷我更好更快的对模子进行评测,同期也能避让一些刷分怪。

东谈主啊,便是不知者丧胆,思的很浅显,可是没思到作念起来,有这样的结巴,4天着实用光了我御三家大模子最高等Coding plan的额度,也真实踩了无边的坑。

比如Skill迭代,一启动我作念了出题和审查skill之后,我发现,模子出的如故一坨屎,因为缺了太多的训戒和拘谨条款。是以没主见,只可各个顶级模子相互出题再相互审查,亚搏app官方网站然后再把训戒迭代回skills,就这样迭代了2天,这个skills才算清醒可用。

伸开剩余65%

就比如凹凸文处罚,这1000谈题的信息量过于恐怖,莫得一个Agent能径直生成出来,更别提好多原创素材,我致使写了3本15万字的演义看成评测集的素材之一。像Claude Code,一次性生成一个小类的10谈题,就也曾是最好凹凸文的极限了。

不外这些坑归坑,可是也偶然的帮我找到了各个维度里现在体感最强的模子。

毕竟出题模子的才调上限,着实也影响出题的质料和将来评测的质料,毕竟出题的拉了,那将来评测必拉。

是以,也给大师共享一下,不保证对,仅仅我我方的体感:

1. 软件工程与代码生成:GPT-5.3 codex

2. 代码和洽、推理与质料:GPT-5.3 codex

{jz:field.toptypename/}

3. 调试、测试与爱戴:GPT-5.3 codex

4. 数据工程与后端劳动:Claude Opus 4.6

5. 前端与居品工程:Claude Opus 4.6

6. Agent用具调用:Claude Opus 4.6

7. Web与桌面自动化(静态) :Claude Opus 4.6

8. 商榷与常识责任Agent(静态):GPT-5.2 Pro

9. 数学与步地推理:Gemini 3.1 Pro

10. 逻辑与权谋:Gemini 3.1 Pro

11. 常识广度与事实核验:Gemini DeepThink

12. 阅读和洽与信息抽取:GPT-5.2 Thinking

13. 长凹凸文顾忌与多轮一致性:GPT-5.2 Thinking

{jz:field.toptypename/}

14. 辅导顺从与对王人:Claude Opus 4.6

15. 多模态和洽与视觉推理:GPT-5.2 Thinking

16. 情商与互助相易:GPT-4.5

17. 创作抒发与审好意思:Claude Opus 4.6

以上,但愿能帮大师勤俭少量技术。

哦对了,再特殊提一句,在搜索上如若你思搜对于AI的最新的信息,比如OpanClaw的最新玩法之类的。

服气我,用Grok 4.2,有奇效。

发布于:北京市

推荐资讯
热点资讯
  • 友情链接:

Copyright © 1998-2026 亚搏体育官方网站 - YABO™版权所有

nanodwr.com 备案号 备案号: 

技术支持:®亚搏体育  RSS地图 HTML地图