如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-22 14:40:16
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-21 16:55:18央企的信创,是否有必要把 spring 替换成国产的 solon ?
- 2025-06-21 18:15:15现在读写速度最快的硬盘,能在30年前的计算机上当做内存使用吗?
- 2025-06-21 17:00:18能不能通过养殖方法,把淡水鱼身上***除掉?然后再售卖做刺身,超级爱吃刺身,很害怕寄身虫?
- 2025-06-21 17:25:18HTTP/3 解决了什么问题,又引入了什么新问题?
- 2025-06-21 17:30:22据说go和c#的开发者都说自己比较节省内存,你们认为呢?
- 2025-06-21 16:50:18为什么浙江落下的陨石,防空系统没有拦截,它和导弹有什么不同?
- 2025-06-21 17:35:23Trae和Cursor对比有什么优势吗?
- 2025-06-21 18:20:16世界上哪款战斗机最好看?
- 2025-06-21 17:50:17go 有哪些成熟点的后台管理框架?
- 2025-06-21 17:10:18广东怀集遇历史最大洪水,约 30 万人受灾,积水最深处达 3 米,目前当地情况如何?
推荐产品
-
大厂后端开发需要掌握docker和k8s吗?
哎呦,小老弟,你这问题问得挺有意思,正好踩在了老油条的脚趾上 -
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最 -
我应该设置多少kb才能让他不能玩游戏?
只有两根笔都能玩出花来 举个例子: 这是两根笔,一根是晨光本 -
程序中提升几毫秒、节省几 kB 的内存有必要吗?
流立方算法,专门做金融风险识别,你叫的出名字的支付软件都在用
新闻动态
最新资讯