如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-22 15:10:15
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-20 15:40:17我国004号航母什么时候下水?
- 2025-06-20 16:15:18女生真正的完美身材是什么样子?
- 2025-06-20 15:40:17中国承诺不开第一枪,那如果中美开战,美国直接摧毁北斗卫星,中国该如何反败为胜?
- 2025-06-20 15:30:18黄金,今年会达到怎样的高度?
- 2025-06-20 16:30:18孩子得了普通感冒,该带孩子上医院还是自己去药店购药?
- 2025-06-20 17:15:19我听说Windows12微软就直接重头构建Windows了,就直接重构Win内核了,到底是不是真的?
- 2025-06-20 15:55:18为什么bilibili后端要用go来写?
- 2025-06-20 15:50:17怎么国内车企都要去跑纽北呢,纽北也就是个普通赛道?
- 2025-06-20 15:40:17请问买个nas,能够直接把游戏装进去吗?
- 2025-06-20 17:15:19我国的军工能力可以实现一天5000枚火箭弹连着炸三个月吗?
推荐产品
-
评价一下Proxmox VE与ESXi的优劣?
公司内外都搭建过PVE集群,最早的快十年了。 目前来说,P -
为什么不用rust重写Nginx?
cloudflare 已经重写了,他们认为 NGINX 有一 -
如果在野外发现了一只大熊猫,很脏,领回家给他洗个澡,再养几天,犯法吗?
熊猫不是猫。 它是熊! 蚩尤的坐骑。 虽然我很好奇它 -
穿内衣时,总往上跑,内衣是大了还是小了?
内衣往上跑,简直是日常生活中的“未解之谜”之一。 每次一抬手
最新资讯