当前位置: 首页 >
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 人气:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-27Chrome 浏览器设计的神细节有哪些?
- 2025-06-27搞了NAS之后去哪里下载4K,8K的电影?
- 2025-06-27为什么还有人用VIM?
- 2025-06-27如何看待“计算机民科“的网站51soez已关站维护一周?
- 2025-06-27为什么微信不向telegram学习?
- 2025-06-27为什么 Bun 选择了 Zig 以及 JSCore?
- 2025-06-27前端移动端开发***需要那些技术?
- 2025-06-27你身边身材最好的女生是什么样?
- 2025-06-2727寸显示器有必要上4K吗?
- 2025-06-27为什么没有10块钱以内的开发板?
- 2025-06-27如何评价小岛秀夫的游戏新作《死亡搁浅2:冥滩之上》?
- 2025-06-272025 年 6 月,Rust 在 GUI 方面有何大的进展? 你最看好哪个框架?
- 2025-06-27LCD党真的只是少部分人吗?
- 2025-06-27postgresql也很强大,为何在中国大陆,mysql成为主流,postgresql屈居二线呢?
- 2025-06-27程序员需要用到内置kvm功能的显示器吗?或者是外置的kvm切换器吗?
- 2025-06-27紧身牛仔裤看起来不正经,真的是这样吗?
推荐产品
-
当我们变老之后,会像现在的老人一样,几乎完全不懂“手机电脑”这类新出现的电子产品吗?
用不着变老,因为年轻人都已经不会用电脑了 知乎也有个赛博 -
为什么Rust的包管理器Cargo这么好用?
好用,指 request 被一个死了九年的包占用。 新来的 -
为什么hdmi2.1带宽优于dp1.4,还是会推荐dp?
“用DP“的建议是对的,但给出理由不对。 客服说: 错误 -
搞了NAS之后去哪里下载4K,8K的电影?
回答里一大半是广告。 qBittorrent,加BT***
最新资讯