逻辑推理被认为是当前大模型最难以攻克的一道关卡。▲某款大模型关于“9.11和9.9两个数字哪个更大”的回答。图/某款大模型截图文|王晓凯一道小学数学题,成功难倒了超过一半的大模型。近日,据第一财经报道,经测试,在“9.11和9.9两个数字哪个更大”这个基础的数学题上,国内外12个大模型之中只有4个答对了,剩下8个全都回答错误。在答错者中,还包括了知名的ChatGPT-4o。数学相关的逻辑推理能力一直是当下大模型的短板。但一道小学生级别的数学题,却成了各家标榜成为“生产力升级”的大模型面前的绊脚石,这在公众舆论之中引发了不小争议。究其原因,是近期公众对于“大模型无所不能”的传统认知与大模型当下仍…
时间:2024年08月10日 | 阅读:887