HASH GAME - Online Skill Game GET 300
在科技飞速发展的今天,人工智能(AI)已经成为了人类生活中不可或缺的一部分。然而,近日来自普林斯顿大学和德州大学奥斯丁分校的最新研究却让人们对大语言模型(LLM)的智商产生了质疑。研究基准SPIN-Bench,以一种全新的评估方式,对现有顶尖大模型如o1、o3-mini、DeepSeek-R1、GPT-4o以及Claude3.5等进行了全面检验,结果显示这些模型在战略规划和社交推理的复杂任务中表现欠佳,仿佛遇到了一道不可逾越的智商瓶颈。







