HASH GAME - Online Skill Game ET 300棋盘变战场大模型却呆了？普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈_HASH GAME

HASH GAME - Online Skill Game ET 300棋盘变战场大模型却呆了？普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

发布时间：2025-04-10 15:09:18　　点击量：

　　HASH GAME - Online Skill Game GET 300

HASH GAME - Online Skill Game GET 300棋盘变战场大模型却呆了？普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

　　Diplomacy 是一款融合联盟、谈判、背叛与合作的策略类桌游。玩家之间需要相互通信、结盟或欺骗，最终同时下达指令。文章考察 LLM 在多步长程规划与社交手段（如如何争取盟友、如何制定信息不对称策略）方面的综合表现。不仅仅是让模型求解问题，更是让模型在有其他玩家干扰、或需要和其他玩家沟通的场景中，实时地进行策略调整。这就要求 LLM 要在语言能力之外，具备多步推理和心智模型（Theory of Mind），并能兼顾团队 / 对手的动机。

　　对模型谈判消息的分析表明，大型语言模型在谈判中展现出差异化策略：所有模型均表现出高策略一致性（比率 0.90），其中 o1 的说服力最强（接受率 65%），而 Claude 3.5 Haiku 较弱（36%）。多数模型倾向提出互利方案（如 GPT-4-turbo），但 DeepSeek-R1 和 3.5 Haiku 更倾向于引发冲突。尽管 GPT-4-turbo 擅长换位思考，DeepSeek-R1 善用条件性战术，但从结果来看，所有模型均缺乏人类谈判者的策略灵活性 —— 尤其在复杂社交互动中表现局限，反映出当前 AI 的社会智能仍处于初级阶段。

【返回列表页】

顶部

网站首页关于hashgame 主营项目 hashgame 设备展示资质荣誉合作伙伴人才招聘在线留言联系hashgame

友情链接：优酷