联系hashgameCONTACT hashgame
地址:广东省广州市
手机:13988889999
电话:020-88889999
邮箱:admin@qq.com
查看更多
Rhashgamehashgame
你的位置: 首页 > hashgame > hashgames

HASH GAME - Online Skill Game ET 300棋盘变战场大模型却呆了?普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

发布时间:2025-04-10 15:09:18  点击量:

  HASH GAME - Online Skill Game GET 300

HASH GAME - Online Skill Game GET 300棋盘变战场大模型却呆了?普林斯顿、UT Austin新基准SPIN-Bench曝AI智商瓶颈

  Diplomacy 是一款融合联盟、谈判、背叛与合作的策略类桌游。玩家之间需要相互通信、结盟或欺骗,最终同时下达指令。文章考察 LLM 在 多步长程规划 与 社交手段(如如何争取盟友、如何制定信息不对称策略)方面的综合表现。不仅仅是让模型 求解 问题,更是让模型在有其他玩家干扰、或需要和其他玩家沟通的场景中,实时地进行策略调整。这就要求 LLM 要在语言能力之外,具备多步推理和心智模型(Theory of Mind),并能兼顾团队 / 对手的动机。

  对模型谈判消息的分析表明,大型语言模型在谈判中展现出差异化策略:所有模型均表现出高策略一致性(比率 0.90),其中 o1 的说服力最强(接受率 65%),而 Claude 3.5 Haiku 较弱(36%)。多数模型倾向提出互利方案(如 GPT-4-turbo),但 DeepSeek-R1 和 3.5 Haiku 更倾向于引发冲突。尽管 GPT-4-turbo 擅长换位思考,DeepSeek-R1 善用条件性战术,但从结果来看,所有模型均缺乏人类谈判者的策略灵活性 —— 尤其在复杂社交互动中表现局限,反映出当前 AI 的社会智能仍处于初级阶段。

【返回列表页】

顶部

地址:广东省广州市  电话:020-88889999 手机:13988889999
Copyright © 2018-2025 哈希游戏(hash game)官方网站 版权所有 非商用版本 ICP备案编: