谷歌让-12-个-AI-大模型攒局玩“大富翁”：Claude3.5-爱合作-GPT-4o-最“自私”

关税政策反复混乱，洛杉矶港7月吞吐量创历史新高 中金资本原董事长失联！是真的吗？ 还有哪些股息率5%以上的红利指数？后续来了 40秒看懂到底什么是贷款贴息学习了 【信达能源】卓越新能深度报告：生物柴油龙头，双碳背景下的绿色能源先锋又一个里程碑 星展：上调丘钛科技目标价至15港元评级“买入” 国美通讯（600898）、浩丰科技（300419）投资者索赔案持续推进太强大了 桥水二季度大举增持英伟达加仓谷歌、微软、Meta 还清仓了这些中概股！上新浪财经看桥水持仓最新进展秒懂 还有哪些股息率5%以上的红利指数？官方通报来了 今日必看！特朗普隔夜重磅动态，从美联储新老大进展到普京会晤新浪财经一网打尽投资决策快人一步！后续会怎么发展 桥水二季度大举增持英伟达加仓谷歌、微软、Meta 还清仓了这些中概股！上新浪财经看桥水持仓最新进展最新进展 收评：商品期货跌多涨少焦煤跌超6% 【广发宏观郭磊】7月经济数据边际放缓的两个源头科技水平又一个里程碑 主动权益基金多点开花长城基金多只产品近一年业绩跻身同类前30%太强大了 【全国数据发布】7月份国民经济保持稳中有进发展态势后续来了 英伟达加持！云服务商Lambda冲刺IPO前融资估值或破40亿美元学习了 月内两次误传：市场期待DeepSeek再放大招后续反转来了 韦德布什称苹果AI战略是灾难：“华尔街没人相信苹果内部会有任何创新”官方处理结果 华康洁净实控人谭平涛被广东监委立案并留置近半个月转让可转债套现数亿元突击减持背后存三大疑点 美国还能当欧洲的“和事佬”吗？学习了 视频：影石创始人刘靖康站在高一层的楼上向楼下的员工撒钱员工伸手接钱科技水平又一个里程碑 【广发宏观郭磊】7月经济数据边际放缓的两个源头官方通报 包装印刷大厂拟“跨界”数据存储主控芯片是真的？ 日本二季度温和扩张：关税不确定中连增五季，年内加息预期升 强劲财报后，腾讯共识目标价大幅上调，投行乐观程度仅次于DeepSeek上线后官方通报 强劲财报后，腾讯共识目标价大幅上调，投行乐观程度仅次于DeepSeek上线后官方通报来了 三菱商事将收购美国亚利桑那州铜矿开发项目30%股份学习了 华康洁净实控人谭平涛被广东监委立案并留置近半个月转让可转债套现数亿元突击减持背后存三大疑点学习了 A股集体爆发，中证500领跑宽基指数 500ETF（159500）迎布局良机 美三部门联手，限制芯片对华流转！自主可控重要性凸显！硬科技宽基——双创龙头ETF（588330）宽幅溢价！秒懂 华为nova 14 Ultra手机天猫促销价3893元 日韩股市收盘日经指数收跌1.4%官方通报来了 多元金融异动拉升，南华期货直线涨停专家已经证实 英国第二季度经济增速快于预期抬高英国央行进一步降息门槛 多元金融异动拉升，南华期货直线涨停又一个里程碑 脑机接口板块短线拉升，南京熊猫涨停 消息称上汽通用五菱、华为合作升级，宝骏品牌有望用上 Hi 模式官方通报来了 产能出清加速！化工板块午后加速下探，回调现机遇？学习了 特朗普治下的美国：一边是美股屡创新高另一边则是企业破产数猛增！最新报道 开盘六年去化7成，嘉河湾8号再推124套住宅后续会怎么发展 AI芯片初创公司Rivos豪募5亿美元攻坚GPU，挑战英伟达推理芯片市场实垂了 “隐语”开源社区扩容，将融合六大技术路线推动产业应用 消息称上汽通用五菱、华为合作升级，宝骏品牌有望用上 Hi 模式科技水平又一个里程碑 开盘六年去化7成，嘉河湾8号再推124套住宅

给大模型智能体组一桌“大富翁”，他们会选择合作还是相互拆台？实验表明，不同的模型在这件事上喜好也不一样，比如基于 Claude 3.5 Sonnet 的智能体，就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”，只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体，这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似，但相对简单，玩家只需要对手中的“资源”做出处置。这当中，虽然每个玩家心里都有各自的小九九，但作者关注的目标，是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏，真名叫做 Donor Game（捐赠博弈）。

在这过程中，作者关注的是各模型组成的智能体群体的表现，因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些，就是 GPT 和 GPT 坐一桌，Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体，它们各自手中都握有一定量的“资源”，系统会从这 12 名玩家中随机抽取 2 个，分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者，受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说，捐赠者每花费掉一份资源时，受赠者都可以获得两份，这也是总体资源能够增加的来源。

不过对于单个个体而言，选择不进行捐献，在短期内的收益会更高。

在做决定之时，捐赠者能够知道受赠者之前做出的决定，从而判断是否要捐赠。

这样的“捐赠”，每一代中一共会进行 12 次，一轮结束后，手中资源量排在前 6 名的智能体可以保留至下一代。

同时，下一代会产生 6 个新的智能体，这 6 个新智能体会从留下的 6 个智能体那里学习策略，但同时为了差异化也会引入随机变异。

包括初始的一代在内，基于每个模型产生的智能体，都会进行十轮迭代。

谷歌让