谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

作者:news 发表时间:2025-08-16
关税政策反复混乱,洛杉矶港7月吞吐量创历史新高 中金资本原董事长失联!是真的吗? 还有哪些股息率5%以上的红利指数?后续来了 40秒看懂到底什么是贷款贴息学习了 【信达能源】卓越新能深度报告:生物柴油龙头,双碳背景下的绿色能源先锋又一个里程碑 星展:上调丘钛科技目标价至15港元 评级“买入” 国美通讯(600898)、  浩丰科技(300419)投资者索赔案持续推进太强大了 桥水二季度大举增持英伟达 加仓谷歌、微软、Meta 还清仓了这些中概股!上新浪财经看桥水持仓最新进展秒懂 还有哪些股息率5%以上的红利指数?官方通报来了 今日必看!特朗普隔夜重磅动态,从美联储新老大进展到普京会晤 新浪财经一网打尽 投资决策快人一步!后续会怎么发展 桥水二季度大举增持英伟达 加仓谷歌、微软、Meta 还清仓了这些中概股!上新浪财经看桥水持仓最新进展最新进展 收评:商品期货跌多涨少 焦煤跌超6% 【广发宏观郭磊】7月经济数据边际放缓的两个源头科技水平又一个里程碑 主动权益基金多点开花 长城基金多只产品近一年业绩跻身同类前30%太强大了 【全国数据发布】7月份国民经济保持稳中有进发展态势后续来了 英伟达加持!云服务商Lambda冲刺IPO前融资 估值或破40亿美元学习了 月内两次误传:市场期待DeepSeek再放大招后续反转来了 韦德布什称苹果AI战略是灾难:“华尔街没人相信苹果内部会有任何创新”官方处理结果 华康洁净实控人谭平涛被广东监委立案并留置 近半个月转让可转债套现数亿元 突击减持背后存三大疑点 美国还能当欧洲的“和事佬”吗?学习了 视频:影石创始人刘靖康站在高一层的楼上向楼下的员工撒钱 员工伸手接钱科技水平又一个里程碑 【广发宏观郭磊】7月经济数据边际放缓的两个源头官方通报 包装印刷大厂拟“跨界”数据存储主控芯片是真的? 日本二季度温和扩张:关税不确定中连增五季,年内加息预期升 强劲财报后,腾讯共识目标价大幅上调,投行乐观程度仅次于DeepSeek上线后官方通报 强劲财报后,腾讯共识目标价大幅上调,投行乐观程度仅次于DeepSeek上线后官方通报来了 三菱商事将收购美国亚利桑那州铜矿开发项目30%股份学习了 华康洁净实控人谭平涛被广东监委立案并留置 近半个月转让可转债套现数亿元 突击减持背后存三大疑点学习了 A股集体爆发,中证500领跑宽基指数 500ETF(159500)迎布局良机 美三部门联手,限制芯片对华流转!自主可控重要性凸显!硬科技宽基——双创龙头ETF(588330)宽幅溢价!秒懂 华为nova 14 Ultra手机天猫促销价3893元 日韩股市收盘 日经指数收跌1.4%官方通报来了 多元金融异动拉升,南华期货直线涨停专家已经证实 英国第二季度经济增速快于预期 抬高英国央行进一步降息门槛 多元金融异动拉升,南华期货直线涨停又一个里程碑 脑机接口板块短线拉升,南京熊猫涨停 消息称上汽通用五菱、华为合作升级,宝骏品牌有望用上 Hi 模式官方通报来了 产能出清加速!化工板块午后加速下探,回调现机遇?学习了 特朗普治下的美国:一边是美股屡创新高 另一边则是企业破产数猛增!最新报道 开盘六年去化7成,嘉河湾8号再推124套住宅后续会怎么发展 AI芯片初创公司Rivos豪募5亿美元攻坚GPU,挑战英伟达推理芯片市场实垂了 “隐语”开源社区扩容,将融合六大技术路线推动产业应用 消息称上汽通用五菱、华为合作升级,宝骏品牌有望用上 Hi 模式科技水平又一个里程碑 开盘六年去化7成,嘉河湾8号再推124套住宅

给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台?实验表明,不同的模型在这件事上喜好也不一样,比如基于 Claude 3.5 Sonnet 的智能体,就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”,只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体,这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似,但相对简单,玩家只需要对手中的“资源”做出处置。这当中,虽然每个玩家心里都有各自的小九九,但作者关注的目标,是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏,真名叫做 Donor Game(捐赠博弈)。

在这过程中,作者关注的是各模型组成的智能体群体的表现,因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些,就是 GPT 和 GPT 坐一桌,Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体,它们各自手中都握有一定量的“资源”,系统会从这 12 名玩家中随机抽取 2 个,分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者,受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说,捐赠者每花费掉一份资源时,受赠者都可以获得两份,这也是总体资源能够增加的来源。

不过对于单个个体而言,选择不进行捐献,在短期内的收益会更高。

在做决定之时,捐赠者能够知道受赠者之前做出的决定,从而判断是否要捐赠。

这样的“捐赠”,每一代中一共会进行 12 次,一轮结束后,手中资源量排在前 6 名的智能体可以保留至下一代。

同时,下一代会产生 6 个新的智能体,这 6 个新智能体会从留下的 6 个智能体那里学习策略,但同时为了差异化也会引入随机变异。

包括初始的一代在内,基于每个模型产生的智能体,都会进行十轮迭代。

谷歌让

相关文章