谷歌让-12-个-AI-大模型攒局玩“大富翁”：Claude3.5-爱合作-GPT-4o-最“自私”

【财经】麦加芯彩：光伏涂料项目即将投产，将用于海上光伏 挪威央行维持关键利率不变重申年内将进一步放松政策官方通报 National Grid 出售英国最大 LNG 接收站，Centrica 财团约 20 亿美元接手最新进展 首航新能：公司及控股子公司不存在逾期担保后续来了 美国上周首次申领失业救济人数减少3000人至22.4万人 莱斯信息：选举周菲为董事长 盈新发展：聘任边冬瑞为公司董事会秘书 航天环宇：聘任副总经理官方通报来了 美财长贝森特否认推动降息指模型显示需下调150基点才达中性利率官方通报 National Grid 出售英国最大 LNG 接收站，Centrica 财团约 20 亿美元接手 凯立新材：选举曾永康先生为公司董事长是真的？ 德邦股份上半年营收增长超11% 技术降本与服务升级双轮驱动行业突围记者时时跟进 美国生产者价格创三年来最大增幅利润率飙升暗示企业未吸收关税成本 学习了 AI芯片初创公司Rivos豪募5亿美元攻坚GPU，挑战英伟达推理芯片市场 “隐语”开源社区扩容，将融合六大技术路线推动产业应用官方通报 远东股份：部分人形机器人产品取得成果后续反转来了 神州信息：新一代国产化银行核心系统在多家银行上线官方通报来了 恒大梦断港交所，十六年风雨迎来退市终章 云赛智联旗下南洋万邦荣获阿里云“Landing Zone生态合作伙伴”授牌认证学习了 财通证券财务总监周瀛薪酬92.5万元是券商CFO平均薪酬的7成，财通证券董事长兼总经理章启诚该给CFO加薪了实垂了 远东股份：部分人形机器人产品取得成果 嘉士伯上半年营业利润不及预期，预计下半年环境不会改善最新进展 消息称上汽通用五菱、华为合作升级，宝骏品牌有望用上 Hi 模式最新报道 联想推出 thinkplus 轻锋 240W CtoC 快充数据线：理线盒藏线，总长 120mm学习了 博时富源纯债债券基金经理何平因个人原因离任记者时时跟进 云赛智联旗下南洋万邦荣获阿里云“Landing Zone生态合作伙伴”授牌认证又一个里程碑 创始人带团队十多人丢掉价值5千万产品“跑路”，Anthropic全“收编”：精准复刻谷歌抢人术！官方通报 宽松周期已结束？市场押注欧元区利率“更高更久”学习了 财通证券财务总监周瀛薪酬92.5万元是券商CFO平均薪酬的7成，财通证券董事长兼总经理章启诚该给CFO加薪了后续反转来了 电机板块异动拉升，卧龙电驱涨停 奇瑞鼎力支持！鸿蒙智行首款MPV给了智界：实车谍照曝光科技水平又一个里程碑 智能悬架再出海，保隆科技闭式供气单元首获海外定点学习了 中铝国际各所属企业凝聚合力决胜全年目标任务后续来了 五洲交通：上半年增收不增利，200亿投资项目存诸多隐忧 不止龙国在打，亚马逊也盯上了“即时配送”，要跟沃尔玛“打一架”专家已经证实 时隔六年再现保险巨头互买，能否撑起全面牛市？又一个里程碑 国海电新李航：锂电龙头公司已出现明显向好变化 安纳达：公司实施多项技改项目提升生产及环保水平记者时时跟进 金蝶国际深度报告：国产ERP龙头，云+AI转型形势明朗实垂了 现金流“腰斩”难匹配净利增长，嘉化能源多业务疲软学习了 华为nova 14 Ultra手机天猫促销，3649元起 生益电子：上半年归母净利润5.31亿元，同比增长452.11%又一个里程碑 华康洁净董事长被留置此前套现上亿元 华为nova 14 Ultra手机天猫促销，3649元起 三棵树：上半年归母净利润4.36亿元，同比增长107.53%实垂了 五洲交通：上半年增收不增利，200亿投资项目存诸多隐忧太强大了

给大模型智能体组一桌“大富翁”，他们会选择合作还是相互拆台？实验表明，不同的模型在这件事上喜好也不一样，比如基于 Claude 3.5 Sonnet 的智能体，就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”，只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体，这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似，但相对简单，玩家只需要对手中的“资源”做出处置。这当中，虽然每个玩家心里都有各自的小九九，但作者关注的目标，是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏，真名叫做 Donor Game（捐赠博弈）。

在这过程中，作者关注的是各模型组成的智能体群体的表现，因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些，就是 GPT 和 GPT 坐一桌，Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体，它们各自手中都握有一定量的“资源”，系统会从这 12 名玩家中随机抽取 2 个，分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者，受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说，捐赠者每花费掉一份资源时，受赠者都可以获得两份，这也是总体资源能够增加的来源。

不过对于单个个体而言，选择不进行捐献，在短期内的收益会更高。

在做决定之时，捐赠者能够知道受赠者之前做出的决定，从而判断是否要捐赠。

这样的“捐赠”，每一代中一共会进行 12 次，一轮结束后，手中资源量排在前 6 名的智能体可以保留至下一代。

同时，下一代会产生 6 个新的智能体，这 6 个新智能体会从留下的 6 个智能体那里学习策略，但同时为了差异化也会引入随机变异。

包括初始的一代在内，基于每个模型产生的智能体，都会进行十轮迭代。

谷歌让