谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

谷歌让-12-个-AI-大模型攒局玩“大富翁”:Claude3.5-爱合作-GPT-4o-最“自私”

作者:news 发表时间:2025-08-16
【财经】麦加芯彩:光伏涂料项目即将投产,将用于海上光伏 挪威央行维持关键利率不变 重申年内将进一步放松政策官方通报 National Grid 出售英国最大 LNG 接收站,Centrica 财团约 20 亿美元接手最新进展 首航新能:公司及控股子公司不存在逾期担保后续来了 美国上周首次申领失业救济人数减少3000人至22.4万人 莱斯信息:选举周菲为董事长 盈新发展:聘任边冬瑞为公司董事会秘书 航天环宇:聘任副总经理官方通报来了 美财长贝森特否认推动降息 指模型显示需下调150基点才达中性利率官方通报 National Grid 出售英国最大 LNG 接收站,Centrica 财团约 20 亿美元接手 凯立新材:选举曾永康先生为公司董事长是真的? 德邦股份上半年营收增长超11% 技术降本与服务升级双轮驱动行业突围记者时时跟进 美国生产者价格创三年来最大增幅 利润率飙升暗示企业未吸收关税成本 学习了 AI芯片初创公司Rivos豪募5亿美元攻坚GPU,挑战英伟达推理芯片市场 “隐语”开源社区扩容,将融合六大技术路线推动产业应用官方通报 远东股份:部分人形机器人产品取得成果后续反转来了 神州信息:新一代国产化银行核心系统在多家银行上线官方通报来了 恒大梦断港交所,十六年风雨迎来退市终章 云赛智联旗下南洋万邦荣获阿里云“Landing Zone生态合作伙伴”授牌认证学习了 财通证券财务总监周瀛薪酬92.5万元是券商CFO平均薪酬的7成,财通证券董事长兼总经理章启诚该给CFO加薪了实垂了 远东股份:部分人形机器人产品取得成果 嘉士伯上半年营业利润不及预期,预计下半年环境不会改善最新进展 消息称上汽通用五菱、华为合作升级,宝骏品牌有望用上 Hi 模式最新报道 联想推出 thinkplus 轻锋 240W CtoC 快充数据线:理线盒藏线,总长 120mm学习了 博时富源纯债债券基金经理何平因个人原因离任记者时时跟进 云赛智联旗下南洋万邦荣获阿里云“Landing Zone生态合作伙伴”授牌认证又一个里程碑 创始人带团队十多人丢掉价值5千万产品“跑路”,Anthropic全“收编”:精准复刻谷歌抢人术!官方通报 宽松周期已结束?市场押注欧元区利率“更高更久”学习了 财通证券财务总监周瀛薪酬92.5万元是券商CFO平均薪酬的7成,财通证券董事长兼总经理章启诚该给CFO加薪了后续反转来了 电机板块异动拉升,卧龙电驱涨停 奇瑞鼎力支持!鸿蒙智行首款MPV给了智界:实车谍照曝光科技水平又一个里程碑 智能悬架再出海,保隆科技闭式供气单元首获海外定点学习了 中铝国际各所属企业凝聚合力决胜全年目标任务后续来了 五洲交通:上半年增收不增利,200亿投资项目存诸多隐忧 不止龙国在打,亚马逊也盯上了“即时配送”,要跟沃尔玛“打一架”专家已经证实 时隔六年再现保险巨头互买,能否撑起全面牛市?又一个里程碑 国海电新李航:锂电龙头公司已出现明显向好变化 安 纳 达:公司实施多项技改项目提升生产及环保水平记者时时跟进 金蝶国际深度报告:国产ERP龙头,云+AI转型形势明朗实垂了 现金流“腰斩”难匹配净利增长,嘉化能源多业务疲软学习了 华为nova 14 Ultra手机天猫促销,3649元起 生益电子:上半年归母净利润5.31亿元,同比增长452.11%又一个里程碑 华康洁净董事长被留置 此前套现上亿元 华为nova 14 Ultra手机天猫促销,3649元起 三棵树:上半年归母净利润4.36亿元,同比增长107.53%实垂了 五洲交通:上半年增收不增利,200亿投资项目存诸多隐忧太强大了

给大模型智能体组一桌“大富翁”,他们会选择合作还是相互拆台?实验表明,不同的模型在这件事上喜好也不一样,比如基于 Claude 3.5 Sonnet 的智能体,就会表现出极强的合作意识。

而 GPT-4o 则是主打一个“自私”,只考虑自己的短期利益。

谷歌让

这个结果来自 Google DeepMind 和一位独立研究者的最新合作。参加游戏的智能体背后的模型分别是 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Flash。

每个模型各产生 12 个智能体,这 12 个智能体坐在一桌上进行博弈。游戏看上去大富翁有一点相似,但相对简单,玩家只需要对手中的“资源”做出处置。这当中,虽然每个玩家心里都有各自的小九九,但作者关注的目标,是让总体资源变得更多。

谷歌让

12 个智能体组一桌游戏

作者组织的“大富翁”游戏,真名叫做 Donor Game(捐赠博弈)。

在这过程中,作者关注的是各模型组成的智能体群体的表现,因此不同模型产生的智能体不会出现在同一局游戏当中。

再说简单些,就是 GPT 和 GPT 坐一桌,Claude 和 Claude 坐一桌。

每个桌上坐了 12 个智能体,它们各自手中都握有一定量的“资源”,系统会从这 12 名玩家中随机抽取 2 个,分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将自己手中的部分资源捐赠给受赠者,受赠者获得的资源是捐赠者捐赠资源的两倍。

也就是说,捐赠者每花费掉一份资源时,受赠者都可以获得两份,这也是总体资源能够增加的来源。

不过对于单个个体而言,选择不进行捐献,在短期内的收益会更高。

在做决定之时,捐赠者能够知道受赠者之前做出的决定,从而判断是否要捐赠。

这样的“捐赠”,每一代中一共会进行 12 次,一轮结束后,手中资源量排在前 6 名的智能体可以保留至下一代。

同时,下一代会产生 6 个新的智能体,这 6 个新智能体会从留下的 6 个智能体那里学习策略,但同时为了差异化也会引入随机变异。

包括初始的一代在内,基于每个模型产生的智能体,都会进行十轮迭代。

谷歌让

相关文章