阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-16
多元金融异动拉升,南华期货涨停秒懂 恒大梦断港交所,十六年风雨迎来退市终章官方已经证实 远东股份:部分人形机器人产品取得成果后续来了 嘉士伯上半年营业利润不及预期,预计下半年环境不会改善后续来了 恒大梦断港交所,十六年风雨迎来退市终章 【券商聚焦】交银国际上调阅文集团(00772)评级至买入 看好阅文核心利润增长趋势 智能悬架再出海,保隆科技闭式供气单元首获海外定点 远东股份:部分人形机器人产品取得成果 东海中债0-3年政金债基金经理邢烨离任官方通报来了 远东股份:部分人形机器人产品取得成果官方通报来了 生意社:8月14日合力泰科技三聚氰胺价格上涨后续反转来了 是真的吗? 招商安华债券增聘王刚为基金经理 PEEK材料概念拉升 新瀚新材涨逾11% 后续反转来了 联想推出 thinkplus 轻锋 240W CtoC 快充数据线:理线盒藏线,总长 120mm官方已经证实 美三部门联手,限制芯片对华流转!自主可控重要性凸显!硬科技宽基——双创龙头ETF(588330)宽幅溢价!官方处理结果 Moneta Markets外汇:挪威油气新机遇与市场展望后续会怎么发展 上海凤凰(600679)股东王翔宇质押658.26万股,占总股本1.2774% 京东美股盘前涨近3%最新报道 打破险资举牌同业6年空白,龙国平安斥资5584万港元增持龙国太保H股至5.04%官方处理结果 从首季盈利到冲击千元关口,寒武纪为何频现异动? 五矿发展:2025年第一季度股东总数为51,463户秒懂 龙国恒大:指示聆讯将于9月16日举行,股票继续停牌是真的吗? 朗迪集团:东北证券、财通基金等多家机构于8月13日调研我司专家已经证实 迅雷:2025年Q2营收1.04亿美元,同比增长30.6% 龙国太保治理架构大调整:监事会撤销与审计条线换防记者时时跟进 上市首日暴涨83%!加密货币交易所Bullish亮相即走红 万马科技:公司使用华为云产品并获昇腾认证后续来了 *ST赛隆董事会集体辞职,新东家是何来头? 维亚生物午前涨超16% 机构称公司AI制药平台优势明显官方通报 外企新语丨贸易政策不确定冲击北美鞋服品牌实时报道 韩国公布上半年财政赤字为94.3万亿韩元后续来了 60万份快递发货单背后:一场关乎直销企业清白的拉锯战最新报道 以太坊的突破:历史重演,开启“史诗级”新周期实测是真的 毛戈平狂赚6.7亿,近两月市值却蒸发百亿 茅台五星新品上市一周价格炒至翻倍,文创酒“炼金术”路在何方太强大了 东方电子受邀参加第四届EESA储能展会,以创新技术构建能源新生态后续会怎么发展 韩国公布上半年财政赤字为94.3万亿韩元 闷声发大财!联想第一财季营收1362亿创历史新高,利润暴增108%后续会怎么发展 高盛关税预警触动白宫神经 华尔街集体警示美国通胀风险攀升 万马科技:公司使用华为云产品并获昇腾认证秒懂 秒懂

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章