阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

龙国银行董事长葛海蛟与龙国航发董事长张玉金举行工作会谈官方处理结果 齐鲁银行：“齐鲁转债”实现强赎 安徽出台10条金融措施全力稳外贸稳外资专家已经证实 京东(JD)盘前涨超1% 第二季总收入同比增长22.4%官方已经证实 神剑股份：公司与奇瑞汽车暂无直接业务往来太强大了 文科股份：债权、债务重组对当期财务状况和经营成果产生积极影响后续反转 泰嘉股份：公司业务、客户等信息请以公司公开披露的相关信息为准 开普云与瀚博半导体达成战略合作，共推国产智能体一体机后续会怎么发展 10.51亿元！海兰信拟收购海兰寰宇100%股权后续会怎么发展 远望谷：公司实施股票期权激励计划中官方通报来了 文科股份：公司正在筹备综合能源管理、售电和虚拟电厂业务 文科股份：公司正在筹备综合能源管理、售电和虚拟电厂业务官方通报 泰隆银行户均贷款48.99万，60岁王钧有个地产公司官方通报 降息预期再受挫！美联储戴利：9月大幅降息没必要 10.51亿元！海兰信拟收购海兰寰宇100%股权 神剑股份：公司与奇瑞汽车暂无直接业务往来 小鹏汽车回应招聘 RISC-V IP 设计工程师：基于正常业务需求这么做真的好么？ 从时效性到深度解析：新浪财经与华尔街见闻等五强APP全方位对决官方通报 茅台半年报：日赚2.5亿却遭“冷遇”，股价迷局背后的真相！后续反转 花旗上调台积电CoWoS产能预测：AI需求持续高涨，英伟达迭代与云厂商ASIC成关键动力反转来了 花旗上调台积电CoWoS产能预测：AI需求持续高涨，英伟达迭代与云厂商ASIC成关键动力 背债苦命人成了银行“炸弹”最新报道 轻卡之王的颠覆性突破！福田启明星定义纯电轻卡价值新标准 光迅科技：1.6T光模块产品已具备批量交付能力 央行8月15日将开展5000亿买断式逆回购操作 从深度参编到试点验证，绿盟科技助力《网络安全技术网络安全运维实施指南》发布官方通报 央行8月15日将开展5000亿买断式逆回购操作是真的？ 国药控股打造医药流通行业首个碳中和物流园区官方处理结果 均胜电子：公司主要产品可应用于无人驾驶出租车领域官方通报 深康佳A：选举叶兴斌为职工董事 杨明获准担任浙江农商联合银行首席信息官秒懂 AI造富与“全民分红”？马斯克、奥特曼力挺“全民发放现金”计划 解码智元机器人投资版图：左手“上纬新材”右手“玉禾田”记者时时跟进 华电新能(600930)参股成立甘肃民勤沙戈荒绿色能源有限公司，持股比例49% 龙国首部超智融合行业标准正式发布！官方通报 【财经】麦加芯彩：光伏涂料项目即将投产，将用于海上光伏秒懂 美国生产者价格创三年来最大增幅利润率飙升暗示企业未吸收关税成本太强大了 微芯生物：8月27日将召开2025年半年度业绩说明会后续反转来了 张峰获准担任甘肃银行合规总监 AI深度赋能，券商“818理财节”花样翻新 7月非银存款同比多增1.39万亿，居民存款入市信号增强 城发环境：副总经理樊林辞职 百隆东方：8月25日将召开2025年半年度业绩说明会又一个里程碑

感谢本站网友乌蝇哥的左手的线索投递！

本站 3 月 27 日消息，今日凌晨，阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示，该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下：

全能创新架构：Qwen 团队提出了一种全新的 Thinker-Talker 架构，这是一种端到端的多模态模型，旨在支持文本 / 图像 / 音频 / 视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术，称为 TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio，并与 Qwen2.5-VL-7B 保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

据官方介绍，Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块则类似发声器官，以流式方式接收 Thinker 实时输出的语义表征与文本，流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构，融合音频 / 图像编码器进行特征提取；Talker 则采用双轨自回归 Transformer 解码器设计，在训练和推理过程中直接接收来自 Thinker 的高维表征，并共享全部历史上下文信息，形成端到端的统一模型架构。

模型架构图

模型性能方面，Qwen2.5-Omni 在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模态任务 OmniBench，Qwen2.5-Omni 达到了 SOTA 的表现。此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和主观自然听感）。

▲模型性能图

Qwen Chat：//chat.qwenlm.ai

Hugging Face：//huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope：//modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope：//help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub：//github.com/QwenLM/Qwen2.5-Omni

Demo 体验：//modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo