通义千问推出多模态统一AI模型Qwen VLo

tech
2025年6月29日

近年来，人工智能技术以惊人的速度发展，尤其是在多模态模型领域的突破，正逐步改变我们与数字世界交互的方式。多模态大模型不仅能够处理文本信息，更具备理解和生成图像、音频乃至视频的能力，为人工智能的认知和表达打开了新的维度。作为中国人工智能技术发展的重要代表，阿里巴巴通义千问团队于6月27日推出了新一代多模态统一理解与生成模型——Qwen VLo。这一型号的发布，不仅丰富了我国的大模型生态，也预示着多模态技术在实际应用场景中的广阔前景。

Qwen VLo的显著优势体现在其强大的多模态理解与生成能力。不同于传统依赖单一数据输入的模型，Qwen VLo能够直接生成图像，并支持对现有图像进行复杂操作，例如替换背景、添加细节元素、以及转换成不同艺术风格（如吉卜力风格或3D风格）。此外，它具备出色的图像感知定位能力，能够精准完成图像检测与分割任务，这种能力使得模型不仅能“看懂”图像的内容，更能具体理解图像中的各个组成部分及其关系。用户可通过多步骤指令与模型互动，如先根据图像生成描述文字，再基于文字对图像进行相应修改，最终生成满足需求的全新图像。这种从感知到生成的能力跨越，标志着Qwen VLo迈入了多模态AI发展的新阶段。更值得关注的是，模型已经具备生成动态比例图像的能力，虽极端比例尚未全面开放，但其潜力显而易见。

在技术创新方面，Qwen VLo引入了全新的生成机制：采用“从上到下、从左到右”的分步生成方式。这种设计尤其适用于生成长段文字和需要细致控制的内容，提升了文本生成的效率与质量。相较于以往版本，Qwen VLo在对图像内容理解深度及生成一致性上均有明显提升。模型可以更加细致地捕捉图像细节，并转化为高质量的生成作品，提升了多模态任务的完成度和实用性。为了促进开发者广泛应用，阿里云推出了通义千问API，支持OpenAI兼容调用，并通过DashScope接口方便开发者将Qwen VLo集成于各类应用。阿里云百炼平台也整合了通义系列与第三方大模型，提供丰富的模型选择，助推多模态AI的商业化应用。

Qwen VLo一经发布，便受到行业高度关注。其多模态统一理解与生成能力与国际顶尖模型如GPT-4o、Gemini不相上下，并在图像生成领域展现出突出表现。为降低开发门槛，业界建议借鉴BFL’s Flux Kontext Dev模式，向研究人员和个人开放免费模型权重，而对商业用户实施合理授权收费，从而促进生态多元发展。目前，用户可通过Qwen Chat平台（chat.qwen.ai）直接体验Qwen VLo的强大功能。此外，通义千问大模型（包括Qwen3）还推出限量优惠，最低享88折，有力吸引更多用户探索多模态AI的潜能。

总体来看，阿里巴巴通义千问发布的Qwen VLo多模态模型凭借其一流的理解与生成能力、创新机制及强大的应用潜力，正引领着人工智能技术的新浪潮。它不仅是中国在全球AI竞赛中的重要里程碑，更为未来智能图像处理、内容创作和智能助手提供了全新动力。随着技术日益成熟与应用场景持续拓展，Qwen VLo无疑将在提高生产力、丰富数字生活等方面，扮演更加关键的角色。

通义千问推出多模态统一AI模型Qwen VLo

发表评论