通义千问发布Qwen VLo：多模态统一理解与生成新突破

tech
2025年6月30日

近年来，人工智能技术迈入了一个前所未有的发展阶段，尤其是在多模态大模型领域的突破令人瞩目。不同于传统的单一模态模型，这些新兴的多模态模型能够同时处理并理解文本、图像、音频乃至视频等多种数据形式，更贴近人类综合认知的本质。在这一趋势中，阿里巴巴旗下的通义千问团队于6月27日发布的最新力作——Qwen VLo，正是多模态统一理解与生成模型领域的一个标志性里程碑，彰显了AI图像理解与生成能力的显著进步，推动了行业应用的广泛拓展。

Qwen VLo的核心竞争力，集中体现在其卓越的再创造能力上。这种能力突破了传统模型仅能被动生成的局限，赋予AI主动“理解”世界并能基于理解进行高质量再创作的可能。具体而言，Qwen VLo支持文本到图像的直接生成，用户向模型发出描述指令后，便能获得符合需求的图像。同时，它具备对既有图片进行编辑的强大功能：不仅可以更换背景、加入新元素，还能根据指令变换图像风格，例如模拟风靡的吉卜力动画效果或实现3D渲染般的逼真质感。此外，Qwen VLo内嵌的图像感知与定位功能使其可自动识别图像中的多个对象，实现精准的图像检测和分割。这种多层次、多角度的图像处理能力，极大地拓展了AI在设计、艺术创作、广告制作和数字媒体等领域的实际应用边界。

值得一提的是，Qwen VLo还引入了一种创新的图像生成机制：从上到下、从左至右逐步清晰的生成流程。这一机制不仅大幅提升了图像生成的效率，尤其适用需要细腻文本排版与复杂视觉展示的长文本图像生成任务，比如广告设计中的大段文字配图。与传统生成模型面对效率瓶颈的挣扎相比，Qwen VLo呈现出更流畅且高效的表现。此外，模型支持的动态分辨率训练与生成，即对输入和输出端图像任意分辨率和长宽比的灵活支持，为用户创造了前所未有的自由度，让创作者能够根据不同需求灵活调整画面大小和构图，满足多场景下的视觉表现标准。

发布Qwen VLo的背后，是阿里云通义千问团队对大模型技术持续且深入的技术积累。依托万亿级超大规模数据训练和领先的算法架构，通义千问大模型实现了跨模态高效精准的服务调用。用户不仅能在Qwen Chat平台（chat.qwen.ai）便捷体验Qwen VLo的多模态能力，开发者也能借助通义千问推出的Qwen3系列大模型以及一站式推理和部署服务，快速构建丰富多样的人工智能应用。同时，阿里云百炼平台将通义系列大模型和多家第三方大模型融为一体，覆盖文本、图像、音视频等多模态，构筑了一个多元开放的AI模型生态。当下，通义千问API支持包括OpenAI兼容、DashScope等多种调用接口，为开发者赋能提供了灵活无障碍的集成选择。

综合来看，Qwen VLo作为通义千问发布的多模态统一理解与生成模型，不仅在图像理解和生成技术上实现了技术突破，也在生成机制和应用适配上树立了新标杆。它的到来，不仅是阿里巴巴技术沉淀的结晶，更为人工智能在内容创造、数字媒体、设计创新等诸多领域带来了全新工具和思维模式。展望未来，随着更多多模态大模型技术的发展与普及，AI将在促进生产力革新、激发创意表达以及提升人机交互体验方面扮演日益核心的角色，而Qwen VLo无疑是这一进程中的重要一环，为中国乃至全球AI生态注入了新的活力和可能。

通义千问发布Qwen VLo：多模态统一理解与生成新突破

发表评论