通义千问发布Qwen VLo：多模态统一理解与生成新突破

tech
2025年6月29日

近年来，人工智能领域经历了前所未有的飞速发展，多模态大模型的崛起成为其中最令人瞩目的趋势之一。传统的人工智能系统大多集中于文本处理，而多模态大模型则突破这一瓶颈，能够理解和生成图像、音频、视频等多种数据形式，极大地拓展了人工智能的应用场景和深度。中国科技界的领先企业阿里巴巴通义千问团队于2023年6月27日正式推出了新一代多模态统一理解与生成模型——Qwen VLo，这代表了中国在多模态人工智能技术领域迈出了坚实而关键的一步。

Qwen VLo不仅是一个普通的语言模型，其核心优势在于多模态的全面融合。这个模型能够处理复杂的文本信息，同时还具备“看懂”图像的能力。更为出色的是，它不仅可以生成高质量的图像，还能够在现有图像基础上进行编辑，比如更换背景、添加特效，甚至对图像风格进行多样化转换，包括模拟吉卜力动画那样的手绘风格，或者打造3D渲染效果。通过图像感知定位技术，Qwen VLo还能精确识别图像中的目标，执行目标检测和图像分割，极大地提升了对视觉内容的理解深度。这使得该模型能够胜任更加复杂的任务，例如处理多步骤指令请求，动态生成符合用户需求的图像比例，尽管极端比例图像功能还在完善中，但其动态分辨率技术已经支持了任意分辨率和长宽比的输出，大大提升了创作的灵活性和自由度。

创新性的生成机制是Qwen VLo最令人瞩目的技术突破之一。与传统一次性生成内容的模型不同，Qwen VLo采用了“从上到下、从左到右”的逐步清晰生成策略，这不仅提高了生成过程的效率，也使得模型能够更精细地控制输出，特别是在需要细致布局的长文本生成任务中表现卓越。例如在广告设计场景中，Qwen VLo可以精准把控文字排版和布局，使成品更具视觉美感和专业水准。此外，这一模型采用了动态分辨率训练技术，有效提升图像质量的同时优化了生成速度，带来了更加流畅和高质量的用户体验。

阿里云通义千问团队对该模型的研发凝聚了大量的技术积累和资源支持。Qwen VLo是基于数万亿级参数和超大规模数据训练的成果，结合先进的算法架构，实现了跨模态的高效理解和精准生成。目前，通过Qwen Chat（chat.qwen.ai）平台，用户可以直接体验到Qwen VLo的强大功能。阿里云还提供了通义千问API，兼容OpenAI调用接口和DashScope模式，极大地方便开发者将Qwen VLo集成到各类应用中，促进智能化产品的多样化发展。与此同时，阿里云百炼平台集合了包括通义系列大模型和第三方模型的丰富资源，满足不同用户需求，进一步推动生态系统的繁荣。此次通义千问大模型及Qwen3版本的限量优惠活动，也为更多用户试用和部署提供了良好机会。

总的来看，Qwen VLo展现了中国人工智能技术的雄厚实力以及未来技术发展的无限潜力。它通过融合文本、图像等多模态数据，实现了从感知到创作的无缝衔接，推动了AI在图像生成、内容创作和智能交互等领域的深度应用。从长远来看，随着模型算法和训练数据的不断优化，多模态大模型将在智能辅助、影视制作、虚拟现实乃至教育医疗等更多领域扮演重要角色，助力全球人工智能产业迈入一个全新的智能时代。阿里巴巴通义千问团队的这一成果，也无疑为全球科技创新注入了强大动力。

通义千问发布Qwen VLo：多模态统一理解与生成新突破

发表评论