Veo 3震撼实测，DeepMind CTO问：规模是AGI关键？

tech
2025年5月22日

近年来，人工智能（AI）技术在图像和视频生成领域实现了突破性的进展，正在逐步改变视觉传媒和创意产业的生产方式。尤其是谷歌DeepMind推出的最新一代AI视频生成模型——Veo 3，以其领先的多模态生成能力和高质量影像输出，迅速引发业界及公众的广泛关注。与此同时，关于人工智能通用智能（AGI）的实现路径，DeepMind首席技术官提出了别具一格的见解，挑战了现有单一依赖算力规模提升的认知，引起业界深思。本文将结合Veo 3的技术创新、AGI研发的新理念及未来AI视频创作的前景，梳理这一波AI视觉革命的脉络。

Veo 3：实现多模态融合，开启AI视频新纪元

Veo 3是DeepMind继承并超越其前代产品的最新成果，具备根据文本、图片乃至视频提示生成高质量视频的能力。最引人注目的是它首次实现了音频的原生生成，这意味着AI不仅能生成逼真的画面，还能同步生成环境声效、角色对白乃至复杂的背景音效，彻底打破了以往AI视频“无声哑剧”的束缚。通过一句简单的提示，Veo 3即可创造出具备电影级音画质感的短片，实现了视觉与听觉的高度融合。

从技术层面讲，Veo 3支持最高4K分辨率的视频生成，细腻清晰，极大提升了画面真实感。与市面上一些仅支持1080p且生成时长有限的竞品相比，Veo 3不论在物理模拟的精准度还是口型同步方面都处于领先地位，让AI生成的视频更加生动自然。更值得关注的是，谷歌配套推出了名为Flow的便捷应用，用户仅需简单操作即可体验每月100次的免费视频生成机会，极大地降低了AI视频制作的门槛，助力创作者免费探索创意极限。

这项技术不仅在网络上掀起热潮，甚至引发了好莱坞电影制作界的兴趣。网友们体验后纷纷惊叹其真实性，称“这根本不像是AI做出来的”，这说明Veo 3的表现超出大众对现有AI视频技术的预期，具备颠覆传统影视内容生产流程的潜质。

重新审视AGI：规模之外的创新力量

在AGI研发现阶段，主流观点多将算力规模的不断扩张视为推动模型进化的关键。然而，DeepMind首席技术官在接受采访时的观点颇具启发性。他指出，虽然“规模”确实是提升AI性能的重要因素，但单凭参数数量或计算能力的增长，难以实现真正的通用智能。

Veo 3所采用的多线程推理模式（“Deep Think”系统）标志着AI架构设计上的一大进步——这不仅是算力的简单叠加，更是模型内部推理机制与并行工作方式的质的飞跃。CTO强调，未来AGI的实现依赖于一系列系统性的创新，比如全新的推理模式、更加通用的学习机制和更高效的知识表达方法，而非盲目追求模型体量或训练资源。

这一观点引发了人工智能领域的反思浪潮，促使研究者和产业界重新考量创新的路径：是继续在工程层面对硬件和算力做“堆量”，还是转向理论基础和算法机制的突破。显然，AGI的实现道路需要兼顾多方面技术创新，而不仅仅是“规模游戏”。

AI视频创作的未来：智能化与自由度的飞跃

Veo 3的横空出世，标志着AI视频生成技术从单一视觉表现迈向多模态统一的综合创作新时代。谷歌计划将Veo视频生成模型与其先进的语言理解模型Gemini深入融合，旨在提升AI对真实世界物理规律和语境的整体理解能力，进一步推动智能化创作向前发展。这种融合能够让AI不仅生成高质量内容，还能自主理解故事背景、场景逻辑，甚至实现交互式创作。

这将对电影、广告、游戏、教育等多个创意产业链带来深远影响。AI辅助下的“导演”和“编剧”正变得触手可及，大幅提高创作环节的效率与灵活度，为创作者释放更多的想象空间。同时，从使用者角度看，Veo 3借助便捷的应用工具，极大降低了技术门槛，让更多人以更低成本创造高品质视听作品，有望催生一个更加多元且充满活力的内容生态。

此外，随着技术的普及和升级，AI视频制作流程有望重塑产业结构，引领新的商业模式与艺术表达方式。创意产业将在智能技术驱动下实现从“生产工具”到“创作伙伴”的转变，开启创作自由度前所未有的新阶段。

经过这场技术革新，未来的影像世界必将日趋智能化、多样化，而AI将成为不可或缺的创意引擎。

综上所述，谷歌DeepMind的Veo 3不仅以其卓越的多模态生成能力刷新了AI视频制作的格局，更在推动通用智能研究上提出了深刻的思考。Veo 3实现了视觉与声音的完美融合，打破了传统AI视频生成的限制，助力创作者低门槛高效产出高品质作品。同时，DeepMind CTO对AGI路径的洞见提醒我们，真正的突破在于理论与架构创新，而非单纯的规模竞争。未来，随着Veo 3与Gemini等先进模型的结合，AI视频创作将步入一个智能化程度更高、表达自由度更大的全新时代，深刻影响和变革各行各业的创意生产方式。

Veo 3震撼实测，DeepMind CTO问：规模是AGI关键？

发表评论