首页 > AI工具集 > AI视频音频 > AI视频工具 > 内容详情

Wan

来源：网络采集

时间：2025-10-24

通义万相Wan（*版）基础介绍

阿里巴巴旗下“通义”品牌迎来重大更新，其AI视频生成模型“通义万相Wan”已正式上线独立网站（即通义万相Wan*版）。用户只需轻松登录，即可直接体验从“文本”到“视频”、从“图像”到“视频”的神奇转换功能，无需繁琐的本地部署，使用更加便捷。此外，网站还每日赠送积分，鼓励用户不断尝试，持续探索AI视频的无限可能。

通义万相Wan是阿里云通义系列中一款功能强大的视频生成AI模型。于2025年2月25日，阿里巴巴基于最宽松的Apache2.0协议，将通义万相Wan2.1版本的14B和1.3B两个参数规格的全部推理代码和权重*开源，*开发者可在Github、HuggingFace和魔搭社区便捷下载体验。这一开源举措，极大地推动了AI视频生成技术在*范围内的交流与创新。

通义万相本就是阿里云旗下颇受关注的AI绘画创作模型，自2023年7月7日上线开启定向邀测后，便在多模态处理领域崭露头角。2024年9月19日，阿里云发布通义万相视频生成大模型，其生成影视级高清视频的能力引发行业轰动，用户可通过通义APP及通义万相官网免费体验。到了2025年1月，通义万相迎来2.1版本升级，视频生成、图像生成两大核心能力显著提升，通义万相Wan（*版）2.1更是站在了技术前沿，成为众多创作者和开发者关注的焦点。

二、产品功能亮点

（一）多模态任务支持

1. 文本到视频（T2V）：用户只需输入文字描述，模型就能生成对应的视频内容。描述“阳光明媚的沙滩上，海浪轻柔地拍打着海岸，身着比基尼的人们在沙滩上嬉戏玩耍”，模型即可生成一段展现该场景的动态视频。而且，它对中英文文本都有出色的理解和生成能力，是**原生支持中英双语文字*生成的模型，能生成海报字体、场景嵌入文字等，为视频增添丰富的文字元素。

2. 图像到视频（I2V）：上传一张或一系列图像，通义万相Wan（*版）能够基于这些图像生成连贯的视频。输入一组描绘四季变化的图片，模型会生成一段流畅展现四季更迭过程的视频，通过智能算法让静态图像“动”起来。

3. 视频编辑：不仅能生成全新视频，还可对已有的视频进行编辑处理。调整视频的色调、添加*、更改视频中的部分元素等操作都能轻松实现。比如将一段普通的风景视频添加复古色调滤镜，使其呈现出老电影般的质感。

4. 文本到图像（T2I）：依据文本描述生成高质量图像，为视频创作提供素材支持。若需要一个奇幻风格的城堡图片用于视频，输入相关文字描述，模型便能快速生成符合要求的图像。

5. 视频到音频（V2A）：从视频中提取音频信息，或者根据视频内容生成匹配的音频。在一段热闹的街市视频中，模型可提取出嘈杂的人声、车辆声等环境音，也能为视频配上一段欢快的背景音乐，增强视频的氛围感。

（二）强大的物理模拟与运镜能力

1. *物理模拟：

在生成视频时，能够*还原碰撞、反弹、切割等复杂物理场景。模拟篮球撞击篮板后的反弹轨迹、刀具切割物体的真实效果等，使生成的视频更加贴近现实，增强视觉真实感。在展现一场激烈的足球比赛视频中，足球与球员身体的碰撞、足球在草地上的滚动等物理效果都能被*呈现。

2. 电影级运镜效果：

支持自动运镜功能，可生成具有电影感十足的镜头语言。运用推、拉、摇、移等多种运镜手法，为视频增添丰富的视觉动态。在拍摄一段自然风光视频时，模型能自动运用运镜，从远处的山峦逐渐拉近到近处的花草，展现出宏大而细腻的自然景观。

三、性能参数剖析

（一）不同参数版本

1. 14B版本：具备强大的复杂场景处理能力，支持生成720P及以上分辨率的高清视频，甚至能实现无限长1080P视频的编解码。适用于对视频画质和场景复杂度要求极高的专业场景，如影视制作、大型广告片制作等。在处理一场宏大的战争场景视频时，14B版本能够细腻地展现出众多人物的动作细节、复杂的场景布局以及光影变化。但该版本对硬件要求较高，需要高性能GPU（如NVIDIA A100）的支持。

2. 1.3B版本：对硬件要求相对较低，仅需8.19GB显存，几乎可在所有消费级GPU上运行，如常见的RTX 4060/4090等。这使得普通个人开发者和创作者也能轻松在本地部署使用。虽然其生成视频的分辨率最高为480P（也可尝试生成720P，但稳定性稍低），但在生成速度上表现尚可，在RTX 4090上生成5秒480P视频大约需要4分钟，能够满足日常创意视频制作、短视频创作等场景需求。

（二）权威评测表现

在权威评测工具VBench中，通义万相Wan（*版）2.1以总分86.22%的优异成绩登顶*榜首，超越了Sora、Pika等知名闭源模型。这一成绩充分证明了其在生成质量、物理模拟准确性、复杂运动生成以及文本 - 视频关联性等方面的卓越技术优势。在复杂运动生成方面，它能够*呈现人物的旋转、跳跃等复杂动作，以及物体的高速运动轨迹，且在物理规律模拟上表现出色，生成的视频中物体的运动符合现实中的物理原理。

四、应用场景广泛

1. 影视制作领域：为影视创作者提供了*的*制作和动画生成工具。在拍摄奇幻题材影视作品时，利用通义万相Wan（*版）生成各种魔法*场景、神话生物的动画等，节省大量的后期制作成本和时间。生成一段巨龙在天空翱翔并喷出火焰的*视频，为影片增添震撼视觉效果。

2. 广告与营销行业：快速生成吸引人的广告视频。根据产品特点和营销需求，生成包含产品展示、使用场景、特色亮点等内容的视频。为一款新上市的电子产品生成一段宣传视频，通过生动的画面和*突出产品的功能和优势，吸引消费者的关注。同时，其支持的动态字幕和*功能，能使广告视频更加生动有趣，提升广告的吸引力和传播效果。

3. 教育与培训场景：教师可以制作生动的教学视频，将抽象的知识通过具体的视频场景展示出来，增强教学的互动性和趣味性。在讲解物理课程中的力学原理时，生成物体受力运动的模拟视频，帮助学生更好地理解知识。对于文化教育内容，也可生成历史事件模拟视频、艺术作品创作过程视频等，丰富教育资源。

4. 个人创作者平台：降低了个人创作者的视频创作门槛，即使没有专业的视频制作技能，也能通过简单的文字输入或图像上传，创作出富有创意的视频内容。个人创作者可以利用它生成短视频素材、虚拟直播背景视频等，满足个性化的创作需求，在社交媒体平台上分享独特的作品，吸引更多关注。

五、最新动态

wan2.2视频模型开源

2025年7月28日晚，阿里开源电影级视频生成模型通义万相Wan2.2，引发创作者与开发者关注。

此次同步开源三款模型：文生视频（Wan2.2-T2V-A14B）、图生视频（Wan2.2-I2V-A14B）及统一视频生成（Wan2.2-IT2V-5B）。其中前两者为业界首批采用 MoE 架构的视频模型，总参数量 27B、激活参数 14B，可节省 50% 计算资源；通过高 / 低噪声专家模型分工，在复杂运动生成、人物交互上表现突出。

功能上，其首创电影美学控制系统，能通过关键词*调控光影、色彩等电影级元素。单次可生成 5 秒高清视频，支持多轮提示词制作短剧，未来将提升生成时长。

5B 小尺寸的 Wan2.2-IT2V-5B 模型，支持文生 / 图生视频，采用高压缩率 3D VAE 架构，仅需 22G 显存（消费级显卡），几分钟即可生成 5 秒 720P/24 帧视频，速度*同规格模型。

目前开发者可在 GitHub 等平台下载，企业可调用阿里云百炼API，普通用户可通过通义万相官网及App体验。

TAG：AI视频工具

本文标签：

AI视频工具

上一篇：：Veo

下一篇：：海螺视频APP

Wan

热门

推荐

AI工具集

AI资讯

AI教程

关于我们

联系我们