AI云市场工具站

191 1595 7237

Wan

来源:网络采集
时间:2025-10-24
浏览:0
搜索工具官网:点击直达工具官网

通义万相Wan(*版)基础介绍

阿里巴巴旗下“通义”品牌迎来重大更新,其AI视频生成模型“通义万相Wan”已正式上线独立网站(即通义万相Wan*版)。用户只需轻松登录,即可直接体验从“文本”到“视频”、从“图像”到“视频”的神奇转换功能,无需繁琐的本地部署,使用更加便捷。此外,网站还每日赠送积分,鼓励用户不断尝试,持续探索AI视频的无限可能。

通义万相Wan是阿里云通义系列中一款功能强大的视频生成AI模型。于2025年2月25日,阿里巴巴基于最宽松的Apache2.0协议,将通义万相Wan2.1版本的14B和1.3B两个参数规格的全部推理代码和权重*开源,*开发者可在Github、HuggingFace和魔搭社区便捷下载体验。这一开源举措,极大地推动了AI视频生成技术在*范围内的交流与创新。

通义万相本就是阿里云旗下颇受关注的AI绘画创作模型,自2023年7月7日上线开启定向邀测后,便在多模态处理领域崭露头角。2024年9月19日,阿里云发布通义万相视频生成大模型,其生成影视级高清视频的能力引发行业轰动,用户可通过通义APP及通义万相官网免费体验。到了2025年1月,通义万相迎来2.1版本升级,视频生成、图像生成两大核心能力显著提升,通义万相Wan(*版)2.1更是站在了技术前沿,成为众多创作者和开发者关注的焦点。

二、产品功能亮点

(一)多模态任务支持

1. 文本到视频(T2V):用户只需输入文字描述,模型就能生成对应的视频内容。描述“阳光明媚的沙滩上,海浪轻柔地拍打着海岸,身着比基尼的人们在沙滩上嬉戏玩耍”,模型即可生成一段展现该场景的动态视频。而且,它对中英文文本都有出色的理解和生成能力,是**原生支持中英双语文字*生成的模型,能生成海报字体、场景嵌入文字等,为视频增添丰富的文字元素。

2. 图像到视频(I2V):上传一张或一系列图像,通义万相Wan(*版)能够基于这些图像生成连贯的视频。输入一组描绘四季变化的图片,模型会生成一段流畅展现四季更迭过程的视频,通过智能算法让静态图像“动”起来。

3. 视频编辑:不仅能生成全新视频,还可对已有的视频进行编辑处理。调整视频的色调、添加*、更改视频中的部分元素等操作都能轻松实现。比如将一段普通的风景视频添加复古色调滤镜,使其呈现出老电影般的质感。

4. 文本到图像(T2I):依据文本描述生成高质量图像,为视频创作提供素材支持。若需要一个奇幻风格的城堡图片用于视频,输入相关文字描述,模型便能快速生成符合要求的图像。

5. 视频到音频(V2A):从视频中提取音频信息,或者根据视频内容生成匹配的音频。在一段热闹的街市视频中,模型可提取出嘈杂的人声、车辆声等环境音,也能为视频配上一段欢快的背景音乐,增强视频的氛围感。

(二)强大的物理模拟与运镜能力

1. *物理模拟:

在生成视频时,能够*还原碰撞、反弹、切割等复杂物理场景。模拟篮球撞击篮板后的反弹轨迹、刀具切割物体的真实效果等,使生成的视频更加贴近现实,增强视觉真实感。在展现一场激烈的足球比赛视频中,足球与球员身体的碰撞、足球在草地上的滚动等物理效果都能被*呈现。

2. 电影级运镜效果:

支持自动运镜功能,可生成具有电影感十足的镜头语言。运用推、拉、摇、移等多种运镜手法,为视频增添丰富的视觉动态。在拍摄一段自然风光视频时,模型能自动运用运镜,从远处的山峦逐渐拉近到近处的花草,展现出宏大而细腻的自然景观。

三、性能参数剖析

(一)不同参数版本

1. 14B版本:具备强大的复杂场景处理能力,支持生成720P及以上分辨率的高清视频,甚至能实现无限长1080P视频的编解码。适用于对视频画质和场景复杂度要求极高的专业场景,如影视制作、大型广告片制作等。在处理一场宏大的战争场景视频时,14B版本能够细腻地展现出众多人物的动作细节、复杂的场景布局以及光影变化。但该版本对硬件要求较高,需要高性能GPU(如NVIDIA A100)的支持。

2. 1.3B版本:对硬件要求相对较低,仅需8.19GB显存,几乎可在所有消费级GPU上运行,如常见的RTX 4060/4090等。这使得普通个人开发者和创作者也能轻松在本地部署使用。虽然其生成视频的分辨率最高为480P(也可尝试生成720P,但稳定性稍低),但在生成速度上表现尚可,在RTX 4090上生成5秒480P视频大约需要4分钟,能够满足日常创意视频制作、短视频创作等场景需求 。

(二)权威评测表现

在权威评测工具VBench中,通义万相Wan(*版)2.1以总分86.22%的优异成绩登顶*榜首,超越了Sora、Pika等知名闭源模型。这一成绩充分证明了其在生成质量、物理模拟准确性、复杂运动生成以及文本 - 视频关联性等方面的卓越技术优势。在复杂运动生成方面,它能够*呈现人物的旋转、跳跃等复杂动作,以及物体的高速运动轨迹,且在物理规律模拟上表现出色,生成的视频中物体的运动符合现实中的物理原理。

四、应用场景广泛

1. 影视制作领域:为影视创作者提供了*的*制作和动画生成工具。在拍摄奇幻题材影视作品时,利用通义万相Wan(*版)生成各种魔法*场景、神话生物的动画等,节省大量的后期制作成本和时间。生成一段巨龙在天空翱翔并喷出火焰的*视频,为影片增添震撼视觉效果。

2. 广告与营销行业:快速生成吸引人的广告视频。根据产品特点和营销需求,生成包含产品展示、使用场景、特色亮点等内容的视频。为一款新上市的电子产品生成一段宣传视频,通过生动的画面和*突出产品的功能和优势,吸引消费者的关注。同时,其支持的动态字幕和*功能,能使广告视频更加生动有趣,提升广告的吸引力和传播效果。

3. 教育与培训场景:教师可以制作生动的教学视频,将抽象的知识通过具体的视频场景展示出来,增强教学的互动性和趣味性。在讲解物理课程中的力学原理时,生成物体受力运动的模拟视频,帮助学生更好地理解知识。对于文化教育内容,也可生成历史事件模拟视频、艺术作品创作过程视频等,丰富教育资源。

4. 个人创作者平台:降低了个人创作者的视频创作门槛,即使没有专业的视频制作技能,也能通过简单的文字输入或图像上传,创作出富有创意的视频内容。个人创作者可以利用它生成短视频素材、虚拟直播背景视频等,满足个性化的创作需求,在社交媒体平台上分享独特的作品,吸引更多关注 。

五、最新动态

wan2.2视频模型开源

2025年7月28日晚,阿里开源电影级视频生成模型通义万相Wan2.2,引发创作者与开发者关注。

此次同步开源三款模型:文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)及统一视频生成(Wan2.2-IT2V-5B)。其中前两者为业界首批采用 MoE 架构的视频模型,总参数量 27B、激活参数 14B,可节省 50% 计算资源;通过高 / 低噪声专家模型分工,在复杂运动生成、人物交互上表现突出。

功能上,其首创电影美学控制系统,能通过关键词*调控光影、色彩等电影级元素。单次可生成 5 秒高清视频,支持多轮提示词制作短剧,未来将提升生成时长。

5B 小尺寸的 Wan2.2-IT2V-5B 模型,支持文生 / 图生视频,采用高压缩率 3D VAE 架构,仅需 22G 显存(消费级显卡),几分钟即可生成 5 秒 720P/24 帧视频,速度*同规格模型。

目前开发者可在 GitHub 等平台下载,企业可调用阿里云百炼API,普通用户可通过通义万相官网及App体验。

本文标签:
上一篇::Veo
下一篇::海螺视频APP