全模态API 就在aa.com.cn
企业级 LLM兼容Claude-Code 视频统一接口 全球加速网络
happyhorse-1.0-t2v
HappyHorse-1.0-T2V supports text-to-video generation, featuring highly realistic dynamic rendering. It accurately comprehends text semantics to produce high-quality videos that are fluid, natural, and rich in detail.
happyhorse-1.0-r2v
HappyHorse-1.0-I2V enables image-to-video generation, featuring highly realistic dynamic rendering. It accurately comprehends both text and image semantics to produce high-quality videos that are fluid, natural, and rich in detail.
happyhorse-1.0-i2v
HappyHorse-1.0-I2V enables image-to-video generation, featuring highly realistic dynamic rendering. It accurately comprehends both text and image semantics to produce high-quality videos that are fluid, natural, and rich in detail.
glm-5.1
GLM-5.1是智谱AI推出的面向长程任务(Long Horizon Task)设计的模型,总参数744B,支持200K超长上下文,最大输出 128K tokens。拥有强大逻辑推理、长文本理解与代码生成能力、兼顾性能与推理效率;在多任务基准中表现优异,适用于智能交互、企业应用、开发辅助等场景。
deepseek-v4-pro
旗舰级 MoE 大模型,总参1.6T、激活 49B,原生支持百万级超长上下文。依托海量高质量训练数据,具备顶尖数学逻辑、复杂推理、专业代码与长文本深度解析能力,适配高阶科研、复杂办公、深度智能代理等高难度场景。
deepseek-v4-flash
高效轻量化MoE模型,总参284B,激活13B,原生支持百万超长上下文能力。推理速度快、延迟低、调用成本低廉,综合能力均衡,主打高并发、轻量化任务,适合日常对话、内容创作、基础 RAG、批量文案处理等普惠刚需场景。
qwen-flash-character
千问系列多语言角色扮演模型,本模型是动态更新版本,模型更新会提前通知,适合拟人化的角色扮演,同时优化了限定人设指令遵循、话题推进、倾听共情等能力,支持个性化角色的深度还原。
kimi-k2.5
kimi-k2.5是月之暗面迄今发布最全能的模型,原生多模态架构设计,同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务。
wan2.7-r2v
万相2.7-参考生视频,更加稳定的角色、道具与场景参考,支持最大5个图/视频混合参考,支持音频音色参考,搭配基础能力升级实现更强表演能力。
wan2.6-r2v
万相2.6-参考生视频,支持指定人物或任意物品进行参考,精准保持形象和声音的一致性,支持多角色参考合拍
wan2.6-r2v-flash
万相2.6-参考生视频-Flash,生成更快性价比更高。支持指定人物或任意物品进行参考,精准保持形象和声音的一致性,支持多角色参考合拍
wan2.7-videoedit
万相2.7-视频编辑,自然语言指令编辑视频,支持局部或全局编辑,可参考图像替换视频元素,支持复刻视频动作、特效、运镜等动态过程。
wan2.7-i2v
万相2.7-图生视频,演绎能力全面升级,文戏情感细腻自然,动作戏激烈拳拳到肉,搭配更富有戏剧性和节奏感的镜头切换,实现更强表演能力。
wan2.7-t2v
万相2.7-文生视频,演绎能力全面升级,文戏情感细腻自然,动作戏激烈拳拳到肉,搭配更富有戏剧性和节奏感的镜头切换,实现更强表演能力。
wan2.7-image-pro
万相2.7-图像生成与编辑旗舰版模型,支持文生图、文生组图、图生组图、图像编辑、多图参考生成、交互式编辑,在文字渲染、主体一致性、复杂指令遵循上都有更强表现。
wan2.7-image
万相2.7-图像生成与编辑,支持文生图、文生组图、图生组图、图像编辑、多图参考生成、交互式编辑,在文字渲染、主体一致性、复杂指令遵循上都有更强表现
kimi-k2.6
kimi-k2.6是Kimi最新最智能的模型,具备更强更稳的长程代码编写能力,指令遵循和自我纠错能力显著提升,同时支持文本、图片与视频输入,思考与非思考模式,对话与Agent任务。
qwen3-coder-flash
基于Qwen3的代码生成模型,继承Qwen3-Coder-Plus的coding agent能力,支持多轮工具交互,重点优化仓库级别理解能力并增加工具调用稳定性。
qwen3.5-397b-a17b
Qwen3.5系列397B-A17B原生视觉语言模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。在语言理解、逻辑推理、代码生成、智能体任务、图像理解、视频理解、图形用户界面(GUI)等多种任务中,均展现出与当前顶尖前沿模型相媲美的卓越性能。具备强大的代码生成与智能体能力,对于各类智能体场景具有良好的泛化性。
qwen3.5-122b-a10b
Qwen3.5系列122B-A10B原生视觉语言模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。该模型的综合表现仅次于Qwen3.5-397B-A17B,文本能力显著优于Qwen3-235B-2507,视觉能力优于Qwen3-VL-235B。
qwen3.6-35b-a3b
Qwen3.6系列35B-A3B原生视觉语言模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。模型效果相较3.5-35B-A3B显著提升了agentic coding能力、数学推理和代码推理能力、空间智能能力、物体定位与目标检测能力。
qwen3.6-flash
Qwen3.6原生视觉语言系列Flash模型,模型效果相较3.5-Flash显著提升。本模型重点提升agentic coding能力(在多项代码智能体基准上大幅超越前代)、数学推理和代码推理能力;视觉方面在空间智能能力上显著增强,物体定位与目标检测提升尤为突出。
qwen3-vl-30b-a3b-thinking
Qwen3-VL系列第二大MoE模型的Thinking版本,响应速度快,具备更强多模态理解与推理、视觉智能体、长视频长文档等超长上下文支持能力;全面升级图像/视频理解、空间感知与万物识别能力,胜任复杂现实任务。
qwen3-vl-30b-a3b-instruct
Qwen3-VL系列第二大MoE模型的Instruct版本,响应速度快,支持长视频长文档等超长上下文;全面升级图像/视频理解、空间感知与万物识别能力;具备视觉2D/3D定位能力,胜任复杂现实任务。
qwen3-vl-32b-thinking
Qwen3-VL系列最大尺寸Dense模型的推理版本,多模态推理能力仅次于Qwen3-VL-235B-Thinking,STEM&数学类解题能力、通用图像和视频理解能力出众,多模态Agent能力达到SOTA,适合做复杂多模态推理任务。
qwen3-vl-32b-instruct
Qwen3-VL系列最大尺寸Dense模型的非推理版本,综合表现仅次于Qwen3-VL-235B-Instruct,文档识别和理解能力出色,空间感知与万物识别能力强,视觉2D检测/空间推理能力达到SOTA,适合通用场景下的复杂感知任务。
qwen3-coder-next
Qwen3系列新一代代码生成模型,效果接近Qwen3-Coder-Plus兼具更优性能。模型重点优化仓库级别理解、支持多轮工具交互、提升对于agentic coding类工具的适配能力。
qwen-plus-character
千问系列角色扮演模型,本模型是动态更新版本,模型更新会提前通知,适合拟人化的角色扮演,同时优化了限定人设指令遵循、话题推进、倾听共情等能力,支持个性化角色的深度还原。
qwen3-coder-plus
基于Qwen3的代码生成模型,具有强大的Coding Agent能力,擅长工具调用和环境交互,能够实现自主编程、代码能力卓越的同时兼具通用能力。
qwen-plus-latest
千问系列能力均衡的模型,推理效果和速度介于Qwen-Max和Qwen-Turbo之间,适合中等复杂任务。本模型是动态更新版本,模型更新不会提前通知。
qwen-plus
千问超大规模语言模型增强版,支持中文英文等不同语言输入。相对于之前版本,中英文code能力、逻辑能力、多语言能力显著提升,回复风格面向人类偏好进行大幅调整,模型回复详实程度和格式清晰度明显改善,创作类专项、json格式遵循专项、角色扮演专项能力定向提升。
qwen3-max-preview
千问3系列Max模型Preview版本,相较2.5系列整体通用能力有大幅度提升,中英文通用文本理解能力、复杂指令遵循能力、主观开放任务能力、多语言能力、工具调用能力均显著增强;模型知识幻觉更少。
qwen3.6-plus
Qwen3.6-Plus 被定义为“全能型智慧大脑”。它不仅是一个对话机器人,更是一个具备深度逻辑推演能力的专业助手。相比于 3.0 或 3.5 版本,3.6-Plus 在长文本处理的稳定性和复杂指令的遵循度上进行了大幅强化。
glm-5
GLM-5是面向Coding与Agent场景的新一代大模型,在复杂系统工程与长程任务中达到开源 SOTA,真实编程体验逼近 Claude Opus 级别;基于 744B 新基座、异步强化学习与稀疏注意力,实现从“写代码”到“写工程”的全面升级。
glm-4.7
智谱最新旗舰,具备更强的编程能力与更稳定的多步骤推理/执行能力。总参数355B,支持长程任务规划、编码、工具协同,问答自然、写作沉浸、创意角色扮演能力强。
qwen3.5-35b-a3b
Qwen3.5系列35B-A3B原生视觉语言模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。该模型的综合表现接近于Qwen3.5-27B。
qwen3.5-27b
Qwen3.5系列27B原生视觉语言Dense模型,融合了线性注意力机制;响应速度快,兼具推理速度和性能。该模型的综合能力接近于Qwen3.5-122B-A10B。
qwen-flash
Qwen3系列Flash模型,实现思考模式和非思考模式的有效融合,可在对话中切换模式。复杂推理类任务性能优秀,指令遵循、文本理解等能力显著提高。支持1M上下文长度,按照上下文长度进行阶梯计费。
qwen3.5-flash
Qwen3.5原生视觉语言系列Flash模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。模型效果在纯文本与多模态方面相较3系列均实现飞跃式进步;响应速度快,兼具推理速度和性能。
doubao-seedance-2-0-fast-260128
豆包视频生成模型Seedance 1.5 pro 作为全球领先的视频生成模型,可生成音画高精同步的视频内容。支持多人多语言对白,全面覆盖环境音、动作音、合成音、乐器音、背景音及人声,支持首尾帧,实现影视级叙事效果,满足影视、漫剧、电商及广告领域的高阶创作需求
doubao-seedance-2-0-260128
豆包视频生成模型Seedance 1.5 pro 作为全球领先的视频生成模型,可生成音画高精同步的视频内容。支持多人多语言对白,全面覆盖环境音、动作音、合成音、乐器音、背景音及人声,支持首尾帧,实现影视级叙事效果,满足影视、漫剧、电商及广告领域的高阶创作需求
wan2.5-i2i-preview
Wan2.5-图像编辑-Preview,全新升级模型架构。支持指令控制实现丰富的图像编辑能力,指令遵循能力进一步提升,支持高一致性保持的多图参考生成,文字生成表现优异。
wan2.6-image
万相2.6-图像生成,全能图像生成模型,支持图文一体化推理生成,具备多图创意融合、商用级一致性、美学要素迁移与镜头光影精确控制,全面提升图像生成的一致性、可控性和表现力。
qwen-image-edit
千问系列首个图像编辑模型,成功将Qwen-Image的文本渲染能力拓展到编辑任务上。支持精准的中英双语文字编辑、视觉外观与语义双重编辑、具备强大的跨基准性能表现。
qwen-image-edit-plus
千问系列图像编辑Plus模型,在首版Edit模型基础上进一步优化了推理性能与系统稳定性,大幅缩短图像生成与编辑的响应时间;支持单次请求返回多张图片,显著提升用户体验。
qwen-image-edit-max
千问图像编辑模型Max系列,提供更稳定、更丰富的编辑能力:提升工业设计与几何推理能力;提升角色一致性;减轻偏移问题;集成Lora能力,可以进行更多功能的图像编辑。
z-image-turbo
Z Image Turbo 是由阿里巴巴通义实验室开发的突破性 60 亿参数 AI 图像生成模型,于 2025 年 11 月 26 日发布。这个强大的 z image 模型代表了文生图技术的前沿,在著名的 Artificial Analysis 排行榜上总排名第 8,同时稳居开源模型第 1 位。 z image 平台在三个关键领域表现卓越:闪电般的速度、照片级的质量和卓越的效率。支持中英文双语文字渲染,z image 成为全球创作者的多功能工具。在宽松的 Apache 2.0 开源许可下发布,z image 让每个人都能使用专业级 AI 图像生成。
qwen-image-plus
千问系列图像生成模型,参数规模200亿。具备卓越的文本渲染能力,在复杂文本渲染、各类生成与编辑任务重表现出色,在多个公开基准测试中获得SOTA,模型性能大幅提升。
qwen-image-max
千问系列图像生成模型,具备卓越的文本渲染能力,在复杂文本渲染、各类生成与编辑任务重表现出色。此版本为2026年1月9日快照,为Qwen-Image-Max的蒸馏加速版,可以更快速地生成高质量图片。
Doubao-Seedream 3.0
Seedream 3.0是字节跳动于2025年4月19日推出的文本生成图像模型,在内部及外部评测中性能表现优于前代Seedream 2.0,并与GPT-4o、Midjourney v6.1、Imagen 3等主流模型形成竞争态势。该模型原生支持2K分辨率输出,兼容更高分辨率及任意宽高比,适配多场景应用。
Doubao-SeedEdit-3.0-i2i
Doubao-SeedEdit-3.0-i2i 是由火山引擎(ByteDance)推出的图像到图像(Image-to-Image)生成模型,专注于根据文本指令对输入图像进行精准编辑,同时高保真保留原始图像中未修改区域的细节。
kling-v3
Kling 3.0 AI是于2026年2月5日推出的AI视频生成工具,属于专业级影视生产系统,包含Video 3.0、Image 3.0等系列模型。该产品支持原生2K/4K超高清视频输出,适配大银幕显示需求,通过Canvas Agent实现多角度场景扩展与自动化电影制作流程。
kling-v3-omni
Kling-V3-Omni 是由可灵AI(Kling AI)于2026年1月31日发布、2026年2月5日正式上线的AI视频生成模型,属于 Kling 3.0 系列 中的核心产品之一,专注于多模态输入输出的视频生成与编辑任务。
wan2.6-i2v
万相2.6-图生视频,智能分镜调度支持多镜头叙事,更高品质的声音生成,多人稳定对话,更自然真实音色,最高支持15秒时长生成
Doubao-Seedream 4.0
Seedream 4.0(别称豆包图像创作模型)是字节跳动Seed团队于2025年9月9日推出的多模态图像生成模型,支持文生图、图像编辑及多图参考功能。
Doubao-Seedream-5.0-lite
Seedream 5.0 Lite是字节跳动Seed团队于2026年春节前夕推出的智能图像创作模型,是豆包大模型2.0系列的组成部分。该模型相比4.0版本,在理解、推理和生成方面进行了改进,能理解用户指令意图、分析画面规律并将相关知识应用于创作中。Seedream 5.0 Lite支持联网检索,生成的图片可用于商业用途。
deepseek-v3.2
DeepSeek-V3.2是引入DeepSeek Sparse Attention(一种稀疏注意力机制)的正式版模型,也是DeepSeek推出的首个将思考融入工具使用的模型,同时支持思考模式与非思考模式的工具调用。
qwen3-235b-a22b
Qwen3-235B-A22B 是阿里巴巴通义实验室(Qwen 团队)于 2025 年推出的旗舰级开源大模型。该模型采用了先进的“混合专家架构”(MoE),旨在通过极大的总参数量提供顶尖性能,同时保持较低的实际推理成本。
qwen3-max
千问3系列Max模型,相较preview版本在智能体编程与工具调用方向进行了专项升级。本次发布的正式版模型达到领域SOTA水平,适配场景更加复杂的智能体需求。
qwen3.5-plus
Qwen3.5原生视觉语言系列Plus模型,基于混合架构设计,融合了线性注意力机制与稀疏混合专家模型,实现了更高的推理效率。在多项任务评测中,3.5系列均展现出与当前顶尖前沿模型相媲美的卓越性能,模型效果在纯文本与多模态方面相较3系列均实现飞跃式进步。
MiniMax-Hailuo-02
Minimax Hailuo 2.0是一款支持文本生成视频和图片生成视频的 AI 视频生成模型。它可以生成 6 秒的 768P 或 1080P 分辨率视频,以及 10 秒的 768P 分辨率视频。
MiniMax-Hailuo-2.3-Fast
Minimax Hailuo 2.3 Fast 在保持优异画质与表现力的同时,大幅提升了生成速度,具备更高性价比。
MiniMax-Hailuo-2.3
Minimax Hailuo 2.3 是全新升级的视频生成模型,在肢体动作、物理效果和对指令的理解与执行能力等方面表现更为出色。
kling-v2-6
Kling 2.6 AI是快手公司于2025年12月推出的AI视频生成模型。该模型支持通过文本描述或静态图像生成视频,其核心突破在于首次实现了原生音画同步,可一次性输出包含画面、语音、音效与环境声的完整视频内容。它具备1080p高清画质,并引入了“动作控制”功能,能捕捉与复刻复杂人体动作。该模型在运动表现、角色一致性及中文理解方面具备相应能力。
kling-v2-5-turbo
可灵2.5 Turbo是快手于9月23日发布的视频生成模型,高品质模式(1080p)下生成5秒视频仅需25灵感值,比2.1模型便宜近30%,同时在文本响应、动态效果、风格保持和美学效果都有提升。
kling-v2-1-master
可灵 K21M(全称为 Kling K21M)是快手可灵 AI 系列中的一款高性能视频生成模型。它在保留了 1.0/2.0 版本强大物理特性的基础上,重点强化了音画同步与跨模态指令遵循的能力。
kling-v2-1
可灵 K21 是目前可灵系列中的主力旗舰模型。它在底层采用了更加先进的 DiT(Diffusion Transformer)架构,并融合了大规模的时空注意力机制,使其在理解现实世界物理规律和执行复杂运镜指令上,达到了全球领先的水平。
kling-v2
K20 定位于“高质量动态视觉生成模型”。它是首个在 DiT(Diffusion Transformer)架构基础上,深度解决了视频生成中“肢体崩坏”和“物理反馈缺失”问题的版本。在可灵的发展史中,K20 的出现让 AI 视频从“GIF 动图感”真正进化到了“短片感”。
kling-v1-6
Kling 1.6 定位于专业级 AI 视频生成工具,通过引入更先进的底层架构(集成 DeepSeek 提示词解析能力),实现了从简单的“画面动起来”到“受控的电影级叙事”的进化。
AiSphere-V5.5
AiSphere P55 是 AiSphere 视觉实验室在 2026 年初推出的新一代超写实视频生成大模型。 该模型在行业内被称为“物理引擎级”的 AI 视频系统,它最大的突破在于将大规模扩散模型(Diffusion)与实时物理演算(Physics Engine)进行了深度耦合,主要针对电影工业和高端数字孪生场景设计。
AiSphere-V5
AiSphere P50 是 AiSphere 视觉实验室于 2025 年末推出的高性能专业级视频生成模型。 作为 P55 的前任版本或与其并行的“高效率版”,P50 在 AI 视频领域确立了“受控生成”的新标准。它是 AiSphere 首次在大规模商用环境下,实现将文本指令转化为具有强逻辑物理反馈和极致美学质感视频的代表作。 P50 定位于“生产力工具级视频引擎”。它旨在解决 AI 视频生成中最常见的“画面漂移”和“不可控性”痛点。通过引入中层物理约束架构,P50 能够生成运动轨迹明确、主体结构稳定的专业影像,广泛应用于自媒体、广告设计和初步影视开发。
AiSphere-V4.5
AiSphere P45 是 AiSphere 视觉实验室在 2025 年发布的进阶级视频生成模型。 在 AiSphere 的 P 系列演进中,P45 扮演了“轻量化电影感”先锋的角色。它是该系列中首个大规模应用 时空解耦注意力机制(Decoupled Spatio-Temporal Attention) 的型号,旨在以较低的算力成本实现极具真实感的运动视觉效果。
AiSphere-V4
AiSphere P40 是 AiSphere 视觉实验室于 2024 年底推出的高性能视频生成模型。 作为 P 系列(Physics-enhanced 系列)的基石型号,P40 的发布标志着 AiSphere 正式从实验性模型转向商用级生产力工具。它在行业内首次确立了“物理真实性”与“生成速度”的平衡标准,为后续更高级的 P45 和 P50 奠定了架构基础。 P40 被定位为“写实影像的入门级旗舰”。它的主要任务是解决早期 AI 视频中常见的“果冻感”(形变严重)和“光影逻辑错误”。它针对 1080P 高清短视频创作进行了专项优化,是当时市场上最稳定、出图率最高的模型之一。
AiSphere-V3.5
AiSphere P35 是 AiSphere 视觉实验室于 2024 年中旬发布的轻量化视频生成模型。 在 AiSphere 的 P 系列(Physics-enhanced 系列)演进过程中,P35 扮演了**“效率优先”**的角色。它是该系列从实验室原型向商业应用转化的重要过渡型号,重点提升了生成速度和对简单动态逻辑的掌控力。 P35 定位于**“短视频生产力引擎”。它的开发目标是让用户能在极短的时间内(通常在 30 秒以内)产出具有高质量视觉观感的短片段。相比后续追求复杂物理交互的 P40 或 P50,P35 更侧重于画面的色彩饱和度和视觉冲击力**。
viduq3-pro
Vidu-VQ3P 是生数科技(Shengshu AI)在 2025 年末至 2026 年初推出的新一代视觉量化预训练模型,属于 Vidu 视频生成大模型系列中的核心底层架构。
viduq2
Vidu VQ2(正式名称为 Vidu Q2)是生数科技(Shengshu AI)于 2025 年 9 月推出的新一代图生视频大模型。 作为 Vidu 系列的重要升级,Q2 版本在行业内首次提出了**“让 AI 学会演戏”**的概念,通过大幅提升角色的情感表达和一致性,将 AI 视频生成从“视觉奇观”推向了“工业化叙事”。
viduq2-pro-fast
Vidu-VQ2PF 定位于**“工业级短视频生产引擎”**。它旨在解决 AI 视频生成中常见的“生成时间过长”与“画质逻辑不稳定”之间的矛盾。通过对底层 VQ 架构的修剪与算法优化,它能在极短的时间内产出符合院线级视觉标准的 1080P 视频资产。
viduq2-pro
Vidu Q2 Pro(通常指 Vidu Q2 的“电影大片模式”或 2026 年初升级后的专业增强版)是生数科技(Shengshu AI)旗下视频生成模型系列中的旗舰型号。 在 Vidu 的产品序列中,Q2 系列标志着 AI 视频从“画面流动”进入了**“演技生成”**的新阶段。以下是它的核心简介: 1. 核心定位 Vidu Q2 Pro 被定义为“工业级影视叙事引擎”。相比于追求速度的“闪电模式”,Pro/电影大片模式专注于极致的细节表现力和复杂的情感传递。它不仅是生成视频,更是通过 AI 模拟人类演员的细微情绪和专业导演的镜头语言。
viduq2-turbo
Vidu Q2 Turbo(通常指 Vidu Q2 中的 “闪电出片模式”,或 2026 年初生数科技针对其实时性需求推出的极速版型号)是生数科技(Shengshu AI)为了平衡生成质量与响应速度而打造的一款高效率视频生成模型。 在 Vidu Q2 架构体系中,Turbo 版本代表了该系列在并行计算和推理优化上的巅峰,主要面向对效率有极高要求的自媒体、电商及开发者群体。
viduq1-classic
Vidu-VQ1C 是生数科技(Shengshu AI)在 2024 年底至 2025 年初 Vidu 早期迭代中的一个核心底层架构版本。 在 Vidu 的技术序列中,“VQ” 代表其核心的视觉量化架构(Visual Quantization),而 “1C” 通常指代该架构的第一代(Gen 1)“核心/受控版(Core/Controlled)”。它是 Vidu 从早期的实验性 Demo 走向商业化标准服务的关键基石。
vidu2.0
Vidu 2.0 是目前国内领先的高效、低成本、高一致性视频生成引擎。它在保持 Vidu 系列强悍的“物理真实感”和“动作复杂性”的同时,通过底层算法的重构,将视频生成的等待时间从分钟级压缩到了秒级。
viduq1-image
Vidu-VQ1-i 是一款专注于**“高可控、高一致性”**的图生视频工具。它的设计初衷是让静态的角色设定、摄影作品或产品图,在不改变原始主体特征的前提下,实现动态化和情感化表达。
viduq1
Vidu Q1 定位于**“极致高质量与深度可控”**。它不仅提升了画质,更通过底层架构的升级,解决了 AI 视频长久以来的“主体漂移”和“不可控”痛点,是专门为影视、广告、动漫短剧等高要求场景打造的生产力工具。
wan2.5-t2v-preview
万相2.5-文生视频-Preview,全新升级模型架构,支持与画面同步的声音生成,支持10秒长视频生成,更强的指令遵循能力,运动能力、画面质感进一步提升。
wan2.6-t2v
Wan2.6-文生视频,智能分镜调度支持多镜头叙事,能够生成主体、场景和氛围一致的多镜头叙事视频,最高支持15秒时长,更高品质的声音生成,更好的指令遵循和视觉质量
wan2.5-i2v-preview
万相2.5-图生视频-Preview,全新升级技术架构,支持与画面同步的声音生成,支持10秒长视频生成,更强的指令遵循能力,运动能力、画面质感进一步提升。
wan2.5-t2i-preview
万相2.5-文生图-Preview,全新升级模型架构。画面美学、设计感、真实质感显著提升,精准指令遵循,擅长中英文和小语种文字生成,支持复杂结构化长文本和图表、架构图等内容生成。
wan2.6-t2i
万相2.6-文生图,画面质感、美学表现、指令遵循升级,在艺术风格精准控制、真实感人像、长文本生图及广泛历史文化IP覆盖上均表现出卓越能力,可生成高质量且富有表现力的视觉内容。
即梦AI-图片生成4.0
即梦 4.0 实现了文生图、图像编辑、组图生成和多图参考的统一架构融合。它不仅提升了画质,更强调对复杂指令的理解和多图之间的逻辑关联。
OmniHuman1.5
OmniHuman-1.5是字节跳动于2025年8月底发布的AI视频生成模型,为其前身OmniHuman-1的升级版本。 该模型基于“全方位条件训练”理念,通过结合单张图像和音频输入生成动态视频。 其具备双人音频驱动功能,支持两个数字人同时对戏,还原口型与表情,并能解析语音情绪以匹配相应的表情与肢体语言。该模型支持通过文本提示词控制视频风格和动作,实现长达一分钟以上视频的时序连贯性和角色一致性。
即梦AI-文生图2.1(下线中)
即梦 2.1 是一款主打“极致中文理解与高质感画质”的专业图像生成模型。它针对中文创作者的语言习惯进行了深度优化,旨在解决以往国际模型对东方审美和复杂中文描述词理解不准的问题。
即梦3.0Pro
即梦 3.0 Pro 定位于“电影级叙事引擎”。它不再只满足于生成好看的画面,而是致力于解决专业创作者在视频制作中遇到的分镜衔接、主体一致性、多动作连贯等工业级难题。
wan2.6-i2v-flash
万相2.6-图生视频-Flash,生成更快更高性价比。智能分镜调度支持多镜头叙事,多人稳定对话,更自然真实音色,最高支持15秒时长生成
Doubao-Seedance-1.5-pro
豆包视频生成模型Seedance 1.5 pro 作为全球领先的视频生成模型,可生成音画高精同步的视频内容。支持多人多语言对白,全面覆盖环境音、动作音、合成音、乐器音、背景音及人声,支持首尾帧,实现影视级叙事效果,满足影视、漫剧、电商及广告领域的高阶创作需求
Doubao-Seedream 4.5
Doubao-Seedream 4.5 是字节跳动在 2026 年初发布的新一代全模态创意模型,也是即梦 AI(Dreamina)底层技术架构的最新演进版本。 在 4.5 版本中,字节跳动 Seed 团队彻底打通了图像生成与视频生成的底层逻辑,实现了从“像素模拟”向“世界模型 (World Model)”的深度进化。
Doubao-Seed-1.8
Doubao-Seed-1.8 定位于“全能型短视频创作引擎”。它旨在平衡视频的视觉美感与动作的复杂性,是当时市场上极少数能够同时处理大规模运动(如大幅度奔跑、飞翔)和细腻纹理(如皮肤、毛发)的模型之一。