合作模型开发商
OABAGGoogle
xBKMC
OpenAI
GPT 系列大语言模型及 TTS 语音合成的开发商
Anthropic
Claude 系列大语言模型开发商,专注安全与对齐
ByteDance
Seedream / Seedance / Dreamina 系列视觉模型的开发商
Alibaba
Wan 系列及 Qwen 系列模型的开发商
Gemini 系列大语言模型的开发商
xAI
Grok 系列大语言模型的开发商
Black Forest Labs
FLUX 系列图像编辑模型的开发商
Kuaishou
Kling 视频生成模型的开发商
Mistral
欧洲领先的开源大语言模型开发商
Cheng et al.
MMAudio 视频转音频模型的研究团队(UIUC / Sony Research)
🖼️
图像生成模型
从文字描述生成高质量图片,支持多种风格和分辨率。
| 模型 | 开发商 | 说明 | 等级 |
|---|---|---|---|
| Seedream 4.5 | ByteDance | 最新旗舰 · 原生中英双语 · 4K 超清 | 标准 |
| Seedream 4 | ByteDance | 高质量图像生成 · 中英双语 | 快速 |
| Dreamina 3.1 | ByteDance | 高保真美学风格 · 艺术感强 | 高端 |
| Qwen Image | Alibaba | 20B 参数 · 中文文字渲染优秀 | 标准 |
| Wan 2.6 Image | Alibaba | Wan 系列图片版 · 高分辨率 | 快速 |
✏️
图像编辑模型
上传现有图片进行编辑、增强或风格转换。
| 模型 | 开发商 | 说明 | 等级 |
|---|---|---|---|
| FLUX Kontext Pro | Black Forest Labs | 上下文感知编辑 · 修图/修文字首选 | 高端 |
| FLUX Kontext Pro Multi | Black Forest Labs | 多图上下文编辑 · 风格一致性 | 高端 |
| UNO | ByteDance | 通用图像编辑 · 图文混合 | 标准 |
| Real-ESRGAN | Xintao Wang et al. | 图像超分辨率增强 · 画质提升 | 快速 |
🎬
视频生成模型(文字转视频)
通过文字描述自动生成短视频,部分模型支持同步生成音频。
| 模型 | 开发商 | 说明 | 等级 |
|---|---|---|---|
| Wan 2.2 — 480p Ultra Fast | Alibaba | 极速生成 · 约 5 秒出片 | 快速 |
| Wan 2.2 — 720p | Alibaba | 高清分辨率 | 标准 |
| Wan 2.6音频 | Alibaba | 最新 Wan 系列 · 支持音频生成 · 最佳画质 | 标准 |
| Seedance 1.5 Pro音频 | ByteDance | 电影级画质 · 支持音频生成 | 高端 |
| Kling Video O3 | Kuaishou | 最佳运动质量 · 动态效果一流 | 高端 |
🎞️
视频生成模型(图片转视频)
将静态图片转化为动态视频,赋予图片生命力。
| 模型 | 开发商 | 说明 | 等级 |
|---|---|---|---|
| Wan 2.2 i2v — 480p Fast | Alibaba | 图片转视频 · 快速生成 | 快速 |
| Wan 2.2 i2v — 720p | Alibaba | 图片转视频 · 高清 | 标准 |
| Seedance 1.5 Pro i2v音频 | ByteDance | 图片转视频 · 电影级 · 支持音频 | 高端 |
📝
文字生成模型
多家领先 AI 大语言模型,用于社交内容创作、改写和优化。
| 模型 | 开发商 | 说明 | 等级 |
|---|---|---|---|
| GPT-4o | OpenAI | 旗舰级 · 综合能力最强 | 高端 |
| GPT-4o Mini | OpenAI | 轻量快速 · 性价比高 | 快速 |
| GPT-5 | OpenAI | 最新旗舰模型 | 高端 |
| Claude Sonnet 4 | Anthropic | 出色的写作质量 | 高端 |
| Claude 3.5 Haiku | Anthropic | 快速 · 高性价比 | 快速 |
| Gemini 2.5 Flash | 极速 · 低成本 | 快速 | |
| Gemini 2.5 Pro | 高性能推理 | 高端 | |
| Grok 3 | xAI | 实时感知 · 紧跟热点 | 高端 |
| Grok 3 Mini | xAI | 轻量快速 | 快速 |
| Mistral Small | Mistral | 高效欧洲模型 | 快速 |
| Mistral Medium | Mistral | 均衡性能 | 标准 |
🎙️
语音合成模型
将文字转换为自然语音,支持多种音色和语速调节。
| 模型 | 开发商 | 说明 | 等级 |
|---|---|---|---|
| TTS-1 | OpenAI | 高品质文字转语音 · 6 种音色 | 标准 |
可选音色: Alloy · Echo · Fable · Onyx · Nova · Shimmer
🎵
背景音乐生成模型
根据视频内容和文字描述自动生成同步的背景音乐,无需额外素材。
| 模型 | 开发商 | 说明 | 等级 |
|---|---|---|---|
| MMAudio V2 | Cheng et al. | 视频转音频 · 多模态同步 · 高质量背景音乐生成 | 标准 |
🗣️
视频旁白模型
AI 自动分析视频内容并生成配音旁白。该功能由两个模型协作完成:先用 Gemini 2.5 Flash 分析视频画面,再用 TTS-1 将生成的脚本转换为语音。
| 模型 | 开发商 | 说明 | 等级 |
|---|---|---|---|
| Gemini 2.5 Flash分析 | 视频内容分析 · 自动生成旁白脚本 | 快速 | |
| TTS-1合成 | OpenAI | 旁白语音合成 · 6 种音色 | 标准 |
旁白风格: 专业 · 轻松 · 戏剧化 · 纪录片 · 活力
模型等级说明
快速
生成速度最快,费用最低,适合快速迭代和日常使用。
标准
速度与质量的最佳平衡,推荐大多数场景使用。
高端
最高质量输出,适合专业创作和重要内容发布。