最近在尝试做一个“文本生成视频”的工作流。
核心目标很简单:
输入一段文本,自动生成适合账号矩阵发布的视频内容。
最终效果类似:
- 幻灯片式镜头切换
- 图片动态化
- 简单转场
- AI 配音
- 自动拼接成长视频
本质上,是一个低成本的 AI 短视频生产流水线。
第一版:全自动 n8n 工作流
一开始,我尝试做的是“全自动方案”。
整体流程如下:
- 上传一张图片
- 通过 n8n 自动生成多个脚本
- 使用脚本调用 OpenRouter 的 Video API
- 批量生成多个视频片段
- 最后通过 FFmpeg 拼接成长视频
理论上,这是一套完全自动化的内容生成链路。
但实际运行后,我很快发现几个问题:
- 视频模型调用成本太高
- 输出质量不稳定
- 对新手不友好
- Prompt 很难精准控制
- 场景一致性非常差
最终,我放弃了“完全自动化”的方向,转而采用“半手动工作流”。
原因也很简单:
AI 视频生成这件事,目前最大的成本不是算力,而是“可控性”。
纯手动方案踩过的坑
1. AI 味太重
这是最明显的问题。
早期生成的视频会有一种非常明显的“AI 感”:
- 镜头逻辑混乱
- 场景缺少真实感
- 画面像 PPT
- 人物动作不自然
后来我发现:
Prompt 不能只描述内容,还要描述镜头语言。
例如:
- 运镜方式
- 镜头焦段
- 场景布局
- 光线
- 情绪
- 旁白节奏
这些细节会明显降低 AI 感。
2. 字幕合并问题
最开始,我尝试用 FFmpeg 自动合并字幕。
但后面发现:
- 字幕时间轴很难精准对齐
- AI 配音节奏不稳定
- 不同平台字幕样式差异大
后来我直接放弃了“程序内嵌字幕”。
改成:
- 只生成音频和视频
- 最后用剪映之类的软件自动识别字幕
反而效率更高。
3. 文本、字幕、MP3 无法同步
这是 n8n 工作流里最头疼的问题之一。
经常会出现:
- 原文长度变了
- TTS 语速变化
- 字幕时间轴漂移
- MP3 与字幕对不上
后来我意识到:
自动化链路越长,误差累积越严重。
所以最后我直接绕过字幕系统。
4. 无法指定稳定女声
很多 TTS 平台虽然能生成语音,但:
- 声音不稳定
- 情绪机械
- 无法固定角色音色
最后我使用了 Minimax 的音频 API。
通过指定新闻类女声作为音源,最终生成的 MP3 稳定了很多。
5. 场景一致性问题
这是目前依然没有彻底解决的问题。
AI 视频生成最大的难点之一就是:
前后镜头的人物、服装、环境,很难保持一致。
我现在的做法是:
- 先把文本或图片丢给 NotebookLM
- 生成一个基础视频
- 从视频中抽取关键帧
- 让 AI 分析这些关键帧的风格
- 自动生成统一的场景描述词
- 再使用 SenseTime 秒画(Seko) 生成分镜和视频
这个方案虽然不完美,但能一定程度提升风格统一性。
图片版权与水印问题
做矩阵内容时,图片版权是绕不开的问题。
目前我的处理方式比较粗暴:
- 去水印
- 二次生成
- 风格重绘
常用工具:
其中:
- Online Video Cutter 用于简单去水印和视频裁剪
- TurboScribe 用于提取音频与转录
不过这里还是建议:
尽量使用可商用素材,避免后期版权风险。
关于 Video Model 成本
最开始最大的顾虑其实是:
Text-to-Video 模型实在太贵了。
尤其是批量生成时,成本会被迅速放大。
但后来找到了一些免费方案后,这部分压力就小很多了。
当然:
- 免费方案通常有限速
- 有积分限制
- 生成质量也不一定稳定
所以本质上是在:
成本、质量、速度之间做平衡。
这套手动工作流的优缺点
优点
1. 定制化程度高
因为是纯手动:
- 每个镜头都能调整
- Prompt 可以单独优化
- 更容易做差异化内容
2. 成本很低
除了时间成本之外:
- API 消耗很少
- 基本不需要高额 GPU 开销
对于个人玩家来说比较友好。
3. 后期有机会固化成工作流
虽然现在还是偏手工。
但长期来看:
结合 OpenClaw 之类的工具,完全有机会沉淀成固定流程。
比如:
- 自动拆分脚本
- 自动生成镜头描述
- 自动 TTS
- 自动拼接视频
最终形成半自动内容工厂。
缺点
1. 对新手非常痛苦
因为涉及:
- Prompt
- FFmpeg
- TTS
- 视频拼接
- 分镜
- AI 视频模型
学习成本并不低。
2. 时间成本极高
虽然人民币成本低。
但会消耗大量时间。
尤其是:
- 调 Prompt
- 修镜头
- 统一风格
这些步骤非常耗精力。
3. 平台限制很多
目前大多数 AI 平台都有:
- 次数限制
- 积分限制
- 排队机制
- 分辨率限制
工作流稳定性其实并不高。
4. 内容方向容易单一
这种工作流目前更适合:
- 情绪类内容
- 解说类内容
- AI 幻灯片视频
但在:
- 真人剧情
- 强叙事
- 高互动内容
上,扩展性依然有限。
最后的思考
做完这一轮之后,我最大的感受是:
AI 视频生成,目前还远远没有到“一键自动化”的阶段。
真正耗时间的不是生成本身。
而是:
- 风格控制
- 场景统一
- 镜头语言
- 节奏感
- 内容结构
所以现阶段更现实的方向可能是:
“AI 辅助创作”,而不是“AI 完全替代创作”。
至少在短视频领域,依然如此。