最近在尝试做一个“文本生成视频”的工作流。

核心目标很简单：

输入一段文本，自动生成适合账号矩阵发布的视频内容。

最终效果类似：

幻灯片式镜头切换
图片动态化
简单转场
AI 配音
自动拼接成长视频

本质上，是一个低成本的 AI 短视频生产流水线。

第一版：全自动 n8n 工作流

一开始，我尝试做的是“全自动方案”。

整体流程如下：

上传一张图片
通过 n8n 自动生成多个脚本
使用脚本调用 OpenRouter 的 Video API
批量生成多个视频片段
最后通过 FFmpeg 拼接成长视频

理论上，这是一套完全自动化的内容生成链路。

但实际运行后，我很快发现几个问题：

视频模型调用成本太高
输出质量不稳定
对新手不友好
Prompt 很难精准控制
场景一致性非常差

最终，我放弃了“完全自动化”的方向，转而采用“半手动工作流”。

原因也很简单：

AI 视频生成这件事，目前最大的成本不是算力，而是“可控性”。

纯手动方案踩过的坑

1. AI 味太重

这是最明显的问题。

早期生成的视频会有一种非常明显的“AI 感”：

镜头逻辑混乱
场景缺少真实感
画面像 PPT
人物动作不自然

后来我发现：

Prompt 不能只描述内容，还要描述镜头语言。

例如：

运镜方式
镜头焦段
场景布局
光线
情绪
旁白节奏

这些细节会明显降低 AI 感。

2. 字幕合并问题

最开始，我尝试用 FFmpeg 自动合并字幕。

但后面发现：

字幕时间轴很难精准对齐
AI 配音节奏不稳定
不同平台字幕样式差异大

后来我直接放弃了“程序内嵌字幕”。

改成：

只生成音频和视频
最后用剪映之类的软件自动识别字幕

反而效率更高。

3. 文本、字幕、MP3 无法同步

这是 n8n 工作流里最头疼的问题之一。

经常会出现：

原文长度变了
TTS 语速变化
字幕时间轴漂移
MP3 与字幕对不上

后来我意识到：

自动化链路越长，误差累积越严重。

所以最后我直接绕过字幕系统。

4. 无法指定稳定女声

很多 TTS 平台虽然能生成语音，但：

声音不稳定
情绪机械
无法固定角色音色

最后我使用了 Minimax 的音频 API。

通过指定新闻类女声作为音源，最终生成的 MP3 稳定了很多。

5. 场景一致性问题

这是目前依然没有彻底解决的问题。

AI 视频生成最大的难点之一就是：

前后镜头的人物、服装、环境，很难保持一致。

我现在的做法是：

先把文本或图片丢给 NotebookLM
生成一个基础视频
从视频中抽取关键帧
让 AI 分析这些关键帧的风格
自动生成统一的场景描述词
再使用 SenseTime 秒画（Seko）生成分镜和视频

这个方案虽然不完美，但能一定程度提升风格统一性。

图片版权与水印问题

做矩阵内容时，图片版权是绕不开的问题。

目前我的处理方式比较粗暴：

去水印
二次生成
风格重绘

常用工具：

其中：

Online Video Cutter 用于简单去水印和视频裁剪
TurboScribe 用于提取音频与转录

不过这里还是建议：

尽量使用可商用素材，避免后期版权风险。

关于 Video Model 成本

最开始最大的顾虑其实是：

Text-to-Video 模型实在太贵了。

尤其是批量生成时，成本会被迅速放大。

但后来找到了一些免费方案后，这部分压力就小很多了。

当然：

免费方案通常有限速
有积分限制
生成质量也不一定稳定

所以本质上是在：

成本、质量、速度之间做平衡。

这套手动工作流的优缺点

优点

1. 定制化程度高

因为是纯手动：

每个镜头都能调整
Prompt 可以单独优化
更容易做差异化内容

2. 成本很低

除了时间成本之外：

API 消耗很少
基本不需要高额 GPU 开销

对于个人玩家来说比较友好。

3. 后期有机会固化成工作流

虽然现在还是偏手工。

但长期来看：

结合 OpenClaw 之类的工具，完全有机会沉淀成固定流程。

比如：

自动拆分脚本
自动生成镜头描述
自动 TTS
自动拼接视频

最终形成半自动内容工厂。

缺点

1. 对新手非常痛苦

因为涉及：

Prompt
FFmpeg
TTS
视频拼接
分镜
AI 视频模型

学习成本并不低。

2. 时间成本极高

虽然人民币成本低。

但会消耗大量时间。

尤其是：

调 Prompt
修镜头
统一风格

这些步骤非常耗精力。

3. 平台限制很多

目前大多数 AI 平台都有：

次数限制
积分限制
排队机制
分辨率限制

工作流稳定性其实并不高。

4. 内容方向容易单一

这种工作流目前更适合：

情绪类内容
解说类内容
AI 幻灯片视频

但在：

真人剧情
强叙事
高互动内容

上，扩展性依然有限。

最后的思考

做完这一轮之后，我最大的感受是：

AI 视频生成，目前还远远没有到“一键自动化”的阶段。

真正耗时间的不是生成本身。

而是：

风格控制
场景统一
镜头语言
节奏感
内容结构

所以现阶段更现实的方向可能是：

“AI 辅助创作”，而不是“AI 完全替代创作”。

至少在短视频领域，依然如此。

我是如何低成本搭建 AI 批量视频生成工作流的