最近在尝试做一个“文本生成视频”的工作流。

核心目标很简单:

输入一段文本,自动生成适合账号矩阵发布的视频内容。

最终效果类似:

本质上,是一个低成本的 AI 短视频生产流水线。


第一版:全自动 n8n 工作流

一开始,我尝试做的是“全自动方案”。

整体流程如下:

  1. 上传一张图片
  2. 通过 n8n 自动生成多个脚本
  3. 使用脚本调用 OpenRouter 的 Video API
  4. 批量生成多个视频片段
  5. 最后通过 FFmpeg 拼接成长视频

理论上,这是一套完全自动化的内容生成链路。

但实际运行后,我很快发现几个问题:

最终,我放弃了“完全自动化”的方向,转而采用“半手动工作流”。

原因也很简单:

AI 视频生成这件事,目前最大的成本不是算力,而是“可控性”。


纯手动方案踩过的坑

1. AI 味太重

这是最明显的问题。

早期生成的视频会有一种非常明显的“AI 感”:

后来我发现:

Prompt 不能只描述内容,还要描述镜头语言。

例如:

这些细节会明显降低 AI 感。


2. 字幕合并问题

最开始,我尝试用 FFmpeg 自动合并字幕。

但后面发现:

后来我直接放弃了“程序内嵌字幕”。

改成:

反而效率更高。


3. 文本、字幕、MP3 无法同步

这是 n8n 工作流里最头疼的问题之一。

经常会出现:

后来我意识到:

自动化链路越长,误差累积越严重。

所以最后我直接绕过字幕系统。


4. 无法指定稳定女声

很多 TTS 平台虽然能生成语音,但:

最后我使用了 Minimax 的音频 API。

通过指定新闻类女声作为音源,最终生成的 MP3 稳定了很多。


5. 场景一致性问题

这是目前依然没有彻底解决的问题。

AI 视频生成最大的难点之一就是:

前后镜头的人物、服装、环境,很难保持一致。

我现在的做法是:

  1. 先把文本或图片丢给 NotebookLM
  2. 生成一个基础视频
  3. 从视频中抽取关键帧
  4. 让 AI 分析这些关键帧的风格
  5. 自动生成统一的场景描述词
  6. 再使用 SenseTime 秒画(Seko) 生成分镜和视频

这个方案虽然不完美,但能一定程度提升风格统一性。


图片版权与水印问题

做矩阵内容时,图片版权是绕不开的问题。

目前我的处理方式比较粗暴:

常用工具:

其中:

不过这里还是建议:

尽量使用可商用素材,避免后期版权风险。


关于 Video Model 成本

最开始最大的顾虑其实是:

Text-to-Video 模型实在太贵了。

尤其是批量生成时,成本会被迅速放大。

但后来找到了一些免费方案后,这部分压力就小很多了。

当然:

所以本质上是在:

成本、质量、速度之间做平衡。


这套手动工作流的优缺点

优点

1. 定制化程度高

因为是纯手动:


2. 成本很低

除了时间成本之外:

对于个人玩家来说比较友好。


3. 后期有机会固化成工作流

虽然现在还是偏手工。

但长期来看:

结合 OpenClaw 之类的工具,完全有机会沉淀成固定流程。

比如:

最终形成半自动内容工厂。


缺点

1. 对新手非常痛苦

因为涉及:

学习成本并不低。


2. 时间成本极高

虽然人民币成本低。

但会消耗大量时间。

尤其是:

这些步骤非常耗精力。


3. 平台限制很多

目前大多数 AI 平台都有:

工作流稳定性其实并不高。


4. 内容方向容易单一

这种工作流目前更适合:

但在:

上,扩展性依然有限。


最后的思考

做完这一轮之后,我最大的感受是:

AI 视频生成,目前还远远没有到“一键自动化”的阶段。

真正耗时间的不是生成本身。

而是:

所以现阶段更现实的方向可能是:

“AI 辅助创作”,而不是“AI 完全替代创作”。

至少在短视频领域,依然如此。

转载请注明出处