脚本到短视频

热门·edit_document作者AI空间站官方·hub结构5 步 / 5 工具

从脚本到能发布的短视频成片，这条 AI 视频生成链路支持 AI 文生视频、AI 分镜、AI 配音和自动字幕，把目标收束、分镜规划、视频生成和成片包装拆成几步稳定推进。

涉及工具

ChatGPT Kimi Seedance 2.0 即梦 AI CapCut

流程概览

5 步 / 5 个入口

这条链路解决什么问题

手里有一段文案、一篇产品介绍或者一期直播回放，想变成一条能直接发抖音/视频号/小红书的短视频。不是做一段"看起来还行的 AI 演示片段"，而是做一条字幕、封面、节奏都到位、能真正上线测试数据的成品。

第一步 ChatGPT：把散材料压成 60 秒脚本

具体操作

打开 ChatGPT，给它一个明确的 prompt：

"我要做一条 45 秒的短视频，发抖音，目标用户是 [XX人群]，核心卖点是 [XX]。请基于以下材料帮我写一个短视频脚本，要求：开头 3 秒必须有 hook，正文 3-4 个信息点，结尾有明确的 CTA。"

然后把你的原始材料（产品介绍、长文案、直播片段的转录稿）贴进去。

关键技巧

先定平台再写脚本：抖音要求节奏快、开头有冲突；视频号可以稍微慢一些、讲故事；小红书偏种草分享。不同平台的脚本结构完全不同。
开头 3 秒写三版：让 ChatGPT 给你三个不同风格的开头——反问式、数字式、痛点式。选最有冲击力的那个。
一条片只讲一件事：最常见的错误是一条短视频塞了三四个卖点。把其他卖点留给后续的片子。
脚本里标注停顿和重音：在关键信息点后面加 [停顿 0.5 秒]，在数字和对比前加 [重音]。后面分镜和配音会用到。

这步的产出

一份 150-200 字的结构化脚本（开头 hook → 3-4 个信息点 → CTA），标注了停顿和重音位置。

第二步 Kimi：把脚本拆成分镜表

具体操作

把脚本发给 Kimi（建议 Thinking 模式），指令：

"把这个脚本拆成 4-6 个镜头段落，每段标明：持续时长、画面描述（给视频生成工具用的）、对应字幕文字、转场方式。输出格式用表格。"

关键技巧

每个镜头 5-10 秒：太短剪辑会碎，太长观众走神。
画面描述要具体：不要写"展示产品"，要写"近景：手持手机，屏幕上显示 APP 主界面，手指点击'开始'按钮"。越具体后面视频生成的效果越好。
字幕和画面要错开信息：如果画面已经在展示某个功能，字幕就不要重复描述同样的内容，而是补充一句判断或数据。

这步的产出

一张分镜表：4-6 行，每行包含镜头编号、时长、画面描述、字幕内容、转场方式。

第三步 Seedance / 即梦：生成核心镜头

用 Seedance 2.0

如果你追求画面质量和镜头连贯性：

把分镜表里的画面描述翻译成英文（Seedance 对英文 prompt 效果更好）
先只生成第 1 个和第 3 个镜头——最关键的开场和核心卖点
重点看：主体稳不稳？动作连不连贯？延长后会不会走形？
满意了再补其余镜头

用即梦 AI

如果你更看重中文界面和快速出片：

直接用中文描述输入
即梦的优势是出图快、操作简单、和抖音生态打通
适合日常产能需求——不追求极致画质，但要求快速试错

选哪个？

品牌广告、质感要求高 → Seedance
日常短视频、快速测试 → 即梦
建议同一套分镜两边都试一次，10 分钟就能比出来

关键提醒

先验证再铺量：不要一口气把 6 个镜头全生成完。先做 1-2 个最关键的，确认方向和质量对了再继续。
延长测试必须做：很多 AI 视频工具首段惊艳，一延长就崩。每个镜头至少试一次延长，看主体会不会变形。

第四步 CapCut：从素材到成品

基础操作

把生成的视频片段和口播音频导入 CapCut
按分镜表的顺序排列，调整每段时长
加自动字幕（文本 → 自动字幕 → 选语言）
手动校对字幕（尤其是产品名、数字和专业术语）

平台适配

平台	画幅	建议时长	注意事项
抖音	9:16	30-60 秒	开头 hook 必须强
视频号	9:16 / 16:9	30-180 秒	可以稍慢节奏
小红书	3:4 / 1:1	30-90 秒	封面比内容更重要
B站	16:9	60-300 秒	可以更长更详细

成品检查清单

发布前过一遍：

[ ] 开头 3 秒有没有 hook？
[ ] 字幕有没有错别字？关键数字对不对？
[ ] 封面图是单独做的还是视频截帧？（前者点击率高很多）
[ ] 结尾有没有 CTA（关注/评论/链接）？
[ ] 不同平台的画幅和时长是否适配？

精简版链路

如果内容以真人口播为主，不需要 AI 生成画面：ChatGPT 写脚本 → 手机录口播 → CapCut 加字幕和封面。15 分钟能出一条。AI 视频生成只在画面本身就是卖点（产品展示、效果演示、创意广告）时才值得用。

执行步骤

从 1 到 5

收束目标与脚本

ChatGPT

先明确这条短片要卖什么、给谁看、最终发在哪个平台，再把长文或直播回放压成 30 到 60 秒能直接执行的脚本。

拆成镜头与节奏

Kimi

用 Kimi 把脚本拆成 3 到 6 个镜头段，补出每段的画面重点、字幕节奏和需要保留的口播信息。

脚本到短视频

流程概览

这条链路解决什么问题

第一步 ChatGPT：把散材料压成 60 秒脚本

具体操作

关键技巧

这步的产出

第二步 Kimi：把脚本拆成分镜表

具体操作

关键技巧

这步的产出

第三步 Seedance / 即梦：生成核心镜头

用 Seedance 2.0

用即梦 AI

选哪个？

关键提醒

第四步 CapCut：从素材到成品

基础操作

平台适配

成品检查清单

精简版链路

从 1 到 5

收束目标与脚本

拆成镜头与节奏

生成核心镜头

补入口与替代方案

包装并输出成片

5 个入口

脚本到短视频

流程概览

这条链路解决什么问题

第一步 ChatGPT：把散材料压成 60 秒脚本

具体操作

关键技巧

这步的产出

第二步 Kimi：把脚本拆成分镜表

具体操作

关键技巧

这步的产出

第三步 Seedance / 即梦：生成核心镜头

用 Seedance 2.0

用即梦 AI

选哪个？

关键提醒

第四步 CapCut：从素材到成品

基础操作

平台适配

成品检查清单

精简版链路

从 1 到 5

收束目标与脚本

拆成镜头与节奏

继续扩展这条链路

生成核心镜头

补入口与替代方案

包装并输出成片

5 个入口