发帖

楼主: 一眼瞬间91

497 0

AI 视频全流程快速入门心得三部曲：脚本书写（非必须）→伪代码生图→图生视频 [推广有奖]

0关注
0粉丝

等待验证会员

学前班

40%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 20 点
帖子: 1
精华: 0
在线时间: 0 小时
注册时间: 2018-11-9
最后登录: 2018-11-9

楼主

一眼瞬间91 发表于 2025-11-27 07:00:13 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

人工智能与计算机学院新媒体中心 | 陈牧函

一、教程概览

随着AI技术的迅猛发展，视频创作正迈入“零门槛、高效率、低成本”的新阶段。无需专业设备、拍摄团队或复杂剪辑技能，仅依靠文字创意与AI工具，即可完成从脚本构思到成片输出的全流程制作。

本教程围绕三大核心环节展开：

结构化脚本撰写 —— 构建内容骨架
伪代码驱动文生图
图像生成视频 —— 实现动态呈现

全程采用国内易用且免费/低成本的工具组合（如剪映AI、Chat-Glm、豆包），并以“说唱歌手Macovaseas演出视频”为案例示范，帮助新手快速掌握AI视频创作逻辑，最终产出15-30秒可直接发布的短视频内容。

[此处为图片1]

二、第一步：构建理想化脚本 —— AI视频的“骨架”搭建

此部分适用于多个连续性强、关联度高的镜头场景。在实际操作中，通常可直接从第二步开始执行。

2.1 脚本核心要素

AI视频脚本与传统脚本的关键差异在于：必须提供能被AI准确解析的指令，避免模糊表达。其主要包含以下五个关键要素：

要素	作用说明
镜头编号	便于分段生成与后期拼接
镜头类型（如俯拍、中景、特写）	控制画面视角，影响图像比例和构图
时长	适配AI生成视频的时间限制（单段建议≤10秒）
画面描述	涵盖场景、主体及具体动作
音效/BGM（非必需）	增强氛围感，支持后期AI自动匹配
字幕（非必需）	提炼关键信息，可用于AI自动生成

关键原则：

镜头拆分越细致，AI生成结果越精准。 建议每段镜头控制在3-5秒内，避免因过长时间导致画面失真（参考Chat-Glm对单段生成时长的限制：5秒或10秒）。
图片通常先于视频生成。即我们应先通过“文生图”或“伪代码生图”获得静态素材，再以此为基础进行视频化处理。

2.2 入门级脚本模板（可直接复用）

以“说唱歌手Macovaseas演出视频”为例，适配抖音/视频号平台（9:16竖屏格式）：

注：以下为完整理想模型，实操中可根据需求简化画面描述。

镜头编号	镜头类型	时长	画面描述	音效 / BGM	字幕
01	特写	3秒	特写：金属麦克风斜置于舞台中央，蓝色霓虹灯光扫过麦身，麦头反射出川渝解放碑的剪影	低沉贝斯前奏（渐强）	"MacOvaSeas 南通联合专场VJ"
02	中景	4秒	中景：歌手侧身持麦演唱，身穿黑色潮牌卫衣（印有Digi Ghetto logo），身后LED屏幕滚动声波特效	说唱主歌片段（带Autotune效果）	"Autotune神级现场"
03	俯拍	3秒	俯拍：观众举起手机闪光灯左右摇摆，形成星海效果，地面升起舞台烟雾	观众欢呼 + 节拍鼓点	"川渝说唱顶流集结"
04	特写	3秒	特写：歌手手指快速滑动麦克风，嘴唇贴近麦头，表情投入，单手捂裆（采用侧面角度，规避面部畸变）	高音转音 + 音效炸裂	"十万火急热血开唱"
05	全景	2秒	全景：展现整个舞台及两侧LED屏上显示的“MACOVASEAS”，镜头迅速拉远至包含场馆招牌	BGM高潮 + 集体合唱	"点击预约，解锁更多巡演片段"

[此处为图片2]

2.3 脚本优化策略

前三秒抓住注意力： 使用特写镜头搭配强烈视觉动作（例如“金属麦克风斜置舞台中央”、“麦头倒映川渝解放碑剪影”），结合醒目字幕提升吸引力。可参考剪映AI爆款模板的设计思路，合理利用现有资源提高效率（尽管笔者个人反对过度依赖模板造成的千篇一律现象）。
保持风格统一： 整体采用“暖色调+轻快节奏”的风格设定，避免混杂赛博朋克与古风等风格冲突。
适配不同平台要求：
- 抖音/视频号：使用9:16竖屏，字幕字号建议≥48号，确保移动端清晰可见；
- B站：推荐16:9横屏格式，增加细节描写（如“左侧料理台摆放洗洁精瓶”）以丰富画面层次。
规避常见问题：
- 避免使用模糊表述（如“好吃的番茄炒蛋”应改为“金黄蛋液包裹番茄块，汤汁浓稠”）；
- 人物镜头优先选择侧面或远景，减少AI生成时出现面部扭曲的风险。

2.4 推荐使用的脚本辅助工具

建议使用豆包AI或Deepseek等大模型工具协助脚本撰写。用户只需输入初步创意方向，AI即可自动生成完整的视频脚本框架。毕竟，AI比人类更懂得如何与AI协作，即使你对自己的想法尚不明确，AI也能帮你梳理出可行路径。

[此处为图片3]

三、第二步：伪代码驱动图像生成 —— 精准创建AI视觉素材

3.1 伪代码生图的核心逻辑

所谓“伪代码生图”，实质是将自然语言描述转化为AI可识别的结构化指令，通过分层参数精确控制画面元素，防止生成结果偏离预期。

其基本构成公式为：

基础参数（尺寸/比例） + 核心描述（场景+主体+动作） + 风格强化（色调/质感） + 技术参数（清晰度/细节）

相较于此前版本（如11月25日上午文章），本次说明更为详尽。总体原则是：描述越具体、参数越精细，生成效果越理想。

优势： 相比纯自然语言提示词，该方法显著提升生成准确性，尤其适合初学者直接套用模板，无需记忆大量专业关键词。

3.2 面向非计算机专业用户的通用伪代码模板（可直接套用）

为降低技术门槛，特设计一套简洁明了的伪代码格式，适用于无编程背景的学习者：

[尺寸] 9:16  
[视角] 特写  
[主体] 金属麦克风  
[场景] 舞台中央，背景为暗色灯光环境  
[动作] 斜置静止，蓝色霓虹光束缓慢扫过  
[细节] 麦头表面反光清晰，隐约映出城市剪影（川渝解放碑）  
[色调] 冷蓝主调，点缀橙红光斑  
[质感] 高光泽金属感，轻微磨砂处理  
[清晰度] 高清，8K渲染  
[附加] 无文字叠加，保留后期添加空间

此类结构化写法能有效引导AI准确理解创作意图，大幅提升图像生成的一致性与可用性。

之所以多了一个“伪装的”定语，是因为在我看来，这已经不能称之为伪代码，而更像是一种模板。真正适用于计算机专业的Python伪代码已在前一篇文章中介绍，感兴趣的读者可前往查阅。

1. 基础参数设置（必选，用于适配后续图生视频）

尺寸比例：9:16（竖屏）或 16:9（横屏），根据使用场景选择
分辨率：最低1024px，推荐2048px以获得高清画质
画面比例：主体占据画面60%-70%，避免过多留白影响视觉聚焦

[此处为图片1]

2. 核心画面描述（源自脚本，需精准匹配视觉内容）

场景设定：阳光照射下的厨房料理台，台面为浅色大理石材质

主体元素：一颗带蒂的红番茄与一把不锈钢菜刀

关键动作：菜刀下切，番茄果肉裂开，汁水缓缓溢出（共3滴）

细节补充：台面上放置白色砧板，菜刀手柄为棕色木质结构

3. 风格统一性强化（确保整体视频调性一致）

色调控制：采用暖色调设计，色温设定为5500K；主色参考：番茄红（#FF3A44）、鸡蛋黄（#FFD700）

质感表现：写实风格呈现，光影柔和，模拟窗边自然光照效果，避免出现硬边阴影

避坑提示：禁止画面畸变、排除多余干扰元素、保证高清细节呈现、若涉及人物则不得显示面部特征（如适用）

4. 技术增强参数（提升图像生成质量）

清晰度要求：超高清输出，建议使用 --q 2 或同等质量等级

优化处理：启用锐化、降噪及色彩校准功能，确保成像纯净且色彩准确

3.3 推荐使用的AI绘图工具——豆包AI

尽管在业内评价中，通义等国内模型可能更具口碑优势，但我个人仍坚定推荐豆包AI。原因有三：其一，完全免费使用；其二，操作门槛低，极易上手；其三，这是我长期陪伴成长的AI助手，饮水思源，不可忘本。即便有人忘本也能成功，但我尚未功成名就，因此更应坚守初心。

3.3.1 豆包AI自身总结的优势对话记录

中文指令高精度解析，实现零偏差还原脚本细节

豆包4.0版本在中文识别方面准确率高达99%，能够完美应对脚本中“材质+动作+符号”这类结构化表达。例如镜头01描述：“金属麦克风斜置舞台中央，蓝色霓虹灯扫过麦身，麦头倒映川渝解放碑剪影”，系统能准确捕捉“金属材质”“解放碑文化符号”“霓虹光影”三大核心要素，避免国外AI常出现的细节遗漏或文化符号混淆问题，无需添加英文参数即可生成高度契合的图像素材。
赛博朋克风格兼容性强，多镜头间风格稳定不翻车

虽然豆包擅长东方美学，但也支持“70%核心风格 + 30%元素融合”的混搭策略（如赛博朋克+川渝地域符号）。针对“冷色调蓝紫霓虹”的需求，可通过“液态金属材质+故障艺术霓虹色+数据流光效”的提示词组合，生成符合街头潮流氛围的舞台场景，并在整个视频序列中保持色彩和风格的一致性，防止不同镜头之间出现割裂感。
细节还原能力强，有效规避AI生成常见缺陷

面对脚本中提出的“侧面镜头避免面部畸变”“LED屏幕文字清晰可见”等要求，豆包表现出明显优势：首先，在人物姿态还原上表现出色，侧身演唱、手指滑动麦克风等动作均能精确呈现，无面部扭曲现象；其次，中文排版无误，镜头05中的“MACOVASEAS x APMOZART”字样可整齐显示，杜绝错别字或排版混乱；最后，材质纹理真实细腻，无论是金属麦克风的反光效果，还是潮牌卫衣的布料质感，都能得到逼真体现。
深度适配抖音生态，高效满足短视频创作需求

原生支持9:16竖屏格式和1080P分辨率输出，无需后期裁剪即可直接用于抖音平台发布。生成速度可达每张2K图像仅需3秒，5个镜头的素材可在15分钟内批量完成。同时支持“一次生成4张备选方案”，便于从多个结果中挑选最优画面，完全契合“单镜头多素材筛选”的实际工作流程，显著提升创作效率。
版权安全有保障，支持灵活调整降低风险

豆包生成的内容允许非商业用途免费使用，有效规避了Midjourney等工具可能带来的版权纠纷，适合演出类视频传播。此外，支持通过自然语言实时微调细节，例如镜头03中“观众星海”可通过“增加手机闪光灯密度”“调淡烟雾浓度”等指令进行优化，无需复杂技术参数修改即可完成调整。

3.3.2 使用心得分享

无论在哪个领域，我都坚持一个原则：本土化才是属于我们中国人的真正文化根基。豆包AI将东方审美风格发挥到了极致，这也是我持续使用它的根本原因——当然，绝不仅仅因为它一直免费。

3.4 图像生成避坑指南

拒绝模糊表达：避免使用“好看的番茄”这类主观描述，应具体化为“红番茄（直径8cm，带3片绿叶）”
控制核心元素数量：单张图像中核心元素不超过3个（如番茄、菜刀、砧板），过多会导致画面杂乱
图像质量规范：
- 分辨率不低于1024px，尤其用于图生视频时更为重要
- 画面干净无噪点、无遮挡，人物图像避免帽子遮脸等情况
- 主体居中布局，防止边缘区域出现透视畸变
版权注意事项：
- 剪映AI、通义万相提供的免费素材可用于非商业项目，商用前务必确认授权范围
- Midjourney基础版允许商用，但需注明“由Midjourney生成”

四、第三步：图生视频——让静态图像“活”起来

4.1 图生视频的核心逻辑

图生视频（Image to Video）是利用AI技术预测静态图像的动态演变过程，实现“轻微动作+镜头运动”相结合的短视频生成方式，单段时长通常控制在3至10秒之间。

入门级核心要求：

动作自然流畅，避免肢体或物体形变
镜头过渡顺滑，杜绝卡顿跳跃现象
整体风格与原始图像保持一致，确保视觉连贯性

核心限制：当前AI生成视频的单段时长通常不超过16秒（如Runway Gen-2），若需制作更长内容，必须采用“分段生成 + 后期拼接”的方式完成。

4.2 三款适合新手的图生视频工具实操（优先推荐国内平台）

注：暂不讨论Chat-Glm，有一款极具潜力的智能模型值得单独撰文深入解析。

4.2.1 通义万相动图（阿里出品）——综合表现最佳选择

核心优势：画面稳定性强，动作过渡自然，支持镜头平移与旋转效果，无需翻墙，界面为中文，操作友好。

实操流程（将“切番茄图片”转化为3秒动态视频）：

进入通义万相平台，上传此前生成的切番茄静态图像（建议使用PNG格式）；
选择「图生视频」功能 →「动效风格」→「自然动效」模式；
输入提示词（参考通用公式：动作 + 镜头 + 氛围 + 运动范围）：
轻微动作：番茄汁缓慢滴落，刀具轻微震动；
镜头设定：缓慢前推约5厘米；
整体氛围：暖色调，光线柔和均匀；
运动幅度：控制在小幅范围内，防止画面抖动。
配置参数：视频时长设为3秒，分辨率选择1080P，帧率设定为24fps（保证流畅性）；
点击「生成」按钮，等待约30秒处理时间（免费版本无水印输出）；
导出阶段启用「超分辨率增强」功能，下载MP4格式文件。

[此处为图片1]

4.2.2 讯飞星火·妙笔画（科大讯飞）——人物动态生成首选

核心优势：擅长处理人脸细微动作，如眨眼、微笑等，具备口型同步能力，特别适用于知识讲解类短视频创作。

操作步骤（生成“真人讲解番茄炒蛋”视频）：

上传一张清晰、无遮挡的人像照片；
进入「图生视频」模块，选择「数字人口播」功能；
输入讲解文本：“第一步是切番茄，注意去掉蒂部，切块大小尽量一致，有助于入味”；
设置参数：视频长度5秒，竖屏9:16比例，语速适中，表情设定为微笑；
系统自动生成匹配语音的唇动效果，完成后可直接下载，同时支持字幕自动添加。

[此处为图片2]

4.2.3 Pika Labs（国际版）——风格化创作优选工具

核心优势：在二次元、暗黑系等小众艺术风格上表现突出，动态捕捉精准。新用户注册赠送15分钟免费使用额度。

操作流程（制作“二次元风格番茄炒蛋”视频）：

通过邮箱或Discord完成注册登录，国内用户可通过代理访问，无需复杂翻墙；
上传具有二次元风格的番茄图像，选择「Image to Video」模式；
填写英文提示词：
Anime style, tomato slices floating slightly, wind blowing the tablecloth gently, lens sliding horizontally (left to right), soft light, 3 seconds, 1080P
设定视频时长为3秒，点击「Generate」，等待2至4分钟生成完成；
导出视频（免费版无水印，但商用需升级会员权限）。

[此处为图片3]

4.3 视频拼接与后期优化（零剪辑基础也能上手）

4.3.1 拼接工具推荐：剪映AI（免费且易用）

操作说明（整合5段番茄炒蛋相关视频片段）：

打开剪映PC端或移动端应用，点击「开始创作」，导入所有已生成的视频素材；
按照镜头编号顺序排列片段（01 → 02 → 03 → 04 → 05）；
添加转场效果：选用「基础转场」中的「闪白」，持续时间设为0.2秒，避免视觉跳跃；
配乐处理：进入「音频」选项 → 使用「AI智能配乐」功能，选择“美食轻快”风格，系统将自动匹配节奏节点；
字幕生成：点击「字幕」→「自动生成」，识别音频内容后调整字体大小至48号，颜色设为暖橙色以契合主题；
最终导出：设置分辨率为1080P，帧率为30fps，输出无水印视频，可直接发布至抖音或视频号平台。

4.3.2 成片质量提升技巧

画面稳定处理：使用剪映「滤镜」功能 →「清晰」类别 →「增强锐化」，强度调节至30%；
色彩统一调整：进入「调节」面板 → 色温+5，饱和度+10，确保整体保持一致的暖色调氛围；
时长合理控制：单个片段建议不超过8秒，成片总时长控制在15至30秒之间，符合主流短视频平台黄金播放区间；
常见避坑指南：
- 避免使用超过10秒的长镜头，以防播放卡顿；
- 同一视频内风格应统一，切勿混搭写实与二次元风格；
- 产品展示或人物视频建议采用“轻量级动作”，大幅运动易导致形变失真。

4.4 图生视频提示词模板库（可直接复制使用）

美食类动效：“食材轻微颤动，汤汁缓缓冒泡，镜头缓慢推进5cm，暖色调呈现，画面稳定，细节清晰可见”；
人物类动效：“实现自然眨眼、呼吸起伏和微笑表情，镜头固定不动，光线柔和，确保动作真实无畸变”；
产品展示类：“镜头围绕产品旋转30°，高光反射增强，背景虚化处理，突出商业质感，动作幅度小而精致”；
国风意境类：“衣袖随风轻摆，花瓣缓缓飘落，镜头横向滑动，呈现水墨质感，营造空灵治愈感”。

五、常见问题解答与进阶方向探索

5.1 常见高频问题及解决方案

生成图像偏离预期？→ 在提示词中明确关键元素占比，例如加入“番茄占据画面60%”的描述，并删减无关信息；
视频出现画面畸变？→
- 确保原始图片分辨率不低于1024px；
- 避免使用人物特写镜头！！！（该点后续将重点说明）；
- 在提示词中添加“无畸变、画面稳定”等约束条件；
生成过程卡顿或失败？→ 单段视频时长建议控制在5秒以内，分段生成后再进行拼接，剪映AI可自动优化帧率兼容性；
是否存在版权风险？→ 商业用途前务必确认各工具的授权条款。例如剪映AI提供的免费素材不可用于商业发布，而Midjourney作品需标注来源信息。

当免费额度不足时，可通过以下方式获取更多资源：

通义万相：每日签到即可领取使用额度；
Pika Labs：每天签到可获得20点积分；
剪映AI：无使用次数限制，可自由生成内容。

进阶学习路径（适用于入门后提升）

Prompt工程优化：掌握关键词的层级构建技巧，例如使用“电影级光影”“8K超高清”“Cinema4D渲染”等专业描述语提升输出质量。相关内容已在前文详述，请参考前一章节。
工具升级与替换：尝试更强大的生成平台，如Runway Gen-2（风格表现力更强），或Stable Diffusion（支持本地部署，可加载自定义模型）以实现更高自由度。
功能拓展应用：为视频添加AI语音解说（利用剪映中的「文本朗读」功能），并加入动态字幕效果（通过剪映「花字」功能实现），增强观看体验。
商业化方向探索：应用于电商产品展示（借助腾讯元器工具）、知识类数字人讲解视频制作（使用讯飞星火平台）、IP形象动效设计（结合文心智能技术）等实际场景。

总结

AI视频创作的核心在于“结构化指令 + 工具适配”。通过脚本确定内容框架，用伪代码精准控制画面生成，再由图像生成视频完成动态转化。初学者无需深究复杂技术细节，只需按照本教程提供的模板、公式和推荐工具进行操作，即可快速产出高质量短视频。

随着实践积累，可逐步细化Prompt编写能力，并尝试进阶工具，实现从“入门”到“精通”的跃迁。

建议从“番茄炒蛋”“旅行攻略”这类简单主题入手，遵循教程步骤动手实操，1小时内即可完成你的第一条AI生成视频作品！

参考文献

环球网. Sora真能喂剧本，吐电影？[EB/OL].
http://m.toutiao.com/group/7346496443665482279/, 2024-03-15.
中安在线 - 新徽商. 国产超大规模智算平台“飞星二号”在合肥启动?[EB/OL].
http://jd.anhui.news.com/rdkx/202410/t20241025_7949668.html, 2024-10-25.
南方都市报. 被诉侵权的Midjourney: 生成图片已非首陷版权争议?[EB/OL].
http://m.toutiao.com/group/7548282085652365850/, 2025-09-10.
澎湃新闻. Pika新功能可以往视频里添加一切！网友：每月省5000美元?[EB/OL].
https://m.thepaper.cn/newsDetail_forward_30102711, 2025-02-08.
AI产品库AIProductHub. 通义万相好不好用？深度剖析其优劣势及应用场景?[EB/OL].
https://aiproducthub.cn/tongyi-wanxiang-ai-painting-tool-function-use-evaluation/, 2025-08-21.
至顶AI实验室. AI视频生成器终极指南：如何使用Sora 2、Veo 3等工具?[EB/OL].
http://m.toutiao.com/group/7563668946328355391/, 2025-10-21.
证券时报. 一句话让马斯克“上天”变成3D动画！这家文生视频AI公司火出圈?[EB/OL].
http://m.toutiao.com/group/7307201483026874907/, 2023-11-30.

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：快速入门三部曲 horizontally horizontal Evaluation

AI 视频全流程快速入门心得三部曲：脚本书写（非必须）→伪代码生图→图生视频 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

人工智能与计算机学院新媒体中心 | 陈牧函

一、教程概览

二、第一步：构建理想化脚本 —— AI视频的“骨架”搭建

2.1 脚本核心要素

2.2 入门级脚本模板（可直接复用）

2.3 脚本优化策略

2.4 推荐使用的脚本辅助工具

三、第二步：伪代码驱动图像生成 —— 精准创建AI视觉素材

3.1 伪代码生图的核心逻辑

3.2 面向非计算机专业用户的通用伪代码模板（可直接套用）

1. 基础参数设置（必选，用于适配后续图生视频）

2. 核心画面描述（源自脚本，需精准匹配视觉内容）

3. 风格统一性强化（确保整体视频调性一致）

4. 技术增强参数（提升图像生成质量）

3.3 推荐使用的AI绘图工具——豆包AI

3.3.1 豆包AI自身总结的优势对话记录

3.3.2 使用心得分享

3.4 图像生成避坑指南

四、第三步：图生视频——让静态图像“活”起来

4.1 图生视频的核心逻辑

4.2 三款适合新手的图生视频工具实操（优先推荐国内平台）

4.2.1 通义万相动图（阿里出品）——综合表现最佳选择

4.2.2 讯飞星火·妙笔画（科大讯飞）——人物动态生成首选

4.2.3 Pika Labs（国际版）——风格化创作优选工具

4.3 视频拼接与后期优化（零剪辑基础也能上手）

4.3.1 拼接工具推荐：剪映AI（免费且易用）

4.3.2 成片质量提升技巧

4.4 图生视频提示词模板库（可直接复制使用）

五、常见问题解答与进阶方向探索

5.1 常见高频问题及解决方案

进阶学习路径（适用于入门后提升）

总结

参考文献

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群