人工智能与计算机学院新媒体中心 | 陈牧函
一、教程概览
随着AI技术的迅猛发展,视频创作正迈入“零门槛、高效率、低成本”的新阶段。无需专业设备、拍摄团队或复杂剪辑技能,仅依靠文字创意与AI工具,即可完成从脚本构思到成片输出的全流程制作。
本教程围绕三大核心环节展开:
- 结构化脚本撰写 —— 构建内容骨架
- 伪代码驱动文生图
- 图像生成视频 —— 实现动态呈现
全程采用国内易用且免费/低成本的工具组合(如剪映AI、Chat-Glm、豆包),并以“说唱歌手Macovaseas演出视频”为案例示范,帮助新手快速掌握AI视频创作逻辑,最终产出15-30秒可直接发布的短视频内容。
[此处为图片1]二、第一步:构建理想化脚本 —— AI视频的“骨架”搭建
此部分适用于多个连续性强、关联度高的镜头场景。在实际操作中,通常可直接从第二步开始执行。
2.1 脚本核心要素
AI视频脚本与传统脚本的关键差异在于:必须提供能被AI准确解析的指令,避免模糊表达。其主要包含以下五个关键要素:
| 要素 | 作用说明 |
|---|---|
| 镜头编号 | 便于分段生成与后期拼接 |
| 镜头类型(如俯拍、中景、特写) | 控制画面视角,影响图像比例和构图 |
| 时长 | 适配AI生成视频的时间限制(单段建议≤10秒) |
| 画面描述 | 涵盖场景、主体及具体动作 |
| 音效/BGM(非必需) | 增强氛围感,支持后期AI自动匹配 |
| 字幕(非必需) | 提炼关键信息,可用于AI自动生成 |
关键原则:
- 镜头拆分越细致,AI生成结果越精准。 建议每段镜头控制在3-5秒内,避免因过长时间导致画面失真(参考Chat-Glm对单段生成时长的限制:5秒或10秒)。
- 图片通常先于视频生成。即我们应先通过“文生图”或“伪代码生图”获得静态素材,再以此为基础进行视频化处理。
2.2 入门级脚本模板(可直接复用)
以“说唱歌手Macovaseas演出视频”为例,适配抖音/视频号平台(9:16竖屏格式):
注:以下为完整理想模型,实操中可根据需求简化画面描述。
| 镜头编号 | 镜头类型 | 时长 | 画面描述 | 音效 / BGM | 字幕 |
|---|---|---|---|---|---|
| 01 | 特写 | 3秒 | 特写:金属麦克风斜置于舞台中央,蓝色霓虹灯光扫过麦身,麦头反射出川渝解放碑的剪影 | 低沉贝斯前奏(渐强) | "MacOvaSeas 南通联合专场VJ" |
| 02 | 中景 | 4秒 | 中景:歌手侧身持麦演唱,身穿黑色潮牌卫衣(印有Digi Ghetto logo),身后LED屏幕滚动声波特效 | 说唱主歌片段(带Autotune效果) | "Autotune神级现场" |
| 03 | 俯拍 | 3秒 | 俯拍:观众举起手机闪光灯左右摇摆,形成星海效果,地面升起舞台烟雾 | 观众欢呼 + 节拍鼓点 | "川渝说唱顶流集结" |
| 04 | 特写 | 3秒 | 特写:歌手手指快速滑动麦克风,嘴唇贴近麦头,表情投入,单手捂裆(采用侧面角度,规避面部畸变) | 高音转音 + 音效炸裂 | "十万火急 热血开唱" |
| 05 | 全景 | 2秒 | 全景:展现整个舞台及两侧LED屏上显示的“MACOVASEAS”,镜头迅速拉远至包含场馆招牌 | BGM高潮 + 集体合唱 | "点击预约,解锁更多巡演片段" |
2.3 脚本优化策略
- 前三秒抓住注意力: 使用特写镜头搭配强烈视觉动作(例如“金属麦克风斜置舞台中央”、“麦头倒映川渝解放碑剪影”),结合醒目字幕提升吸引力。可参考剪映AI爆款模板的设计思路,合理利用现有资源提高效率(尽管笔者个人反对过度依赖模板造成的千篇一律现象)。
- 保持风格统一: 整体采用“暖色调+轻快节奏”的风格设定,避免混杂赛博朋克与古风等风格冲突。
- 适配不同平台要求:
- 抖音/视频号:使用9:16竖屏,字幕字号建议≥48号,确保移动端清晰可见;
- B站:推荐16:9横屏格式,增加细节描写(如“左侧料理台摆放洗洁精瓶”)以丰富画面层次。
- 规避常见问题:
- 避免使用模糊表述(如“好吃的番茄炒蛋”应改为“金黄蛋液包裹番茄块,汤汁浓稠”);
- 人物镜头优先选择侧面或远景,减少AI生成时出现面部扭曲的风险。
2.4 推荐使用的脚本辅助工具
建议使用豆包AI或Deepseek等大模型工具协助脚本撰写。用户只需输入初步创意方向,AI即可自动生成完整的视频脚本框架。毕竟,AI比人类更懂得如何与AI协作,即使你对自己的想法尚不明确,AI也能帮你梳理出可行路径。
[此处为图片3]三、第二步:伪代码驱动图像生成 —— 精准创建AI视觉素材
3.1 伪代码生图的核心逻辑
所谓“伪代码生图”,实质是将自然语言描述转化为AI可识别的结构化指令,通过分层参数精确控制画面元素,防止生成结果偏离预期。
其基本构成公式为:
基础参数(尺寸/比例) + 核心描述(场景+主体+动作) + 风格强化(色调/质感) + 技术参数(清晰度/细节)
相较于此前版本(如11月25日上午文章),本次说明更为详尽。总体原则是:描述越具体、参数越精细,生成效果越理想。
优势: 相比纯自然语言提示词,该方法显著提升生成准确性,尤其适合初学者直接套用模板,无需记忆大量专业关键词。
3.2 面向非计算机专业用户的通用伪代码模板(可直接套用)
为降低技术门槛,特设计一套简洁明了的伪代码格式,适用于无编程背景的学习者:
[尺寸] 9:16
[视角] 特写
[主体] 金属麦克风
[场景] 舞台中央,背景为暗色灯光环境
[动作] 斜置静止,蓝色霓虹光束缓慢扫过
[细节] 麦头表面反光清晰,隐约映出城市剪影(川渝解放碑)
[色调] 冷蓝主调,点缀橙红光斑
[质感] 高光泽金属感,轻微磨砂处理
[清晰度] 高清,8K渲染
[附加] 无文字叠加,保留后期添加空间
此类结构化写法能有效引导AI准确理解创作意图,大幅提升图像生成的一致性与可用性。
之所以多了一个“伪装的”定语,是因为在我看来,这已经不能称之为伪代码,而更像是一种模板。真正适用于计算机专业的Python伪代码已在前一篇文章中介绍,感兴趣的读者可前往查阅。
1. 基础参数设置(必选,用于适配后续图生视频)
- 尺寸比例:9:16(竖屏)或 16:9(横屏),根据使用场景选择
- 分辨率:最低1024px,推荐2048px以获得高清画质
- 画面比例:主体占据画面60%-70%,避免过多留白影响视觉聚焦
2. 核心画面描述(源自脚本,需精准匹配视觉内容)
场景设定:阳光照射下的厨房料理台,台面为浅色大理石材质
主体元素:一颗带蒂的红番茄与一把不锈钢菜刀
关键动作:菜刀下切,番茄果肉裂开,汁水缓缓溢出(共3滴)
细节补充:台面上放置白色砧板,菜刀手柄为棕色木质结构
3. 风格统一性强化(确保整体视频调性一致)
色调控制:采用暖色调设计,色温设定为5500K;主色参考:番茄红(#FF3A44)、鸡蛋黄(#FFD700)
质感表现:写实风格呈现,光影柔和,模拟窗边自然光照效果,避免出现硬边阴影
避坑提示:禁止画面畸变、排除多余干扰元素、保证高清细节呈现、若涉及人物则不得显示面部特征(如适用)
4. 技术增强参数(提升图像生成质量)
清晰度要求:超高清输出,建议使用 --q 2 或同等质量等级
优化处理:启用锐化、降噪及色彩校准功能,确保成像纯净且色彩准确
3.3 推荐使用的AI绘图工具——豆包AI
尽管在业内评价中,通义等国内模型可能更具口碑优势,但我个人仍坚定推荐豆包AI。原因有三:其一,完全免费使用;其二,操作门槛低,极易上手;其三,这是我长期陪伴成长的AI助手,饮水思源,不可忘本。即便有人忘本也能成功,但我尚未功成名就,因此更应坚守初心。
3.3.1 豆包AI自身总结的优势对话记录
-
中文指令高精度解析,实现零偏差还原脚本细节
豆包4.0版本在中文识别方面准确率高达99%,能够完美应对脚本中“材质+动作+符号”这类结构化表达。例如镜头01描述:“金属麦克风斜置舞台中央,蓝色霓虹灯扫过麦身,麦头倒映川渝解放碑剪影”,系统能准确捕捉“金属材质”“解放碑文化符号”“霓虹光影”三大核心要素,避免国外AI常出现的细节遗漏或文化符号混淆问题,无需添加英文参数即可生成高度契合的图像素材。
-
赛博朋克风格兼容性强,多镜头间风格稳定不翻车
虽然豆包擅长东方美学,但也支持“70%核心风格 + 30%元素融合”的混搭策略(如赛博朋克+川渝地域符号)。针对“冷色调蓝紫霓虹”的需求,可通过“液态金属材质+故障艺术霓虹色+数据流光效”的提示词组合,生成符合街头潮流氛围的舞台场景,并在整个视频序列中保持色彩和风格的一致性,防止不同镜头之间出现割裂感。
-
细节还原能力强,有效规避AI生成常见缺陷
面对脚本中提出的“侧面镜头避免面部畸变”“LED屏幕文字清晰可见”等要求,豆包表现出明显优势:首先,在人物姿态还原上表现出色,侧身演唱、手指滑动麦克风等动作均能精确呈现,无面部扭曲现象;其次,中文排版无误,镜头05中的“MACOVASEAS x APMOZART”字样可整齐显示,杜绝错别字或排版混乱;最后,材质纹理真实细腻,无论是金属麦克风的反光效果,还是潮牌卫衣的布料质感,都能得到逼真体现。
-
深度适配抖音生态,高效满足短视频创作需求
原生支持9:16竖屏格式和1080P分辨率输出,无需后期裁剪即可直接用于抖音平台发布。生成速度可达每张2K图像仅需3秒,5个镜头的素材可在15分钟内批量完成。同时支持“一次生成4张备选方案”,便于从多个结果中挑选最优画面,完全契合“单镜头多素材筛选”的实际工作流程,显著提升创作效率。
-
版权安全有保障,支持灵活调整降低风险
豆包生成的内容允许非商业用途免费使用,有效规避了Midjourney等工具可能带来的版权纠纷,适合演出类视频传播。此外,支持通过自然语言实时微调细节,例如镜头03中“观众星海”可通过“增加手机闪光灯密度”“调淡烟雾浓度”等指令进行优化,无需复杂技术参数修改即可完成调整。
3.3.2 使用心得分享
无论在哪个领域,我都坚持一个原则:本土化才是属于我们中国人的真正文化根基。豆包AI将东方审美风格发挥到了极致,这也是我持续使用它的根本原因——当然,绝不仅仅因为它一直免费。
3.4 图像生成避坑指南
- 拒绝模糊表达:避免使用“好看的番茄”这类主观描述,应具体化为“红番茄(直径8cm,带3片绿叶)”
- 控制核心元素数量:单张图像中核心元素不超过3个(如番茄、菜刀、砧板),过多会导致画面杂乱
- 图像质量规范:
- 分辨率不低于1024px,尤其用于图生视频时更为重要
- 画面干净无噪点、无遮挡,人物图像避免帽子遮脸等情况
- 主体居中布局,防止边缘区域出现透视畸变
- 版权注意事项:
- 剪映AI、通义万相提供的免费素材可用于非商业项目,商用前务必确认授权范围
- Midjourney基础版允许商用,但需注明“由Midjourney生成”
四、第三步:图生视频——让静态图像“活”起来
4.1 图生视频的核心逻辑
图生视频(Image to Video)是利用AI技术预测静态图像的动态演变过程,实现“轻微动作+镜头运动”相结合的短视频生成方式,单段时长通常控制在3至10秒之间。
入门级核心要求:
- 动作自然流畅,避免肢体或物体形变
- 镜头过渡顺滑,杜绝卡顿跳跃现象
- 整体风格与原始图像保持一致,确保视觉连贯性
核心限制:当前AI生成视频的单段时长通常不超过16秒(如Runway Gen-2),若需制作更长内容,必须采用“分段生成 + 后期拼接”的方式完成。
4.2 三款适合新手的图生视频工具实操(优先推荐国内平台)
注:暂不讨论Chat-Glm,有一款极具潜力的智能模型值得单独撰文深入解析。
4.2.1 通义万相动图(阿里出品)——综合表现最佳选择
核心优势:画面稳定性强,动作过渡自然,支持镜头平移与旋转效果,无需翻墙,界面为中文,操作友好。
实操流程(将“切番茄图片”转化为3秒动态视频):
- 进入通义万相平台,上传此前生成的切番茄静态图像(建议使用PNG格式);
- 选择「图生视频」功能 →「动效风格」→「自然动效」模式;
- 输入提示词(参考通用公式:动作 + 镜头 + 氛围 + 运动范围):
轻微动作:番茄汁缓慢滴落,刀具轻微震动;
镜头设定:缓慢前推约5厘米;
整体氛围:暖色调,光线柔和均匀;
运动幅度:控制在小幅范围内,防止画面抖动。 - 配置参数:视频时长设为3秒,分辨率选择1080P,帧率设定为24fps(保证流畅性);
- 点击「生成」按钮,等待约30秒处理时间(免费版本无水印输出);
- 导出阶段启用「超分辨率增强」功能,下载MP4格式文件。
4.2.2 讯飞星火·妙笔画(科大讯飞)——人物动态生成首选
核心优势:擅长处理人脸细微动作,如眨眼、微笑等,具备口型同步能力,特别适用于知识讲解类短视频创作。
操作步骤(生成“真人讲解番茄炒蛋”视频):
- 上传一张清晰、无遮挡的人像照片;
- 进入「图生视频」模块,选择「数字人口播」功能;
- 输入讲解文本:“第一步是切番茄,注意去掉蒂部,切块大小尽量一致,有助于入味”;
- 设置参数:视频长度5秒,竖屏9:16比例,语速适中,表情设定为微笑;
- 系统自动生成匹配语音的唇动效果,完成后可直接下载,同时支持字幕自动添加。
4.2.3 Pika Labs(国际版)——风格化创作优选工具
核心优势:在二次元、暗黑系等小众艺术风格上表现突出,动态捕捉精准。新用户注册赠送15分钟免费使用额度。
操作流程(制作“二次元风格番茄炒蛋”视频):
- 通过邮箱或Discord完成注册登录,国内用户可通过代理访问,无需复杂翻墙;
- 上传具有二次元风格的番茄图像,选择「Image to Video」模式;
- 填写英文提示词:
Anime style, tomato slices floating slightly, wind blowing the tablecloth gently, lens sliding horizontally (left to right), soft light, 3 seconds, 1080P - 设定视频时长为3秒,点击「Generate」,等待2至4分钟生成完成;
- 导出视频(免费版无水印,但商用需升级会员权限)。
4.3 视频拼接与后期优化(零剪辑基础也能上手)
4.3.1 拼接工具推荐:剪映AI(免费且易用)
操作说明(整合5段番茄炒蛋相关视频片段):
- 打开剪映PC端或移动端应用,点击「开始创作」,导入所有已生成的视频素材;
- 按照镜头编号顺序排列片段(01 → 02 → 03 → 04 → 05);
- 添加转场效果:选用「基础转场」中的「闪白」,持续时间设为0.2秒,避免视觉跳跃;
- 配乐处理:进入「音频」选项 → 使用「AI智能配乐」功能,选择“美食轻快”风格,系统将自动匹配节奏节点;
- 字幕生成:点击「字幕」→「自动生成」,识别音频内容后调整字体大小至48号,颜色设为暖橙色以契合主题;
- 最终导出:设置分辨率为1080P,帧率为30fps,输出无水印视频,可直接发布至抖音或视频号平台。
4.3.2 成片质量提升技巧
- 画面稳定处理:使用剪映「滤镜」功能 →「清晰」类别 →「增强锐化」,强度调节至30%;
- 色彩统一调整:进入「调节」面板 → 色温+5,饱和度+10,确保整体保持一致的暖色调氛围;
- 时长合理控制:单个片段建议不超过8秒,成片总时长控制在15至30秒之间,符合主流短视频平台黄金播放区间;
- 常见避坑指南:
- 避免使用超过10秒的长镜头,以防播放卡顿;
- 同一视频内风格应统一,切勿混搭写实与二次元风格;
- 产品展示或人物视频建议采用“轻量级动作”,大幅运动易导致形变失真。
4.4 图生视频提示词模板库(可直接复制使用)
- 美食类动效:“食材轻微颤动,汤汁缓缓冒泡,镜头缓慢推进5cm,暖色调呈现,画面稳定,细节清晰可见”;
- 人物类动效:“实现自然眨眼、呼吸起伏和微笑表情,镜头固定不动,光线柔和,确保动作真实无畸变”;
- 产品展示类:“镜头围绕产品旋转30°,高光反射增强,背景虚化处理,突出商业质感,动作幅度小而精致”;
- 国风意境类:“衣袖随风轻摆,花瓣缓缓飘落,镜头横向滑动,呈现水墨质感,营造空灵治愈感”。
五、常见问题解答与进阶方向探索
5.1 常见高频问题及解决方案
- 生成图像偏离预期?→ 在提示词中明确关键元素占比,例如加入“番茄占据画面60%”的描述,并删减无关信息;
- 视频出现画面畸变?→
- 确保原始图片分辨率不低于1024px;
- 避免使用人物特写镜头!!!(该点后续将重点说明);
- 在提示词中添加“无畸变、画面稳定”等约束条件;
- 生成过程卡顿或失败?→ 单段视频时长建议控制在5秒以内,分段生成后再进行拼接,剪映AI可自动优化帧率兼容性;
- 是否存在版权风险?→ 商业用途前务必确认各工具的授权条款。例如剪映AI提供的免费素材不可用于商业发布,而Midjourney作品需标注来源信息。
当免费额度不足时,可通过以下方式获取更多资源:
- 通义万相:每日签到即可领取使用额度;
- Pika Labs:每天签到可获得20点积分;
- 剪映AI:无使用次数限制,可自由生成内容。
进阶学习路径(适用于入门后提升)
- Prompt工程优化:掌握关键词的层级构建技巧,例如使用“电影级光影”“8K超高清”“Cinema4D渲染”等专业描述语提升输出质量。相关内容已在前文详述,请参考前一章节。
- 工具升级与替换:尝试更强大的生成平台,如Runway Gen-2(风格表现力更强),或Stable Diffusion(支持本地部署,可加载自定义模型)以实现更高自由度。
- 功能拓展应用:为视频添加AI语音解说(利用剪映中的「文本朗读」功能),并加入动态字幕效果(通过剪映「花字」功能实现),增强观看体验。
- 商业化方向探索:应用于电商产品展示(借助腾讯元器工具)、知识类数字人讲解视频制作(使用讯飞星火平台)、IP形象动效设计(结合文心智能技术)等实际场景。
总结
AI视频创作的核心在于“结构化指令 + 工具适配”。通过脚本确定内容框架,用伪代码精准控制画面生成,再由图像生成视频完成动态转化。初学者无需深究复杂技术细节,只需按照本教程提供的模板、公式和推荐工具进行操作,即可快速产出高质量短视频。
随着实践积累,可逐步细化Prompt编写能力,并尝试进阶工具,实现从“入门”到“精通”的跃迁。
建议从“番茄炒蛋”“旅行攻略”这类简单主题入手,遵循教程步骤动手实操,1小时内即可完成你的第一条AI生成视频作品!
参考文献
- 环球网. Sora真能喂剧本,吐电影?[EB/OL].
http://m.toutiao.com/group/7346496443665482279/, 2024-03-15. - 中安在线 - 新徽商. 国产超大规模智算平台“飞星二号”在合肥启动?[EB/OL].
http://jd.anhui.news.com/rdkx/202410/t20241025_7949668.html, 2024-10-25. - 南方都市报. 被诉侵权的Midjourney: 生成图片已非首陷版权争议?[EB/OL].
http://m.toutiao.com/group/7548282085652365850/, 2025-09-10. - 澎湃新闻. Pika新功能可以往视频里添加一切!网友:每月省5000美元?[EB/OL].
https://m.thepaper.cn/newsDetail_forward_30102711, 2025-02-08. - AI产品库AIProductHub. 通义万相好不好用?深度剖析其优劣势及应用场景?[EB/OL].
https://aiproducthub.cn/tongyi-wanxiang-ai-painting-tool-function-use-evaluation/, 2025-08-21. - 至顶AI实验室. AI视频生成器终极指南:如何使用Sora 2、Veo 3等工具?[EB/OL].
http://m.toutiao.com/group/7563668946328355391/, 2025-10-21. - 证券时报. 一句话让马斯克“上天”变成3D动画!这家文生视频AI公司火出圈?[EB/OL].
http://m.toutiao.com/group/7307201483026874907/, 2023-11-30.


雷达卡


京公网安备 11010802022788号







