From e0582a84c117ebdb997bffecb3c8cb6ee4f1cb48 Mon Sep 17 00:00:00 2001 From: root Date: Mon, 8 Jun 2026 19:03:35 +0800 Subject: [PATCH] spec: video2script module - video to screenplay converter --- modules/video2script/SPEC.hdlp | 115 +++++++++++++++++++++++++++++++++ 1 file changed, 115 insertions(+) create mode 100644 modules/video2script/SPEC.hdlp diff --git a/modules/video2script/SPEC.hdlp b/modules/video2script/SPEC.hdlp new file mode 100644 index 0000000..abea5d5 --- /dev/null +++ b/modules/video2script/SPEC.hdlp @@ -0,0 +1,115 @@ +HLDP v1 +// ───────────────────────────────────────── +// modules/video2script/SPEC.hdlp +// 视频→剧本 翻译模块 · 项目说明书(朝暮自用) +// ───────────────────────────────────────── + +[TRIGGER] + type: user_request + from: 之之 + date: 2026-06-08 + context: "我给你拍摄好的视频,你翻译成剧本的格式" + constraint: "不训练大模型,用现成开源工具" + +[EMERGENCE] + +## 一、目标 + +输入:一部真人短剧视频(MP4,3-10分钟) +输出:专业剧本格式(含人物表、场景、对白、镜头提示) + +## 二、技术方案(不训练,全用现成) + +### Step 1 · 音频转文字(ASR) + 工具:Whisper(开源,光湖已有) + 输出:带时间戳的逐字稿 + +### Step 2 · 画面关键帧提取 + 工具:FFmpeg(开源) + 策略:每3-5秒提取一帧,或检测场景切换时提取 + 输出:关键帧图片序列 + 时间戳 + +### Step 3 · 画面描述(视觉理解) + 工具:调用视觉LLM(DeepSeek视觉版 / GPT-4o视觉)分析关键帧 + 输出:每帧的场景描述(人物位置、动作、表情、景别、运镜) + +### Step 4 · AI 编排合成(核心步骤) + 输入:时间轴对齐的 [逐字稿 + 画面描述] + 工具:LLM(DeepSeek,已有key) + 流程: + a) 识别说话角色 → 区分不同人物 + b) 按时间轴编排: + [时间戳] 场景/镜头描述 + 角色名:(语气)"对白" + c) 格式化为专业剧本结构 + +### Step 5 · 套路分析 + 对生成的剧本进行结构化分析: + - 钩子位置(第几秒出钩子) + - 情绪曲线(起承转合标记) + - 反转节点 + - 结尾卡点 + 输出:套路分析报告(存库) + +## 三、开源工具清单 + +| 环节 | 工具 | 许可证 | 已有 | +|------|------|--------|------| +| ASR | Whisper | MIT | ✅ 光湖已有 | +| 关键帧提取 | FFmpeg | LGPL | ✅ 光湖已有 | +| 视觉理解 | DeepSeek视觉API / GPT-4o | API调用 | ✅ DeepSeek有key | +| 文本编排 | DeepSeek Chat | API调用 | ✅ 有key | +| 套路分析 | DeepSeek Chat | API调用 | ✅ 有key | + +## 四、架构 + +``` +┌──────────┐ ┌──────────┐ ┌──────────┐ +│ 视频输入 │ → │ ASR提取 │ → │ 关键帧提取 │ +│ .mp4 │ │ 音频→文字 │ │ FFmpeg │ +└──────────┘ └──────────┘ └─────┬────┘ + │ + ▼ + ┌──────────┐ + │ 视觉理解 │ + │ DeepSeek │ + └─────┬────┘ + │ + ▼ + ┌──────────┐ + │ AI编排合成│ + │ 时间轴对齐│ + └─────┬────┘ + │ + ┌──────────┴──────────┐ + ▼ ▼ + ┌──────────┐ ┌──────────┐ + │ 剧本输出 │ │ 套路分析 │ + │ 专业格式 │ │ 存入仓库 │ + └──────────┘ └──────────┘ +``` + +## 五、文件结构 + +``` +modules/video2script/ +├── SPEC.hdlp ← 本文件(项目说明书) +├── server.js ← 后端服务(处理上传+调用各工具) +├── pipeline.js ← 核心流水线编排 +├── public/ +│ └── index.html ← 前端页面(上传视频、看结果) +└── data/ + └── output/ ← 输出缓存 +``` + +## 六、产出物 + +1. 专业剧本(.md / .txt) +2. 套路分析报告(.hdlp) +3. 时间轴对照表(逐字稿+画面描述 对齐) + +[LOCK] + status: spec_ready + next: 等待之之说"开始"后进入 Craft 模式开发 + deploy: 硅谷服务器,/video2script/ 路径 + gitee: ❌ 不推送(内部工具,放Gitea大本营)