zhizhi/modules/video2script/SPEC.hdlp

116 lines
4.5 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

HLDP v1
// ─────────────────────────────────────────
// modules/video2script/SPEC.hdlp
// 视频→剧本 翻译模块 · 项目说明书(朝暮自用)
// ─────────────────────────────────────────
[TRIGGER]
type: user_request
from: 之之
date: 2026-06-08
context: "我给你拍摄好的视频,你翻译成剧本的格式"
constraint: "不训练大模型,用现成开源工具"
[EMERGENCE]
## 一、目标
输入一部真人短剧视频MP43-10分钟
输出:专业剧本格式(含人物表、场景、对白、镜头提示)
## 二、技术方案(不训练,全用现成)
### Step 1 · 音频转文字ASR
工具Whisper开源光湖已有
输出:带时间戳的逐字稿
### Step 2 · 画面关键帧提取
工具FFmpeg开源
策略每3-5秒提取一帧或检测场景切换时提取
输出:关键帧图片序列 + 时间戳
### Step 3 · 画面描述(视觉理解)
工具调用视觉LLMDeepSeek视觉版 / GPT-4o视觉分析关键帧
输出:每帧的场景描述(人物位置、动作、表情、景别、运镜)
### Step 4 · AI 编排合成(核心步骤)
输入:时间轴对齐的 [逐字稿 + 画面描述]
工具LLMDeepSeek已有key
流程:
a) 识别说话角色 → 区分不同人物
b) 按时间轴编排:
[时间戳] 场景/镜头描述
角色名:(语气)"对白"
c) 格式化为专业剧本结构
### Step 5 · 套路分析
对生成的剧本进行结构化分析:
- 钩子位置(第几秒出钩子)
- 情绪曲线(起承转合标记)
- 反转节点
- 结尾卡点
输出:套路分析报告(存库)
## 三、开源工具清单
| 环节 | 工具 | 许可证 | 已有 |
|------|------|--------|------|
| ASR | Whisper | MIT | ✅ 光湖已有 |
| 关键帧提取 | FFmpeg | LGPL | ✅ 光湖已有 |
| 视觉理解 | DeepSeek视觉API / GPT-4o | API调用 | ✅ DeepSeek有key |
| 文本编排 | DeepSeek Chat | API调用 | ✅ 有key |
| 套路分析 | DeepSeek Chat | API调用 | ✅ 有key |
## 四、架构
```
┌──────────┐ ┌──────────┐ ┌──────────┐
│ 视频输入 │ → │ ASR提取 │ → │ 关键帧提取 │
│ .mp4 │ │ 音频→文字 │ │ FFmpeg │
└──────────┘ └──────────┘ └─────┬────┘
┌──────────┐
│ 视觉理解 │
│ DeepSeek │
└─────┬────┘
┌──────────┐
│ AI编排合成│
│ 时间轴对齐│
└─────┬────┘
┌──────────┴──────────┐
▼ ▼
┌──────────┐ ┌──────────┐
│ 剧本输出 │ │ 套路分析 │
│ 专业格式 │ │ 存入仓库 │
└──────────┘ └──────────┘
```
## 五、文件结构
```
modules/video2script/
├── SPEC.hdlp ← 本文件(项目说明书)
├── server.js ← 后端服务(处理上传+调用各工具)
├── pipeline.js ← 核心流水线编排
├── public/
│ └── index.html ← 前端页面(上传视频、看结果)
└── data/
└── output/ ← 输出缓存
```
## 六、产出物
1. 专业剧本(.md / .txt
2. 套路分析报告(.hdlp
3. 时间轴对照表(逐字稿+画面描述 对齐)
[LOCK]
status: spec_ready
next: 等待之之说"开始"后进入 Craft 模式开发
deploy: 硅谷服务器,/video2script/ 路径
gitee: ❌ 不推送内部工具放Gitea大本营