为什么 AI 剪视频不需要看视频——13.3k Star 的 video-use 藏着一个反直觉答案

AI视频剪辑 video-use Claude Code 开源项目 Agent

发布于 2026-07-02 03:06:45 17 次浏览

为什么 AI 剪视频不需要看视频——13.3k Star 的 video-use 藏着一个反直觉答案

一段 3 分钟的 1080p 视频，拆成帧大约 5400 张图。按 GPT-4o 的视觉 token 计价，光"看完"就要烧掉几千万 tokens——还没动手剪一刀。

这就是为什么大多数"AI 自动剪辑"产品要么卡得要命，要么贵得离谱。它们在干一件违反物理规律的事：让一个文本引擎去"看"视频。

但 browser-use 团队不这么想。他们刚开源的 video-use 已经拿到 13.3k Star、1.7k Fork，而它的核心思路只有一句话：

不给 AI 看画面，给 AI 读剧本。

一段视频，怎么变成 12KB

video-use 的技术路线分两层，第一层是"全程加载"的文本转写。

每段素材跑一遍 ElevenLabs Scribe，输出词级别的精确时间戳、说话人分离（谁在说话）、音频事件标记（笑声、掌声、音乐起）。所有素材最终被打包成一个约 12KB 的 takes_packed.md 文件。

12KB。一段可能几个 GB 的原始素材，被压缩到一条微信消息的大小。

这就是 AI 的"工作台"——不是时间轴，不是预览窗口，是一个它最擅长处理的文本文件。

第二层是"按需加载"的视觉快照。遇到有歧义的停顿、需要检查剪切点画质时，用 timeline_view 工具抓一张波形图+帧叠加的 PNG，只看那几秒钟。不是全程盯着屏幕，而是像导演喊"回放第 42 秒"一样精准。

从素材到成片，AI 在每一步都被拴着

整个流程看起来像一条流水线：

转写 → 打包 → LLM 推理 → 生成剪辑决策表 → 渲染 → 自评

但跟"让 AI 自由发挥"的思路完全不同——每一步都被约束在可控范围内。

最精巧的设计是自评循环。渲染完成后，AI 会在每一个切点重新跑 timeline_view，检查三件事：视觉跳帧、音频爆音、字幕遮挡画面。发现问题就原地修正，最多重试三次，才把预览交给你。

不需要全程盯着，AI 自己给自己打完分再交作业。

它能干什么活

翻完 README，功能覆盖了剪辑师日常最频繁的操作：

去口头禅——umm、uh、重复开头、说错的中断，一刀切掉
色彩校正——暖色电影风 / 中性自然 / 自定义 ffmpeg 链，每段素材独立调色
音频淡入淡出——每一个切点自动加，防止爆音
字幕嵌入——默认两词大写分段，字体/位置/样式完全可配置
动画叠加——支持 HyperFrames、Remotion、Manim、PIL 四种引擎，以并行 subagent 方式生成

但这些操作不是写死在代码里的固定流程。AI 根据你的自然语言指令，动态生成 EDL（Edit Decision List，剪辑决策表）。你说"把第二段素材的色调调成暖色电影风，去掉所有 umm"，它就生成对应的剪辑指令序列。

Skill，不是 App

video-use 的产品形态也值得注意——它是一个 Skill，不是一个独立 App。

安装方式：

# 1. Clone 并链接到你的 Agent 技能目录
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use

# 2. 安装依赖
cd ~/Developer/video-use
uv sync
brew install ffmpeg
brew install yt-dlp  # 可选，用于下载在线素材

# 3. 配置 ElevenLabs API Key
cp .env.example .env
# 编辑 .env 填入 ELEVENLABS_API_KEY

装完之后，你不需要打开任何剪辑软件。把素材丢进文件夹，跟 Claude Code 说一句"帮我剪成发布视频"，它就开始干活了。

这个选择背后有深意：Skill 意味着它寄生在 Agent 的能力体系里，而不是另起炉灶。你的 Agent 已经能读文件、跑命令、调 API，video-use 只是给它加了一组视频剪辑的"手艺"。

一个比视频更大的问题

browser-use 团队连续做了两个项目，思路一脉相承：

browser-use（10万+ Star）：不让 AI 看网页截图，给它结构化的 DOM 树
video-use（13.3k Star）：不让 AI 看视频帧，给它转写文本+时间轴

同一个方法论，两次验证：设计工具的时候，最偷懒的方式是模仿人，最有效率的方式是理解工具使用者的本质能力。

人看视频靠眼睛，所以剪辑软件给你时间轴和预览窗口。但 LLM 的强项是文本理解、上下文推理、精准执行指令——不是"视觉搜索"。

这个答案可能不止适用于视频。任何非结构化数据，只要找到合适的结构化表示，就能被 LLM 高效处理。音频可以转文字，3D 模型可以转场景描述，代码可以转 AST……

不是让 AI 变成人，是让 AI 做 AI 最擅长的事。

项目地址：https://github.com/browser-use/video-use

为什么 AI 剪视频不需要看视频——13.3k Star 的 video-use 藏着一个反直觉答案

一段视频，怎么变成 12KB

从素材到成片，AI 在每一步都被拴着

它能干什么活

Skill，不是 App

一个比视频更大的问题

评论