为什么 AI 剪视频不需要看视频——13.3k Star 的 video-use 藏着一个反直觉答案

为什么 AI 剪视频不需要看视频——13.3k Star 的 video-use 藏着一个反直觉答案

一段 3 分钟的 1080p 视频,拆成帧大约 5400 张图。按 GPT-4o 的视觉 token 计价,光"看完"就要烧掉几千万 tokens——还没动手剪一刀。

这就是为什么大多数"AI 自动剪辑"产品要么卡得要命,要么贵得离谱。它们在干一件违反物理规律的事:让一个文本引擎去"看"视频。

但 browser-use 团队不这么想。他们刚开源的 video-use 已经拿到 13.3k Star、1.7k Fork,而它的核心思路只有一句话:

不给 AI 看画面,给 AI 读剧本。

一段视频,怎么变成 12KB

video-use 的技术路线分两层,第一层是"全程加载"的文本转写。

每段素材跑一遍 ElevenLabs Scribe,输出词级别的精确时间戳、说话人分离(谁在说话)、音频事件标记(笑声、掌声、音乐起)。所有素材最终被打包成一个约 12KB 的 takes_packed.md 文件。

12KB。一段可能几个 GB 的原始素材,被压缩到一条微信消息的大小。

这就是 AI 的"工作台"——不是时间轴,不是预览窗口,是一个它最擅长处理的文本文件。

第二层是"按需加载"的视觉快照。遇到有歧义的停顿、需要检查剪切点画质时,用 timeline_view 工具抓一张波形图+帧叠加的 PNG,只看那几秒钟。不是全程盯着屏幕,而是像导演喊"回放第 42 秒"一样精准。

从素材到成片,AI 在每一步都被拴着

整个流程看起来像一条流水线:

转写 → 打包 → LLM 推理 → 生成剪辑决策表 → 渲染 → 自评

但跟"让 AI 自由发挥"的思路完全不同——每一步都被约束在可控范围内。

最精巧的设计是自评循环。渲染完成后,AI 会在每一个切点重新跑 timeline_view,检查三件事:视觉跳帧、音频爆音、字幕遮挡画面。发现问题就原地修正,最多重试三次,才把预览交给你。

不需要全程盯着,AI 自己给自己打完分再交作业。

它能干什么活

翻完 README,功能覆盖了剪辑师日常最频繁的操作:

  • 去口头禅——umm、uh、重复开头、说错的中断,一刀切掉
  • 色彩校正——暖色电影风 / 中性自然 / 自定义 ffmpeg 链,每段素材独立调色
  • 音频淡入淡出——每一个切点自动加,防止爆音
  • 字幕嵌入——默认两词大写分段,字体/位置/样式完全可配置
  • 动画叠加——支持 HyperFrames、Remotion、Manim、PIL 四种引擎,以并行 subagent 方式生成

但这些操作不是写死在代码里的固定流程。AI 根据你的自然语言指令,动态生成 EDL(Edit Decision List,剪辑决策表)。你说"把第二段素材的色调调成暖色电影风,去掉所有 umm",它就生成对应的剪辑指令序列。

Skill,不是 App

video-use 的产品形态也值得注意——它是一个 Skill,不是一个独立 App。

安装方式:

# 1. Clone 并链接到你的 Agent 技能目录
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use

# 2. 安装依赖
cd ~/Developer/video-use
uv sync
brew install ffmpeg
brew install yt-dlp  # 可选,用于下载在线素材

# 3. 配置 ElevenLabs API Key
cp .env.example .env
# 编辑 .env 填入 ELEVENLABS_API_KEY

装完之后,你不需要打开任何剪辑软件。把素材丢进文件夹,跟 Claude Code 说一句"帮我剪成发布视频",它就开始干活了。

这个选择背后有深意:Skill 意味着它寄生在 Agent 的能力体系里,而不是另起炉灶。你的 Agent 已经能读文件、跑命令、调 API,video-use 只是给它加了一组视频剪辑的"手艺"。

一个比视频更大的问题

browser-use 团队连续做了两个项目,思路一脉相承:

  • browser-use(10万+ Star):不让 AI 看网页截图,给它结构化的 DOM 树
  • video-use(13.3k Star):不让 AI 看视频帧,给它转写文本+时间轴

同一个方法论,两次验证:设计工具的时候,最偷懒的方式是模仿人,最有效率的方式是理解工具使用者的本质能力。

人看视频靠眼睛,所以剪辑软件给你时间轴和预览窗口。但 LLM 的强项是文本理解、上下文推理、精准执行指令——不是"视觉搜索"。

这个答案可能不止适用于视频。任何非结构化数据,只要找到合适的结构化表示,就能被 LLM 高效处理。音频可以转文字,3D 模型可以转场景描述,代码可以转 AST……

不是让 AI 变成人,是让 AI 做 AI 最擅长的事。

项目地址:https://github.com/browser-use/video-use

评论

暂无评论。

登录后可发表评论。