Content

把一段 YouTube 视频改成一篇 2000 字博客（不带 AI 味）

2025年2月18日

上个月我帮一个 B2B SaaS（Software as a Service，软件即服务）创始人，把一段 24 分钟的客户访谈视频改成了一篇 2100 字的博客。两年没攻下来的搜索词，这篇博文直接进了首页。访谈视频本来就有，整个改写过程大约 90 分钟。他之所以拖了两年，是因为我们一直在忽略一个大概能产出 40 篇博客的内容库——因为把视频转录稿改成文章，感觉比从零写更费劲。

只要你掌握流程，并不会。

大多数营销人掉进的坑，就是把转录稿当成草稿用。不是。转录稿是原材料——它更接近矿石而不是金属。如果你直接让 Claude 3.5 Sonnet 或 GPT-4o "把这段转录稿改成博客"，你拿到的是一篇能读得下去但毫无棱角的内容，充满"口语转书面"的常见 AI 味：缩写被展开、对冲词被加上、每段都用一句"在我们开始之前……"的清嗓子作开头。解决办法是分阶段改写，且每一阶段只做一件事。

下面是我现在给视频内容库丰富的客户固定使用的工作流。

第 1 步：拿一份干净的转录稿，不是花哨的

你不需要付 Rev 每分钟 1.5 美元。90% 的场景下，三个免费来源就够了：

YouTube 自动字幕 —— 打开任何一个 YouTube 视频，点右上角三点菜单，"显示文字记录（Show transcript）"，复制粘贴。全部小写，没有标点，但单词准确率大概 95%。
Whisper（OpenAI 开源的语音转文字）—— 标点比 YouTube 好，需要分多个说话人也能做。本地跑免费；走 API 大概每分钟 0.006 美元。
Descript —— 如果你的视频本来就在 Descript 里剪，转录稿一开始就在那里等着你。

有一件没人告诉你的事：不要在喂给模型之前清洗转录稿。那些"嗯""你懂我意思吧""所以基本上就是说……"——这些不是噪音，是信号。它们会集中在讲者表达力最弱的地方。讲者真正想清楚了的句子，会自然干净地说出来。如果你提前把这些口语填词清掉，你也就抹掉了模型用来判断**"哪些段落值得进博客、哪些是讲者在出声思考"的那层纹理**。

第 2 步：在改写任何东西之前，先把论证骨架提出来

这一步几乎所有工作流都会跳过，也是为什么大多数"视频转博客"输出读起来像散乱的摘要。在任何改写之前，让模型先把**论证（argument）**捞出来，不是内容。

你在读一份 24 分钟视频的转录稿。在改写之前，先做这件事：

1. 找出讲者的核心主张（central claim）。一句话。
2. 列出支撑它的 3-5 个子主张（sub-claim），按讲者在视频里说出的顺序。
3. 对每个子主张，列出讲者用来支撑它的具体例子、数字或故事。
   直接引用转录稿里的原话。
4. 标出任何"只提了但从未支撑"的子主张。我们可能会把它从博客里删掉。

先不要做摘要。先不要改写。只要把论证地图画出来。

返回的就是这篇博客的提纲——但是建立在讲者实际说过的话之上，而不是模型对这个话题"应该"包含什么的猜测。第 4 步的标注尤其重要。讲者会即兴。他们会甩出自己其实没法支撑的主张。在视频里这种主张落地没问题，因为下一句话就把它带过去了。在博客里，同样一句话会一动不动地躺在页面上，等着读者在评论区挑战它。

大约三分之一的情况下，这一步还会浮现出视频真正的论点——通常不是讲者在片头承诺的那个。用转录稿揭示出来的，不用片名宣称的。

第 3 步：按段进行"口语转书面"的翻译

到这里才动笔改写——但不要一气呵成。一次性改写正好就是模型把你的语气磨平、把内容煮成"AI 味浆糊"的入口。按段改写，每一段对应第 2 步提出来的一个子主张：

下面这段转录稿对应大纲里的子主张 #2。

把它改写成博客的一两个段落。规则：

- 讲者用的有特点的措辞，原样保留。比如他说 "ratchet down"，
  不要改成 "reduce"。
- 把口语专属的连接结构改成书面写法：
  "所以我的意思是……" → 删掉，直接说那件事。
  "另外还有一个事是……" → 另起一段。
  "你懂的……" → 删掉。
- 讲者用了数字，就保留数字。不要四舍五入，不要软化。
- 讲者讲了一个 4 句话的故事，就保留为 4 句话的故事。不要压缩成一个从句。
- 长度：大约是这一段转录字数的 1.4 倍。口语的信息密度高,书面文字
  需要更多骨架,同样的观点才能在页面上站住。

只输出改写后的内容。不要小标题、不要评论。

1.4 倍这条规则是要刻进脑子里的。新接触这套工作流的写手永远会压缩转录稿，因为口语填词让原文感觉比实际长。但内容本身是密的，需要更多页面空间，不是更少。压缩之后，那些让观点能落地的例子也跟着没了。

每个子主张跑一次这条 prompt。5 个子主张就是 5 次。比一次性改写慢，但输出干净 3–4 倍。

第 4 步：补上视频不需要、博客必须有的东西

视频可以靠讲者的脸、语气、节奏来传递意思。博客只能用结构来做这件事。逐段改写完成之后，加上原视频里不存在的东西：

真正的开头钩子。视频片头大多是热身："大家好，今天我们要聊……"。没人会读这种。删掉。把视频后半段里最让人意外的那一句捞出来，搬到第一段。
每 250–400 字一个小标题。对博客来说，可扫读的结构比文字本身更重要。读者总是先扫，再读。
至少一个表格、代码块或者列表——前提是内容撑得起。不要在散文里假装结构。但讲者经常会说一些形状像列表的内容（"做这件事有三种方法"），它在视频里讲出来像散文没问题，但在页面上做成列表更合适。
一句引文或者总结句对应核心主张，加粗。只看小标题和加粗句的读者，也应该能拿走完整论点。

让模型只建议，不动手：

这是改写后的草稿。请建议：
- 1 个备选开头,从博客后半段的具体句子里挑
- 每 250-400 字一处小标题位置
- 哪些段落更适合改成列表、表格或代码块
- 一句话作为整篇的核心主张并加粗

不要改写。只给建议。我自己来动手。

是你来应用，不是模型。这是编辑环节，应该留在人类手上。

第 5 步：在不破坏语气的前提下做 SEO

可选项，但如果这篇博客要排名，把这一步留到最后——绝对不要放在改写之前，否则关键词会一路反向劫持文案：

这篇博客的主关键词目标是 "[你的关键词]"。
在不改变语气、不增加新主张的前提下,请建议:
- 1 个修订标题（60 字符内）, 自然使用关键词
- 1 段 meta description（155 字符内）, 来自博客实际内容
- 文中 3 处可以塞入关键词或近似变体而不影响阅读流畅度的位置
- 2 个内链锚文本机会, 并给出建议锚文本

如果有任何建议需要软化讲者的主张来"更品牌一些",请直接跳过。
语气优先于关键词密度。

最后那句指令最关键。不加约束的 SEO 类 prompt 会悄悄把一个锋利的主张磨平，只为塞进关键词。别让它干这种事。一篇排在第 3 页但听起来像个具体的人写的文章，长期价值高于一篇排在第 1 页但读起来像模板的文章。

一段真实的 before/after

下面这段来自最近一个客户的视频，跑了完整的工作流。

原始转录稿：

嗯所以关于内容发布频率这件事呢，就是，所有人都觉得发得越多越好对吧？但其实不是。真的不是。我去年有个客户，他们一周发四次，自然搜索流量基本是零。我们让他们改成一周发一次，四个月之后流量涨了 3 倍。同一个写手。同一个细分领域。就是发得少了，但每一篇都是真的写好的。

朴素 AI 改写（你直接说"把这段改成博客段落"会得到的东西）：

在内容发布频率方面，许多营销人员认为发布频率越高效果越好。然而这通常是一种误解。例如，某客户每周发布四次但获得的自然流量微乎其微。在将频率降低至每周一次并提升质量后，其流量在四个月内增长了三倍。

工作流输出：

所有人都以为内容频率意味着"更多"。不是。我有个客户一周发四次，自然搜索流量基本是零。我们让他们改成一周一次。四个月后流量涨了 3 倍。同一个写手、同一个细分领域——就是发得少，每一篇都真的写好。

第三个版本比第一个短，比第二个长。它也是唯一一个你能听见有个具体的人在说一件事的版本。保住讲者那句"basically zero"（"基本是零"），不让模型把它翻译成"微乎其微"——正是这套工作流的价值所在。

这套流程在哪里会崩

几个我亲眼看过这套工作流栽进去的失败模式：

视频本身就烂。没有任何工作流能拯救一份本身没有论点的转录稿。如果第 2 步产出的大纲很薄，那篇博客也会薄。换一个视频。

讲者的幽默感远高于他的清晰度。口头表达里的喜剧效果大多翻译不过来。如果原视频靠的是节奏和表情博笑，改出来的博客会显得平。你需要在改写时加上书面专属的幽默——紧凑的句子节奏、出乎意料的结尾、偶尔来一段单句段落——而不是去保留原视频里的口头笑点。

双人访谈视频要换一套做法。上面的工作流默认单人讲述。访谈类内容，第 1–2 步要对两个讲者分别做一遍，第 3 步再编织起来。不要试图把两个声音合并成一个——你会丢掉这段对话之所以值得录的那部分。

长视频会撑爆上下文窗口。一段 90 分钟的 webinar（在线研讨会）转录稿能轻松超 12000 字，开始逼近模型清晰持有的工作记忆上限。把它切成 20 分钟一段，每一段跑一遍工作流，最后再做一次合并 pass。

如果重新来过我会怎么做

如果今天让我从零搭这套工作流，我会把所有 prompt 都内置进一个 Claude Project，pin 上一份风格指南，再把讲者三篇写得最好的书面文章放进 context。这样"口语转书面"的规则和讲者的声音样本，每一次对话默认就加载好。整个 90 分钟的改写过程会压到 40 分钟左右。这种工作流前 10 篇做下来比从零写还慢；到第 15 篇，整个内容库就开始用时间还你——以前你只能盯着空白文档发呆的那种时间。

这套工作流的意义不是大批量生产内容。是为了让你停止忽略那些早就存在、但因为'改起来感觉比从零写更费劲'就被你晾着的视频资产。我认识的大部分营销人都有一个文件夹，里面堆满 webinar 录像、播客串场、客户访谈——没人在读，因为没人会去读"录像"。文字一直在里面，工作流只是把它挖出来。

Twitter LinkedIn Facebook Reddit Email

把一篇核心文章变成 12 条 LinkedIn/Twitter/IG 帖(还不像机器人) 20 条不发水互动的 LinkedIn 投票(Claude) 从 G2 / Trustpilot / Amazon 评论里挖 30 条 TikTok 脚本（Claude 批量生成） 5 步挽回 500 名"卡在第 3-5 天"的免费试用用户（Customer.io + Claude）