Marketing

让 ChatGPT 写 100 个邮件标题,最后能打的只有 5 个

让 ChatGPT 写 100 个邮件标题,最后能打的只有 5 个
目录

去年夏天我在给一门 B2B 课程准备闪购邮件。四万订阅,48 小时窗口,那种 1% 打开率波动就能左右收益的发送。我当时已经手写了 3 个标题,几乎就要发了。

然后冒出一个念头:要不直接问 ChatGPT 要 100 个?

30 秒后我拿到 100 个标题。绝大多数是垃圾。但有 5 个进入了正式 A/B 测试,其中一条——我自己绝对不会想到的变体——比我的"心选"标题还高 19% 打开率。

这就是我现在的工作流。100 不是魔法数字,而是它逼着你搭一套筛选框架。框架本身才是重点。

我实际用的 Prompt

我给了 ChatGPT 五个输入,按这个顺序:

  • 邮件目标(B2B 课程闪购,48 小时窗口)
  • 受众(中段职业营销人,30–45 岁,美国 + 欧洲)
  • 价格($497,早鸟减 $100)
  • 读者最大的痛点(他们私信里反复说:"不知道先学哪个 AI 工具")
  • 三条负面约束:不要全大写、不要 "FREE!!!" 这种垃圾套路、emoji 除非是明显加分项才用

然后我让它分 5 个情绪角度各写 20 个,共 100 个:

  1. 好奇心
  2. 具体收益 / 数字
  3. 紧迫 / 稀缺
  4. 反常识 / 颠覆
  5. 提问 / 个性化

输出格式:表格,列出标题 + 所属角度 + 字符数。最后那列比多数人以为的更重要。

两个值得说的细节。第一,100 是个"强制函数"。20 个候选时,模型容易全在 "How to..." 和 "X tips for..." 里打转;100 个的时候,模型被迫跳出默认套路,差异性才出得来。第二,把请求拆成 5 个角度,让我能分别打分,而不是盯着 100 行文本凭感觉挑。

进了测试的 5 个标题

第一轮肉眼扫一遍,100 砍到 25。再过 4 条筛选标准(下面有),砍到 5。下面这 5 个就是我最终测试的,顺序是按我对每个标题的"预期获胜概率"排的:

1. "The 48-hour AI tool stack (pick one and ship it by Friday)"

  • 角度:具体收益 + 时间框架
  • 为什么看好:标题里直接给了动作("pick one")和时间压力("by Friday"),而不是空喊 "limited time!"。读 AI 工具清单最常见的反应是信息过载,"挑一个"这个动作本身就是钩子。

2. "Why we're not selling a course this week"

  • 角度:反常识
  • 为什么选它:颠覆了"来买课"的预期框架。读者第一反应是"等等,why?"——这个认知缺口就是打开的理由。我当时其实有点紧张,但它符合我数据里反复出现的一个规律:能跟正文呼应的反常识标题,单独的好奇心诱饵强大约 2 倍。

3. "[Last 24 hrs] The AI tool stack that replaces 4 SaaS subscriptions"

  • 角度:紧迫 + 具体收益
  • 为什么选它:方括号 "Last 24 hrs" 是清晰的视觉锚点,移动端截断后仍能识别。"replaces 4 subscriptions" 是数字+收益,不是空话。我当时赌它整体能赢。

4. "Should you learn ChatGPT, Claude, or Gemini first? (we asked 1,200 marketers)"

  • 角度:提问 + 社会证明
  • 为什么选它:问句结构天然把读者拉进来。"we asked 1,200 marketers" 是具体数字,不是 "we surveyed experts" 那种空话。在 5 个里我把它当黑马。

5. "Hi {first_name}, your AI tool stack is on sale"

  • 角度:个性化
  • 为什么选它:纸面上最无聊的一条。选它是因为 Klaviyo、Mailchimp、Customer.io 都支持个性化 token,我数据里 token 平均能拉 5–10% 打开率。假设:单独跑赢不了,但能当成 token 单独效应的"基线参考"。

我用的 4 条筛选标准(100 → 5)

读列表之前先写好标准。这一步多数人跳过,但这是最关键的一步。我的评分维度:

1. 扫读测试。 模拟你扫收件箱的速度读这条标题。它能不能在竞品邮件里抢到你的注意力?需要想一下的,直接淘汰。1–5 分。

2. 长度。 50 字符以下最稳。移动端打开占多数,iPhone 上超过 55 字符就可能被截掉关键钩子。1–5 分。

3. 具体性。 有没有具体数字、时间、工具、地点或结果?模糊的"赢"基本都是输。"Boost your productivity" 输给 "Cut your reporting time by 40%"。1–5 分。

4. 发送方人设匹配。 你自己发这条能不能想象?如果你平时像 50 岁的顾问口吻,写"growth hacker"那种梗,受众会感到错位。1–5 分。

满分 20。我留 16 分以上的进测试,通常剩 3–7 条。

两个提醒:上限 5 分不是 10 分——LLM 当裁判时如果不卡上限,会倾向于给高分;我会在 16+ 里再人工重排前 3,因为模型的平局规则基本没用。评分帮你进短名单,人工排序帮你下决定。

我怎么跑测试

Customer.io 里标准 A/B/n 测试:

  • 每个分支 4% 列表——我 5 个最终候选 + 2 个手写原稿 = 7 个分支,每个约 5.7%
  • 随机抽 5% 做对照组
  • 一次发送,周二收件人当地时间上午 9 点
  • 24h 看打开、48h 看点击、7 天看转化(真正能结算的指标)

我没用顺序测试。顺序测试对邮件来说统计上太狠——每个分支要几千次曝光才能稳定,而你必须等累积效应。一个周二上午 9 点的发送是干净的 24 小时窗口,24h 就能直接横向比。

测试结果

我手写的两条原稿并列第三、四名。冠军是 #2——"Why we're not selling a course this week"——38.2% 打开率,我最好的原稿是 32.1%。CTR 差距小一些(4.1% vs 3.7%)——打开率是反常识钩子在起作用,点击更平,这合理:诱饵完成了打开的活,剩下的要靠正文扛。

"replaces 4 subscriptions"(#3)排第二,35.8%——结构干净、容易跨产品线复用,属于"模板级"赢家。

个性化那条(#5)垫底,27.4%,7 个里最差。我之前对 token 基线判断错了。没有钩子的情况下,"Hi {name}" 拉不动打开率。个性化是好标题的乘数,不是替代品。

提问那条(#4)也低于预期,30.2%,连原稿都没打过。假设原因:承诺社会证明的问句("1,200 marketers")这 18 个月来作为钩子已经失效了——现在读起来更像"我们出了个报告"而不是"我们有新消息"。这种格式留着用在常青内容上,闪购就别用了。

多数人会踩的坑

直觉是测试"听起来最棒"的那条。这是错的。

你觉得好的标题,匹配的是你的审美,不是读者的。你的审美天然偏向聪明的小词、内部梗、行业里"听起来对"的句式。这些都不是收件箱里的打开率驱动。

100 → 5 → 测试这条流水线,就是用来打掉这种偏差的。问 100 个是因为模型生产比阅读快。砍到 5 个要靠标准,不是靠感觉。最后做测试是因为真正的权威只在收件箱——不在你脑子里,不在你 CMO 那里,也不在代理公司"资深策略"嘴里。

我现在每发 10K 订阅以上的邮件都跑一遍。成本大概 $0.20 的 ChatGPT tokens,加 30 分钟我的时间。提升通常是几个百分点的打开率,偶尔更多。是我跑过最便宜的实验,也是少数几个稳定不亏时间的。

我不会跑的情况

小发送(5K 以下)别跑。统计噪声会吃掉结果,而 prompt 时间会盖过任何测试赢家带来的收益。事务性邮件(密码重置、订单确认)也别跑——那套规则不一样,事务性邮件上玩"创意标题"对信任通常净是负贡献。一次发送里分支别超过 5 个——再往上分,受众被切得太薄,24h 内没有分支能跑到显著。

如果你做到这三件事——生成 100 条、用书面 rubric 砍到 5 条、一次发送里测完——你就不会再在脑子里反复纠结标题,而是让收件箱回答你。模型替代不了判断力,它替代的是空白页。

至于那条让我意外胜出的标题——"Why we're not selling a course this week"。我自己不会写出来。这正是整个工作流的意义。