Marketing

让 ChatGPT 写 100 个邮件标题，最后能打的只有 5 个

2025年9月4日

去年夏天我在给一门 B2B 课程准备闪购邮件。四万订阅，48 小时窗口，那种 1% 打开率波动就能左右收益的发送。我当时已经手写了 3 个标题，几乎就要发了。

然后冒出一个念头：要不直接问 ChatGPT 要 100 个？

30 秒后我拿到 100 个标题。绝大多数是垃圾。但有 5 个进入了正式 A/B 测试，其中一条——我自己绝对不会想到的变体——比我的"心选"标题还高 19% 打开率。

这就是我现在的工作流。100 不是魔法数字，而是它逼着你搭一套筛选框架。框架本身才是重点。

我实际用的 Prompt

我给了 ChatGPT 五个输入，按这个顺序：

邮件目标（B2B 课程闪购，48 小时窗口）
受众（中段职业营销人，30–45 岁，美国 + 欧洲）
价格（$497，早鸟减 $100）
读者最大的痛点（他们私信里反复说："不知道先学哪个 AI 工具"）
三条负面约束：不要全大写、不要 "FREE!!!" 这种垃圾套路、emoji 除非是明显加分项才用

然后我让它分 5 个情绪角度各写 20 个，共 100 个：

好奇心
具体收益 / 数字
紧迫 / 稀缺
反常识 / 颠覆
提问 / 个性化

输出格式：表格，列出标题 + 所属角度 + 字符数。最后那列比多数人以为的更重要。

两个值得说的细节。第一，100 是个"强制函数"。20 个候选时，模型容易全在 "How to..." 和 "X tips for..." 里打转；100 个的时候，模型被迫跳出默认套路，差异性才出得来。第二，把请求拆成 5 个角度，让我能分别打分，而不是盯着 100 行文本凭感觉挑。

进了测试的 5 个标题

第一轮肉眼扫一遍，100 砍到 25。再过 4 条筛选标准（下面有），砍到 5。下面这 5 个就是我最终测试的，顺序是按我对每个标题的"预期获胜概率"排的：

1. "The 48-hour AI tool stack (pick one and ship it by Friday)"

角度：具体收益 + 时间框架
为什么看好：标题里直接给了动作（"pick one"）和时间压力（"by Friday"），而不是空喊 "limited time!"。读 AI 工具清单最常见的反应是信息过载，"挑一个"这个动作本身就是钩子。

2. "Why we're not selling a course this week"

角度：反常识
为什么选它：颠覆了"来买课"的预期框架。读者第一反应是"等等，why?"——这个认知缺口就是打开的理由。我当时其实有点紧张，但它符合我数据里反复出现的一个规律：能跟正文呼应的反常识标题，单独的好奇心诱饵强大约 2 倍。

3. "[Last 24 hrs] The AI tool stack that replaces 4 SaaS subscriptions"

角度：紧迫 + 具体收益
为什么选它：方括号 "Last 24 hrs" 是清晰的视觉锚点，移动端截断后仍能识别。"replaces 4 subscriptions" 是数字+收益，不是空话。我当时赌它整体能赢。

4. "Should you learn ChatGPT, Claude, or Gemini first? (we asked 1,200 marketers)"

角度：提问 + 社会证明
为什么选它：问句结构天然把读者拉进来。"we asked 1,200 marketers" 是具体数字，不是 "we surveyed experts" 那种空话。在 5 个里我把它当黑马。

5. "Hi {first_name}, your AI tool stack is on sale"

角度：个性化
为什么选它：纸面上最无聊的一条。选它是因为 Klaviyo、Mailchimp、Customer.io 都支持个性化 token，我数据里 token 平均能拉 5–10% 打开率。假设：单独跑赢不了，但能当成 token 单独效应的"基线参考"。

我用的 4 条筛选标准（100 → 5）

读列表之前先写好标准。这一步多数人跳过，但这是最关键的一步。我的评分维度：

1. 扫读测试。 模拟你扫收件箱的速度读这条标题。它能不能在竞品邮件里抢到你的注意力？需要想一下的，直接淘汰。1–5 分。

2. 长度。 50 字符以下最稳。移动端打开占多数，iPhone 上超过 55 字符就可能被截掉关键钩子。1–5 分。

3. 具体性。 有没有具体数字、时间、工具、地点或结果？模糊的"赢"基本都是输。"Boost your productivity" 输给 "Cut your reporting time by 40%"。1–5 分。

4. 发送方人设匹配。 你自己发这条能不能想象？如果你平时像 50 岁的顾问口吻，写"growth hacker"那种梗，受众会感到错位。1–5 分。

满分 20。我留 16 分以上的进测试，通常剩 3–7 条。

两个提醒：上限 5 分不是 10 分——LLM 当裁判时如果不卡上限，会倾向于给高分；我会在 16+ 里再人工重排前 3，因为模型的平局规则基本没用。评分帮你进短名单，人工排序帮你下决定。

我怎么跑测试

Customer.io 里标准 A/B/n 测试：

每个分支 4% 列表——我 5 个最终候选 + 2 个手写原稿 = 7 个分支，每个约 5.7%
随机抽 5% 做对照组
一次发送，周二收件人当地时间上午 9 点
24h 看打开、48h 看点击、7 天看转化（真正能结算的指标）

我没用顺序测试。顺序测试对邮件来说统计上太狠——每个分支要几千次曝光才能稳定，而你必须等累积效应。一个周二上午 9 点的发送是干净的 24 小时窗口，24h 就能直接横向比。

测试结果

我手写的两条原稿并列第三、四名。冠军是 #2——"Why we're not selling a course this week"——38.2% 打开率，我最好的原稿是 32.1%。CTR 差距小一些（4.1% vs 3.7%）——打开率是反常识钩子在起作用，点击更平，这合理：诱饵完成了打开的活，剩下的要靠正文扛。

"replaces 4 subscriptions"（#3）排第二，35.8%——结构干净、容易跨产品线复用，属于"模板级"赢家。

个性化那条（#5）垫底，27.4%，7 个里最差。我之前对 token 基线判断错了。没有钩子的情况下，"Hi {name}" 拉不动打开率。个性化是好标题的乘数，不是替代品。

提问那条（#4）也低于预期，30.2%，连原稿都没打过。假设原因：承诺社会证明的问句（"1,200 marketers"）这 18 个月来作为钩子已经失效了——现在读起来更像"我们出了个报告"而不是"我们有新消息"。这种格式留着用在常青内容上，闪购就别用了。

多数人会踩的坑

直觉是测试"听起来最棒"的那条。这是错的。

你觉得好的标题，匹配的是你的审美，不是读者的。你的审美天然偏向聪明的小词、内部梗、行业里"听起来对"的句式。这些都不是收件箱里的打开率驱动。

100 → 5 → 测试这条流水线，就是用来打掉这种偏差的。问 100 个是因为模型生产比阅读快。砍到 5 个要靠标准，不是靠感觉。最后做测试是因为真正的权威只在收件箱——不在你脑子里，不在你 CMO 那里，也不在代理公司"资深策略"嘴里。

我现在每发 10K 订阅以上的邮件都跑一遍。成本大概 $0.20 的 ChatGPT tokens，加 30 分钟我的时间。提升通常是几个百分点的打开率，偶尔更多。是我跑过最便宜的实验，也是少数几个稳定不亏时间的。

我不会跑的情况

小发送（5K 以下）别跑。统计噪声会吃掉结果，而 prompt 时间会盖过任何测试赢家带来的收益。事务性邮件（密码重置、订单确认）也别跑——那套规则不一样，事务性邮件上玩"创意标题"对信任通常净是负贡献。一次发送里分支别超过 5 个——再往上分，受众被切得太薄，24h 内没有分支能跑到显著。

如果你做到这三件事——生成 100 条、用书面 rubric 砍到 5 条、一次发送里测完——你就不会再在脑子里反复纠结标题，而是让收件箱回答你。模型替代不了判断力，它替代的是空白页。

至于那条让我意外胜出的标题——"Why we're not selling a course this week"。我自己不会写出来。这正是整个工作流的意义。

Twitter LinkedIn Facebook Reddit Email

用 ChatGPT 做 Meta 标题 A/B 测试：生成、排序、上线每天 5 条有内容的 LinkedIn 评论：我替代发帖的 Perplexity + ChatGPT 循环 9 天测 200 条广告创意:我的「生产 + 排序」全流程 A/B 测试样本量:别再拍脑袋了——这是我每次开测前都会跑的 Gemini 提示词