Meta 创意测试矩阵:一天 75 条广告的 3 × 5 × 5 打法
目录
去年三月的一个周二,下午 4:17 我把 75 条广告全部传进一个 Advantage+ Shopping Campaign(ASC,Meta 智能购物广告系列 —— 一种由算法自动分配预算和受众的智能投放结构),Google Sheet 里 75 行涂了不同颜色,桌上放着半杯凉掉的咖啡。客户是一家 B2B SaaS(Software as a Service,软件服务)公司,产品是面向独立创业者的 $49/月日程工具,在 Meta 上每天花 $2,100。到当周周五,75 条里 61 条一分预算都没花出去。再到下周二,11 条还在跑量,2 条已经明显胜出。这套 kill 模式跟我那年跑的其他测试一模一样,我已经不再惊讶。下面是 6 个工时产出 75 条广告的完整 3 × 5 × 5 工作流。
为什么是 75,为什么是 3 × 5 × 5
Meta 当年「每个 ad set 不超过 6 条广告」的建议在 2025 年悄悄从他们的文档里消失了。原因是 Andromeda 升级(2025 年 Meta 的排序模型更新,核心逻辑从「匹配受众」转向「为不同人匹配不同广告」)需要素材量,而不是受众精度,来识别信号。我接触的头部投放现在每个 ad set 跑 15-50 条广告。但「50 条随机广告」只是烧钱 —— 你需要一种结构,让 auction(实时竞价系统,Meta 每次展示广告时实时出价的机制)能告诉你为什么赢家会赢。
这个矩阵是用最小结构隔离三个独立变量。3 个 hook、每个 hook 5 个视觉、每个视觉 5 个 CTA,每个格子都是一条独立广告。总数 75 —— 是 Meta 算法能「有统计信心地」宣布赢家、且你本人也能读出结构的最小数字:哪个 hook 角度赢了、哪个视觉概念赢了、哪个 CTA 模式赢了。5 条 A/B 测试做不到这一点。75 条结构化矩阵可以,而且一周内出结果。
我选 3 × 5 × 5 而不是 4 × 4 × 4(也是 64)或 5 × 5 × 3(也是 75)是刻意的。3 个 hook 是区分「谁在讲话」(问题感知、方案感知、品牌忠诚)的最小集合。5 个视觉足够覆盖 UGC / 棚拍 / 生活方式 / before-after / 创始人出镜这五种原型而不留缝。5 个 CTA 足够测试 offer 阶梯 —— 免费试用、$1 试用、demo 通话、低承诺 lead magnet、硬卖 —— 又不让格子被噪音撑爆。这三维的笛卡尔积,就是能让你把赢家归因到原因(而不是只看相关性)的最小矩阵。
一天的工作,按时块切
8:00-11:00 —— 用 Claude 出 3 个 hook 角度
开始这个时间块之前,唯一要先锁死的是 brief。一个产品、一个 offer、一个 KPI(Key Performance Indicator,关键绩效指标)、一个承诺。SaaS 客户当时的 brief: $49/月、14 天免费试用、KPI 是激活的试用注册数、承诺是「不再被重复预约困扰」。整个脚手架就这些。
3 个 hook 角度 —— 问题感知、方案感知、品牌忠诚 —— 配合一个 prompt 喂给 Claude:「每个角度生成 25 条不同的 1-2 句 hook 变体,每条都要能直接当 Meta 广告的 primary text 开头。语气要变化:直接、共情、对立、事实陈述。不要『revolutionary』,不要『game-changing』,不要陈词滥调。Offer 用 brief 里的。」
输出 75 条 hook 候选。我用三条标准在 90 分钟内打分:是否点出具体痛点、是否符合 brief 语气、用户边吃午饭边刷到会不会接着读。大约每角度留 25 条 —— 75% 的通过率看起来很高,但你只要记得 Claude 第一轮输出里有多少是废话。
11:00-13:00 —— 用 Recraft / GPT-Image 出 5 个视觉
5 个视觉原型。我几乎给所有客户都用的 5 个:
- UGC 镜面 —— 手机拍、第一视角、灯光略糙
- 白底产品图 —— 干净棚拍、利落阴影、SaaS UI 大字突出
- 生活方式 —— 真实场景里有人在用产品(家庭办公、咖啡馆、共享办公)
- Before/After —— 左右分屏,「一团糟的日程」vs「用了产品之后的日程」
- 创始人出镜 —— iPhone 自拍,创始人用 15 秒讲产品
对 SaaS 客户,每个 hook 角度做 5 个静态变体,不是每条广告做 5 个 —— 那是 15 个视觉组,每组里我留 2 张最强构图。3 hooks × 5 visuals = 15 个独立视觉素材,不是 75 个。矩阵的填充在下一步完成。
Recraft 干净搞定棚拍和生活方式两种。GPT-Image-1 在 UGC 镜面和创始人出镜上更胜一筹(那种不完美的构图读起来「真实」,因为它本来就是渲染出来要显得真实)。每个视觉我花大约 8 分钟 —— 生成 4 个变体、挑最好的、做一轮 inpainting 修复模型搞错的那一处(按钮位置歪了、阴影方向反了)。15 个视觉 × 8 分钟正好 2 小时。
14:00-16:00 —— 5 个 CTA,手写
CTA 不交给 AI 生成。CTA 是广告里人应该继续拥有决策权的那一部分,因为 offer 阶梯是战略决定,不是生成决定。我给几乎所有客户手写的 5 个:
- 免费试用,免信用卡 —— 「免费开始,14 天,不要信用卡」
- $1 试用 —— 「$1 体验完整版,随时取消」
- Demo 通话 —— 「预约我们团队的 15 分钟产品演示」
- 低承诺 lead magnet —— 「下载免费日程模板(免注册)」
- 硬卖 —— 「首三个月 5 折,仅限本周」
每个 CTA 配每个视觉。每个 hook 角度搭 5 个视觉 × 5 个 CTA。算式: 3 × 5 × 5 = 75 个格子,75 条完整广告。
广告正文我写在同一个 Google Sheet 里。A 列是格子编号(H3-V2-CTA1),B 列是 hook,C 列是视觉,D 列是 primary text(hook 展开成 3-4 句广告正文),E 列是标题,F 列是描述,G 列是 CTA 按钮文字,H 列是素材 URL,I 列是预测等级,J 列是 72 小时真实 cost-per-result,K 列是真实 CTR(Click-Through Rate,点击率),L 列是结论(kill / 保留 / 扩量)。预测等级靠 60 秒直觉判断 —— A、B 或 C —— 这样 72 小时后我能把自己的预测和实际表现对一遍账。
16:00-17:00 —— 一个 ASC、75 条全进一个 ad set,上传
这一步是大部分团队会做错的地方。本能反应是把 75 条拆成多个 ad set —— 一个 hook 一个,或一个人群一个,或一个视觉一个。不要拆。矩阵的全部意义就是让 Meta 的 auction 在 75 条里分配预算,自己挑出赢家。拆成多个 ad set,等于把矩阵本来要去掉的人为偏见又塞回去。
75 条全部上传进一个 ASC,一个 ad set,日预算 $2,100,lowest-cost 出价,广定向(不设兴趣、不设 lookalike —— 让 Andromeda 自己跑)。这次测试关掉 Dynamic Creative(Meta 的动态创意功能,允许系统自动组合素材) —— 我要的是每个格子都是离散可归因的单元,不是自动重混的拼贴。75 个独立广告对象,1 个 ad set,1 个 campaign。如果动作快,40 分钟传完,包括 Meta 的审核队列。
72 小时的 kill:Meta 真正在做什么
头 24 小时全是噪音。auction 还卡在学习期(系统搞清该把广告展示给谁的过程,通常需要每周每组 ~50 次转化才能干净地退出),频次还在爬坡,75 条之间的预算分布基本是随机的。第一天别多看后台。
到 48 小时,模式开始出现。大约 25-30% 的格子(主要是预测的 A 档)开始拿走不成比例的预算。预测的 C 档已经完全花不出去或接近零。中间那部分仍然吵。
到 72 小时,kill 模式已经一目了然。我最近跑的 8 次 3 × 5 × 5 测试里,72 小时 kill 率中位数是 81% —— 75 条里 60 到 65 条完全停止获得曝光。Meta 的自动分配已经事实上把它们砍了。还在花钱的 10-15 条里,8-12 条拿到像样的流量,1-2 条是大幅赢家。其余 8-10 条「还行」 —— 不亏钱,但也谈不上出色。
这是测试真正赢或输的瞬间。本能反应是把这 8-10 条「还行」的留着,因为它们的 CPA(Cost Per Acquisition,单次获客成本)可以接受。照样 kill。2 条赢家能吃下那笔预算,拿到 4-5 倍的曝光 —— 这正是未来 30 天能扩量的资本。每一次「先留着」都是对赢家的税。
自动排序的电子表
Google Sheet 替我做 kill 工作。72 小时的时候我把 J 列(cost-per-result)升序排。任何高于中位数 1.5 倍 CPA 的,L 列标红 K,进「明天 kill」列表。中位数 1.5 倍以内的标黄 H(保留)。低于或等于中位数 0.5 倍的标绿 S(扩量),从 ASC 里拉出来,配 $400/天的独立预算,搭成一条手动广告。
这样我手上就有一份有数据撑腰的 kill 名单、保留名单和扩量名单 —— 全部基于 72 小时的 auction 数据,全部能追到具体的 hook × visual × CTA 格子。CMO 可以跟我的创意观点吵。吵不过这张表。到测试那个周五,我手里有的是品牌未来 30 天该跑什么的可辩护短名单。
为什么这套打法赢 5 条 A/B
5 条 A/B 测试,每格需要大约 2,000 次曝光才能退出学习期,意味着大概 10,000 次曝光、5-7 天才能宣布一个赢家。75 条测试,每格也需要 2,000 次曝光 —— 但你只需要等任何一格先达到这个门槛,这件事在 48 小时内就会发生在预测的 A 档上。「首次决策时间」反而更快,不是更慢,尽管素材量更大。
结构性的回报是 5 条 A/B 给不出的。75 条按 3 × 5 × 5 排完之后,到周五我就能知道:这家客户,问题感知 hook 的表现是方案感知的 2.4 倍,UGC 镜面视觉是创始人出镜的 1.8 倍,$1 试用 CTA 是免费试用 CTA 的 1.3 倍。下一次测试的 brief 我就能把这些认知烤进去。5 条 A/B 给你一个赢家和输家,基本没什么可迁移的。
这个复利才是真正的价值。一次 3 × 5 × 5 测试教给你的关于你 offer 的东西,比六个月 5 条 A/B 教的还多,只用一个周二。