用 ChatGPT 从 50 份客户访谈中合成用户画像:四步法全流程
目录
上季度,一个客户把 50 份客户访谈录音转写稿丢到我桌上。每份 30 到 45 分钟,手工转写,总共约 5 万字,主题是一款 B2B SaaS(Software as a Service,软件即服务)工作流工具。她们的初级研究员已经"找模式"找了三周。14 页彩色便签、几个半成品的画像文档,以及一张"再开第四种颜色就要崩溃"的脸。两天后,用我下面要讲的方法,我做出了 5 个被销售团队在下次 pipeline 评审里直接引用的画像。AI 并没有凭空变出来——是这个方法把"机械劳动"和"判断劳动"干净地分开了。
如果你也曾打开一份 30 页的转写稿,脑子里冒出"我大概得把 50 份都读完"这个念头,这篇就是为你写的。四步法是我现在处理"以一堆定性数据开头、以一份业务真正会用的画像结尾"这类项目的标准流程。
为什么最直觉的两种做法都会翻车
先讲方法前,讲讲大家几乎都会先试的两种做法,以及每种是怎么挂的。
做法 1:把全部内容粘贴进 ChatGPT。 出来的结果通常长这样:"画像 1:中小企业主,看重效率",配 4 条泛泛的目标,销售团队完全没法用。模型在 5 万字里注意力是发散的。你想找的信号会被它平均掉,不在转写稿里的细节它会自己脑补出来。
做法 2:写一条"分析我的客户"的 prompt。 同一个问题换了个壳。模型没有结构化处理 5 万字非结构化输入的能力。它会给你一份看起来很自信的总结,仔细一看,基本是编的。
解药不是更聪明的 prompt。解药是流程。把工作拆成 4 个 pass(步骤),每个 pass 只有一个明确的活儿。Pass 1 把原始材料清洗成干净数据。Pass 2 按访谈抽信号。Pass 3 跨访谈找模式。Pass 4 把模式变成人真正用得起来的画像。
有意思的是:每个 pass 一旦跳过,失败方式事后看都特别明显。
Pass 1:数据清洗
目标: 把 50 份原始转写稿,变成 50 份 LLM(Large Language Model,大语言模型)能稳定读懂的、去标识化的、结构化的输入。
为什么这件事必须先做:ChatGPT 做结构化抽取时,输入越乱,准确率掉得越快。PII(Personally Identifiable Information,个人可识别信息,比如姓名、手机号)会卡住法务审核。格式不统一,跨访谈对比根本做不了。超长的转写稿就算在 128K 上下文窗口里,要在上面做结构化抽取,注意力也会断。
具体怎么做,按顺序:
- 去标识化。 删掉人名、公司名、邮箱、电话——所有能识别出真实个人或组织的字段。换成占位符:
[CUSTOMER_007]、[COMPANY_A]。角色(市场总监、IT 经理、RevOps 负责人)要保留,那是关键信号;身份本身不要。 - 格式统一。 每份转写稿顶上有一行 header:
### 访谈 #007 — 市场总监 — B2B SaaS — 38 分钟。然后是对话或独白,发言者标签前后一致。LLM 读结构化文本比读一坨字墙表现好太多。我把模板放在一个文本扩展工具里,你用什么方式都行。 - 必要时切片。 一份转写稿如果超过约 1.5 万字,按自然的话题转折切开,标好序号:
#007-part1、#007-part2、#007-part3。后面的 pass 要按访谈重新聚合,所以命名规则要稳定。切片之间不要有重叠内容。 - 建一个田野笔记索引。 一个表格或文档,列出全部 50 份访谈:ID、角色、细分市场、行业、时长、日期。LLM 在后面几轮里要用它来规划工作、并检查自己是否真的覆盖了 50 份而不是漏到 47 份。
时间投入:50 份大概 3 小时。过程很无聊。别跳。后面所有 pass 的可靠性都卡在输入质量上。
一个工具上的坑:ChatGPT 自己能做去标识化这一轮,但不要只让它做。正则扫一遍邮箱、电话、常见姓名模式,能抓到 LLM 漏掉的——它有时会把手机号"自然地"改写进上下文的句子里。上一个项目里,正则抓出了 3 个 LLM 笑眯眯放过的电话号码。
Pass 2:逐访谈抽取
目标: 对每份访谈,抽出一组结构化信号。每次 LLM 调用只处理一份访谈。是的,50 次调用。这是大多数人想"优化"的地方——别动。
我用的 prompt,原样贴:
你正在为画像研究分析单次客户访谈。
访谈 ID:[ID]
背景:[角色、细分市场、来自田野笔记索引的时长]
从下面的转写稿中抽取下列字段。每个字段请引用 1–3 句客户原话作为依据。
不要超出客户实际说过的话去推断。如果某字段没被提及,写"未提及"——不要猜。
字段:
1. 人口/企业属性:公司规模、角色职级、行业、地域(仅当客户明确说)
2. 核心目标(最多 3 条):客户明确说过想达成什么
3. 核心痛点(最多 3 条):客户明确指出的摩擦或未满足需求
4. 当前 workaround:客户说他们现在怎么对付
5. 触发事件:是什么让他们开始找解决方案
6. 待办任务(Jobs-to-be-done):用客户自己的话,他们要"雇"一个产品来做什么
7. 决策标准:客户说什么会让他们点头或摇头
8. 关键引用:3–5 句客户原话,体现这个人怎么描述自己的问题
9. 反常/意外:和典型模式不一致的地方
以结构化表格输出。简洁。逐字引用。
转写稿:
[把去标识化后的转写稿贴在这里]为什么一份访谈一次调用,而不是 50 份塞进一次:
- 跨调用污染 是画像凭空发明的头号原因。模型一次性看到 10 份访谈,会开始做平均。"市场总监们说……"会变成一个把真实信号磨平的合成画像。
- 50 次调用可以并行。 用 GPT-4o 或 Claude Sonnet/Opus,每次批量 10 份,20 到 30 分钟跑完,成本很低。
- QA(Quality Assurance,质量检查)更容易。 每份访谈的输出是一个独立产物,抽样人工核验就行。如果 LLM 一次处理 50 份,输出就要整篇核。
这一轮跑完的产物:50 张结构化表,每份访谈一张。全部塞进同一张电子表,一行一个访谈,一列一个字段。这张表就是 Pass 3 的输入。
prompt 里有三句话我不会去掉:
- "逐字引用。" 没这句,LLM 会改写,客户的"声音"就丢了——而这恰恰是你为什么要录音转写的原因。
- "不要超出客户实际说过的话去推断。" 这句挡掉了 90% 的画像幻觉。模型最爱干的事就是把听起来合理但不在数据里的细节补全。
- "如果某字段没被提及,写'未提及'。" 逼模型承认空缺,而不是编一个。聚类那一步需要诚实的空缺来找到真实模式。
Pass 3:跨访谈综合
目标: 把 50 张表吃进去,找出定义真实细分市场的模式。
先建主矩阵。表头:interview_id, role, segment, top_goal_1, top_goal_2, top_pain_1, top_pain_2, top_pain_3, workaround_1, trigger, jtbd, quote_1, quote_2, quote_3。一行一份访谈。LLM 要看的是这张矩阵,不是原始转写稿。
然后跑 prompt。我把它再拆成两个子 pass。
Pass 3a:模式发现
把主矩阵贴进 ChatGPT(如果矩阵很大,丢进 Claude + 代码解释器)跑:
你是一位定性研究者,正在分析 50 份客户访谈。附件矩阵是抽取结果——一行一份访谈。
你的任务:识别这批人群里的自然细分。
1. 把行按目标 + 痛点 + JTBD 的相似度聚成 3–5 个 cluster(聚簇)。
如果某行明显不属于任何 cluster,标为 outlier(离群点)。
2. 对每个 cluster,输出:
- 决定性特征(这群人为什么是同一群人?)
- 规模(50 份里有几份)
- 被引用最多的痛点(次数 + 一条代表性原话)
- 被引用最多的目标(次数)
- 跟其他 cluster 的关键差异
3. 列出跨 50 份访谈被提到最多的 10 个痛点,附频次。
4. 列出最常被提到的 5 个触发事件。
5. 标记任何不属于任何 cluster 的访谈。它们可能是值得单独立一个画像的边缘案例,也可能是噪声。
不要发明画像。报 cluster,不要报人。这一步是 AI 真正发光的地方。手工给 50 份访谈编码、找 cluster 要一周。LLM 30 秒搞定,还能顺手把频次算出来——手工编码几乎一定会漏掉频次(因为人编码到第 12 份的时候已经记不清前面标过什么了)。
三个要盯紧的点:
- 模型会自己给 cluster 命名。 别用它的名字。它会说"Cluster 1:效率优先的运营者",这个名字毫无特色。名字重要,但要 Pass 4 里从客户自己的话里取。
- 模型会在 cluster 边界做平均。 两个 cluster 边缘模糊时,模型会合并。手动检查边缘案例。如果 3 份访谈横在边界上,它们通常自己就值得一个画像。
- 模型有时会凭空捏 cluster。 "Cluster 5:关心创新的高层领导"——如果这个 cluster 只有 1 份、且那份数据单薄,那就是幻觉。信规模。50 份里不到 4–5 份的 cluster 通常是噪声。
Pass 3b:画像假设
cluster 定下来之后,生成假设清单:
对每个 [N] 个 cluster,写一段画像假设:他们是谁,想要什么,被什么卡住,
什么会触发购买。引用 quote 列里客户自己的原话。
输出:[N] 段简短的画像假设。暂时不要起名字。不要套话。
每一段应该让一线销售看完说"对,我认识这个人"。这就是草稿。Pass 4 来精修。
Pass 4:画像成品
目标: 把每个 cluster 的假设,变成团队真正会用的画像卡。
标准画像模板没问题。问题在于大多数团队只填到人口属性就停了。真正有用的画像卡要包含:
- 原型名 + 一句 tagline。 从这个 cluster 的引用里挑一个反复出现的短语。12 份访谈里有 8 份说"我就想让我团队别再被工单淹死",那画像就叫"工单淹没的团队经理"。这种名字记得住。"Sarah,IT 总监"记不住。
- 速写。 角色、公司规模、行业、任职年限。两行字。
- 目标。 2–3 个目标,用他们自己的话。
- 痛点。 2–3 个痛点,每个配一句原话引用。
- JTBD(待办任务)。 一句话,用他们的语言。格式:"当 [情境],我想要 [动机],这样我就能 [结果]。"
- 今天的 workaround。 不用你的产品时他们怎么干。这条很关键——销售团队要靠它知道该打破什么既有行为。
- 购买触发器。 把他们从"感兴趣"推到"主动找方案"的那个事件。要具体。"Q4 预算周期"可以。"CEO 下令 Q3 前降本 30%"更好。
- 什么会搞砸成交。 他们在快要说"不"时会说什么。销售和市场都需要这张清单。
- 信息渠道。 哪些渠道、哪些刊物、哪些社群。SEO(Search Engine Optimization,搜索引擎优化)和付费投放需要这条。
- 一天。 4–5 句,把画像放进团队能想象出来的场景里。
- 一句代表性引用。 整个 cluster 里最有代表性的一句话。逐字引用。在画像卡上放大字号。
50 份访谈的 B2B SaaS 项目,最后一般会落到 3–5 个画像,覆盖大约 80% 的人群。剩下 20% 通常是 1–2 个边缘案例,值得在文档里留个"观察名单"位置,但不值得做完整画像卡。
实战示例:一张画像卡长什么样
让上面这些不空对空。拿一个我做过的 B2B 工作流工具举例。这个 cluster:50 份访谈里有 12 份是中型公司的运营负责人,他们公司在过去两年从 50 人长到了 200 人。
原型: "被时间卡住的规模化 VP"("我们没时间按现在这个速度继续扩张"这句话反复出现)
速写: 运营 VP 或运营总监,100–300 人公司,岗位上 2–8 年,经常是 A 轮之后第一个招的运营。
目标:
- 搭可复用的流程,不靠"英雄式努力"
- 把执行团队从"运营效率"连环追问里解放出来
- 下一轮融资的指标不靠翻倍招人达成
痛点(带原话):
- "每次多招 20 人,上个季度搭的工作流就崩。" — #004
- "我团队 4 个人干着 10 个人的活。" — #017
- "CEO 让我 Q3 前做出 30% 效率提升。除了上工具我真不知道怎么交差。" — #029
JTBD: 当公司规模跑得比运营职能快的时候,雇一个工作流工具把混乱系统化,让团队在长大的同时不崩。
Workaround: Excel、Slack 私聊、"那个什么都记得住的运营同学"、季度手动的流程复盘。
触发器: 新一轮融资、人数突破某个阈值、一次差点出事的合规审计、高管突然要"效率指标"。
失格条件: "我们不是工具公司,我们文化就是动手干。" 明确拒绝流程、崇尚"我们就这样搞定"的公司。销售别在他们身上耗时间。
信息渠道: RevOps(Revenue Operations,营收运营)的 Slack 社群、Ops Love 邮件订阅、Lenny's Podcast、行业会议上的同行饭局。他们不读厂商博客。他们读 G2 上的同行点评。
一天: 一早起来先处理 40 条 Slack 消息,发一封"Q3 指标到哪了"的邮件,参加一个 90 分钟的跨部门站会——同一个卡点连续第三周被提上来——然后下班前发现 CEO 布置的战略项目一个字没动。
代表引用: "我不是人手不够——我是没把它系统化。" — #014
这张卡从原始数据到成稿大概 90 分钟。销售团队用它在 pipeline 里筛掉四分之一的线索、把剩下四分之三重新对焦。两个季度内,从机会到关单的比例从 11% 涨到 23%。不是因为画像本身有魔法,而是团队终于有了一张"我们在卖给谁"的共同图景。discovery call(需求摸底电话)里被引用最多的一句话,最后就是画像卡上的那句代表引用。
这个方法的边界
四步法适用于探索性研究——也就是你还没搞清楚客户是谁。它不适合以下场景:
- 验证性研究(验证你已有的假设)。那种情况要给转写稿用一个固定 schema 编码,LLM 只负责计数。
- 定量研究(对 1000+ 客户做统计推断)。50 份访谈的 LLM 分析不能外推——样本太小。用问卷。
- 行为数据综合(访谈 + 产品分析数据)。完全不同的活儿;LLM 可以帮忙标 session(用户在产品里的一次使用会话),但分析框架是以数据为先的。
- 封闭选项的问卷。 直接制表。没有"定性"可挖。
另外:这个方法的上限就是访谈稿本身的质量。糟糕的转写稿(诱导性问题、80% 是访谈员在说话、没碰到几个真用户)会做出糟糕的画像——prompt 再花也没用。最重要的变量是原始访谈质量。如果访谈设计你也管,那就设计那种逼出具体细节的问题:"跟我讲讲你上一次想干 X 的时候发生了什么"永远比"你平时会被 X 卡住吗"强。
常见踩坑
这些是我亲眼看着把好项目搞砸过的:
- 跳过 Pass 1。 "我就直接粘原始转写稿。" 不行。模型读不动 5 万字脏文本。清洗 pass 是信号和噪声的分水岭。
- 把 Pass 2 和 Pass 3 合并。 "直接让它从转写稿出画像。" 模型会编。永远把"逐访谈抽取"和"跨访谈聚类"分开。
- 用通用职位给画像起名。 "市场部 Mary"是墙纸。从客户原话里挑名字。带短语的名字记得住。
- 填到人口属性就停。 画像不是"35–45 岁,市场总监,城市,$100K+ 收入"——那是目标市场。画像要有目标、痛点、触发器、和团队能在脑子里看见的场景。
- 做出 8 个画像。 50 份访谈几乎撑不起 8 个独立细分。如果你有 8 个,是在过拟合。把差不多的 cluster 合并。3–5 个是合理区间。
- 信模型的频次不核。 必须抽样核。LLM 有时会说"10 份里有 8 份说 X",其实只有 4 份说。和矩阵对一下。
- 跳过 Pass 2 的 QA。 自己读 5 份访谈的抽取结果。如果在那 5 份上它在编,另外 45 份也在编。
4 天执行计划
50 份访谈的项目,墙钟时间大概是这样:
- 第 1 天: Pass 1(数据清洗)。4–6 小时。绝大部分是机械的去标识化和切片。
- 第 2 天: Pass 2(逐访谈抽取)。LLM 时间 20–30 分钟,但留 3–4 小时做 prompt 调优、批量调度、QA。
- 第 3 天: Pass 3(跨访谈综合)。2–3 小时,含矩阵搭建、cluster 分析、边界核查。
- 第 4 天: Pass 4(画像成品)。3–4 小时,含画卡、内部评审、最后润色。
总计:15–20 小时专注投入,做出咨询公司要 3–4 周才交付的东西。省下来的是那些看不见的体力活——手工编码、电子表体操、"我把这篇转写再读一遍"的死循环。四步法把人的时间压在必须人来做的部分:cluster 边界的判断、画像的命名、一天场景的撰写。
如果访谈超过 200 份,这套方法依然成立,但 Pass 2 应该用 LLM API(调用模型的程序化接口)+ 脚本批跑,不要在 ChatGPT 网页里手点。成本差很多,质量差很小。
画像做出来之后怎么用
四步法是上半。下半是让画像真的被用起来。三件真正在客户那边推动过指标的事:
- 把画像绑到具体的投放定向上。 每个画像在画像文档里都有一行"渠道偏好"。付费团队用这一行做人群排除和出价系数,不只是写创意 brief。
- 用销售通话回看画像。 听 10 段录制的 discovery call(需求摸底电话),给每段打标:和哪个画像最像。匹配率告诉你画像是不是真的准。如果 10 段里只有 4 段能干净匹配上,说明画像太抽象。
- 每季度更新。 客户群会变。把画像文档当活产物,不要当一次性交付物。每 90 天留 2 小时,用同样的四步法处理本季度新增的 5–10 份访谈。
收个尾
四步法不是个聪明把戏。它是传统的定性分析流程——编码、聚类、写作——的现代改造版:让 LLM 干机械活,让人干判断活。团队跳过结构、直接"问 ChatGPT"的时候,做出来的画像看着像洞察,其实是平均值。团队按结构走的时候,做出来的产物是销售团队会为它吵架、市场团队会拿它定定向、产品团队会把它写进 roadmap 讨论的那种。
如果你手头有一堆转写稿和一个 deadline,这套方法能跑。如果你有一堆转写稿但没 deadline,这套方法也跑——只是 Pass 3 边界核查会多花点时间。无论哪种,不要从画像模板开始。从清洗 pass 开始。后面所有东西都靠它撑着。