AI Tools

用 ChatGPT 从 50 份客户访谈中合成用户画像：四步法全流程

2025年3月26日

上季度，一个客户把 50 份客户访谈录音转写稿丢到我桌上。每份 30 到 45 分钟，手工转写，总共约 5 万字，主题是一款 B2B SaaS（Software as a Service，软件即服务）工作流工具。她们的初级研究员已经"找模式"找了三周。14 页彩色便签、几个半成品的画像文档，以及一张"再开第四种颜色就要崩溃"的脸。两天后，用我下面要讲的方法，我做出了 5 个被销售团队在下次 pipeline 评审里直接引用的画像。AI 并没有凭空变出来——是这个方法把"机械劳动"和"判断劳动"干净地分开了。

如果你也曾打开一份 30 页的转写稿，脑子里冒出"我大概得把 50 份都读完"这个念头，这篇就是为你写的。四步法是我现在处理"以一堆定性数据开头、以一份业务真正会用的画像结尾"这类项目的标准流程。

为什么最直觉的两种做法都会翻车

先讲方法前，讲讲大家几乎都会先试的两种做法，以及每种是怎么挂的。

做法 1：把全部内容粘贴进 ChatGPT。 出来的结果通常长这样："画像 1：中小企业主，看重效率"，配 4 条泛泛的目标，销售团队完全没法用。模型在 5 万字里注意力是发散的。你想找的信号会被它平均掉，不在转写稿里的细节它会自己脑补出来。

做法 2：写一条"分析我的客户"的 prompt。 同一个问题换了个壳。模型没有结构化处理 5 万字非结构化输入的能力。它会给你一份看起来很自信的总结，仔细一看，基本是编的。

解药不是更聪明的 prompt。解药是流程。把工作拆成 4 个 pass（步骤），每个 pass 只有一个明确的活儿。Pass 1 把原始材料清洗成干净数据。Pass 2 按访谈抽信号。Pass 3 跨访谈找模式。Pass 4 把模式变成人真正用得起来的画像。

有意思的是：每个 pass 一旦跳过，失败方式事后看都特别明显。

Pass 1：数据清洗

目标： 把 50 份原始转写稿，变成 50 份 LLM（Large Language Model，大语言模型）能稳定读懂的、去标识化的、结构化的输入。

为什么这件事必须先做：ChatGPT 做结构化抽取时，输入越乱，准确率掉得越快。PII（Personally Identifiable Information，个人可识别信息，比如姓名、手机号）会卡住法务审核。格式不统一，跨访谈对比根本做不了。超长的转写稿就算在 128K 上下文窗口里，要在上面做结构化抽取，注意力也会断。

具体怎么做，按顺序：

去标识化。 删掉人名、公司名、邮箱、电话——所有能识别出真实个人或组织的字段。换成占位符：[CUSTOMER_007]、[COMPANY_A]。角色（市场总监、IT 经理、RevOps 负责人）要保留，那是关键信号；身份本身不要。
格式统一。 每份转写稿顶上有一行 header：### 访谈 #007 — 市场总监 — B2B SaaS — 38 分钟。然后是对话或独白，发言者标签前后一致。LLM 读结构化文本比读一坨字墙表现好太多。我把模板放在一个文本扩展工具里，你用什么方式都行。
必要时切片。 一份转写稿如果超过约 1.5 万字，按自然的话题转折切开，标好序号：#007-part1、#007-part2、#007-part3。后面的 pass 要按访谈重新聚合，所以命名规则要稳定。切片之间不要有重叠内容。
建一个田野笔记索引。 一个表格或文档，列出全部 50 份访谈：ID、角色、细分市场、行业、时长、日期。LLM 在后面几轮里要用它来规划工作、并检查自己是否真的覆盖了 50 份而不是漏到 47 份。

时间投入：50 份大概 3 小时。过程很无聊。别跳。后面所有 pass 的可靠性都卡在输入质量上。

一个工具上的坑：ChatGPT 自己能做去标识化这一轮，但不要只让它做。正则扫一遍邮箱、电话、常见姓名模式，能抓到 LLM 漏掉的——它有时会把手机号"自然地"改写进上下文的句子里。上一个项目里，正则抓出了 3 个 LLM 笑眯眯放过的电话号码。

Pass 2：逐访谈抽取

目标： 对每份访谈，抽出一组结构化信号。每次 LLM 调用只处理一份访谈。是的，50 次调用。这是大多数人想"优化"的地方——别动。

我用的 prompt，原样贴：

你正在为画像研究分析单次客户访谈。

访谈 ID：[ID]
背景：[角色、细分市场、来自田野笔记索引的时长]

从下面的转写稿中抽取下列字段。每个字段请引用 1–3 句客户原话作为依据。
不要超出客户实际说过的话去推断。如果某字段没被提及，写"未提及"——不要猜。

字段：
1. 人口/企业属性：公司规模、角色职级、行业、地域（仅当客户明确说）
2. 核心目标（最多 3 条）：客户明确说过想达成什么
3. 核心痛点（最多 3 条）：客户明确指出的摩擦或未满足需求
4. 当前 workaround：客户说他们现在怎么对付
5. 触发事件：是什么让他们开始找解决方案
6. 待办任务（Jobs-to-be-done）：用客户自己的话，他们要"雇"一个产品来做什么
7. 决策标准：客户说什么会让他们点头或摇头
8. 关键引用：3–5 句客户原话，体现这个人怎么描述自己的问题
9. 反常/意外：和典型模式不一致的地方

以结构化表格输出。简洁。逐字引用。

转写稿：
[把去标识化后的转写稿贴在这里]

为什么一份访谈一次调用，而不是 50 份塞进一次：

跨调用污染 是画像凭空发明的头号原因。模型一次性看到 10 份访谈，会开始做平均。"市场总监们说……"会变成一个把真实信号磨平的合成画像。
50 次调用可以并行。 用 GPT-4o 或 Claude Sonnet/Opus，每次批量 10 份，20 到 30 分钟跑完，成本很低。
QA（Quality Assurance，质量检查）更容易。 每份访谈的输出是一个独立产物，抽样人工核验就行。如果 LLM 一次处理 50 份，输出就要整篇核。

这一轮跑完的产物：50 张结构化表，每份访谈一张。全部塞进同一张电子表，一行一个访谈，一列一个字段。这张表就是 Pass 3 的输入。

prompt 里有三句话我不会去掉：

"逐字引用。" 没这句，LLM 会改写，客户的"声音"就丢了——而这恰恰是你为什么要录音转写的原因。
"不要超出客户实际说过的话去推断。" 这句挡掉了 90% 的画像幻觉。模型最爱干的事就是把听起来合理但不在数据里的细节补全。
"如果某字段没被提及，写'未提及'。" 逼模型承认空缺，而不是编一个。聚类那一步需要诚实的空缺来找到真实模式。

Pass 3：跨访谈综合

目标： 把 50 张表吃进去，找出定义真实细分市场的模式。

先建主矩阵。表头：interview_id, role, segment, top_goal_1, top_goal_2, top_pain_1, top_pain_2, top_pain_3, workaround_1, trigger, jtbd, quote_1, quote_2, quote_3。一行一份访谈。LLM 要看的是这张矩阵，不是原始转写稿。

然后跑 prompt。我把它再拆成两个子 pass。

Pass 3a：模式发现

把主矩阵贴进 ChatGPT（如果矩阵很大，丢进 Claude + 代码解释器）跑：

你是一位定性研究者，正在分析 50 份客户访谈。附件矩阵是抽取结果——一行一份访谈。

你的任务：识别这批人群里的自然细分。

1. 把行按目标 + 痛点 + JTBD 的相似度聚成 3–5 个 cluster（聚簇）。
   如果某行明显不属于任何 cluster，标为 outlier（离群点）。
2. 对每个 cluster，输出：
   - 决定性特征（这群人为什么是同一群人？）
   - 规模（50 份里有几份）
   - 被引用最多的痛点（次数 + 一条代表性原话）
   - 被引用最多的目标（次数）
   - 跟其他 cluster 的关键差异
3. 列出跨 50 份访谈被提到最多的 10 个痛点，附频次。
4. 列出最常被提到的 5 个触发事件。
5. 标记任何不属于任何 cluster 的访谈。它们可能是值得单独立一个画像的边缘案例，也可能是噪声。

不要发明画像。报 cluster，不要报人。

这一步是 AI 真正发光的地方。手工给 50 份访谈编码、找 cluster 要一周。LLM 30 秒搞定，还能顺手把频次算出来——手工编码几乎一定会漏掉频次（因为人编码到第 12 份的时候已经记不清前面标过什么了）。

三个要盯紧的点：

模型会自己给 cluster 命名。 别用它的名字。它会说"Cluster 1：效率优先的运营者"，这个名字毫无特色。名字重要，但要 Pass 4 里从客户自己的话里取。
模型会在 cluster 边界做平均。 两个 cluster 边缘模糊时，模型会合并。手动检查边缘案例。如果 3 份访谈横在边界上，它们通常自己就值得一个画像。
模型有时会凭空捏 cluster。 "Cluster 5：关心创新的高层领导"——如果这个 cluster 只有 1 份、且那份数据单薄，那就是幻觉。信规模。50 份里不到 4–5 份的 cluster 通常是噪声。

Pass 3b：画像假设

cluster 定下来之后，生成假设清单：

对每个 [N] 个 cluster，写一段画像假设：他们是谁，想要什么，被什么卡住，
什么会触发购买。引用 quote 列里客户自己的原话。

输出：[N] 段简短的画像假设。暂时不要起名字。不要套话。
每一段应该让一线销售看完说"对，我认识这个人"。

这就是草稿。Pass 4 来精修。

Pass 4：画像成品

目标： 把每个 cluster 的假设，变成团队真正会用的画像卡。

标准画像模板没问题。问题在于大多数团队只填到人口属性就停了。真正有用的画像卡要包含：

原型名 + 一句 tagline。 从这个 cluster 的引用里挑一个反复出现的短语。12 份访谈里有 8 份说"我就想让我团队别再被工单淹死"，那画像就叫"工单淹没的团队经理"。这种名字记得住。"Sarah，IT 总监"记不住。
速写。 角色、公司规模、行业、任职年限。两行字。
目标。 2–3 个目标，用他们自己的话。
痛点。 2–3 个痛点，每个配一句原话引用。
JTBD（待办任务）。 一句话，用他们的语言。格式："当 [情境]，我想要 [动机]，这样我就能 [结果]。"
今天的 workaround。 不用你的产品时他们怎么干。这条很关键——销售团队要靠它知道该打破什么既有行为。
购买触发器。 把他们从"感兴趣"推到"主动找方案"的那个事件。要具体。"Q4 预算周期"可以。"CEO 下令 Q3 前降本 30%"更好。
什么会搞砸成交。 他们在快要说"不"时会说什么。销售和市场都需要这张清单。
信息渠道。 哪些渠道、哪些刊物、哪些社群。SEO（Search Engine Optimization，搜索引擎优化）和付费投放需要这条。
一天。 4–5 句，把画像放进团队能想象出来的场景里。
一句代表性引用。 整个 cluster 里最有代表性的一句话。逐字引用。在画像卡上放大字号。

50 份访谈的 B2B SaaS 项目，最后一般会落到 3–5 个画像，覆盖大约 80% 的人群。剩下 20% 通常是 1–2 个边缘案例，值得在文档里留个"观察名单"位置，但不值得做完整画像卡。

实战示例：一张画像卡长什么样

让上面这些不空对空。拿一个我做过的 B2B 工作流工具举例。这个 cluster：50 份访谈里有 12 份是中型公司的运营负责人，他们公司在过去两年从 50 人长到了 200 人。

原型： "被时间卡住的规模化 VP"（"我们没时间按现在这个速度继续扩张"这句话反复出现）

速写： 运营 VP 或运营总监，100–300 人公司，岗位上 2–8 年，经常是 A 轮之后第一个招的运营。

目标：

搭可复用的流程，不靠"英雄式努力"
把执行团队从"运营效率"连环追问里解放出来
下一轮融资的指标不靠翻倍招人达成

痛点（带原话）：

"每次多招 20 人，上个季度搭的工作流就崩。" — #004
"我团队 4 个人干着 10 个人的活。" — #017
"CEO 让我 Q3 前做出 30% 效率提升。除了上工具我真不知道怎么交差。" — #029

JTBD： 当公司规模跑得比运营职能快的时候，雇一个工作流工具把混乱系统化，让团队在长大的同时不崩。

Workaround： Excel、Slack 私聊、"那个什么都记得住的运营同学"、季度手动的流程复盘。

触发器： 新一轮融资、人数突破某个阈值、一次差点出事的合规审计、高管突然要"效率指标"。

失格条件： "我们不是工具公司，我们文化就是动手干。" 明确拒绝流程、崇尚"我们就这样搞定"的公司。销售别在他们身上耗时间。

信息渠道： RevOps（Revenue Operations，营收运营）的 Slack 社群、Ops Love 邮件订阅、Lenny's Podcast、行业会议上的同行饭局。他们不读厂商博客。他们读 G2 上的同行点评。

一天： 一早起来先处理 40 条 Slack 消息，发一封"Q3 指标到哪了"的邮件，参加一个 90 分钟的跨部门站会——同一个卡点连续第三周被提上来——然后下班前发现 CEO 布置的战略项目一个字没动。

代表引用： "我不是人手不够——我是没把它系统化。" — #014

这张卡从原始数据到成稿大概 90 分钟。销售团队用它在 pipeline 里筛掉四分之一的线索、把剩下四分之三重新对焦。两个季度内，从机会到关单的比例从 11% 涨到 23%。不是因为画像本身有魔法，而是团队终于有了一张"我们在卖给谁"的共同图景。discovery call（需求摸底电话）里被引用最多的一句话，最后就是画像卡上的那句代表引用。

这个方法的边界

四步法适用于探索性研究——也就是你还没搞清楚客户是谁。它不适合以下场景：

验证性研究（验证你已有的假设）。那种情况要给转写稿用一个固定 schema 编码，LLM 只负责计数。
定量研究（对 1000+ 客户做统计推断）。50 份访谈的 LLM 分析不能外推——样本太小。用问卷。
行为数据综合（访谈 + 产品分析数据）。完全不同的活儿；LLM 可以帮忙标 session（用户在产品里的一次使用会话），但分析框架是以数据为先的。
封闭选项的问卷。 直接制表。没有"定性"可挖。

另外：这个方法的上限就是访谈稿本身的质量。糟糕的转写稿（诱导性问题、80% 是访谈员在说话、没碰到几个真用户）会做出糟糕的画像——prompt 再花也没用。最重要的变量是原始访谈质量。如果访谈设计你也管，那就设计那种逼出具体细节的问题："跟我讲讲你上一次想干 X 的时候发生了什么"永远比"你平时会被 X 卡住吗"强。

常见踩坑

这些是我亲眼看着把好项目搞砸过的：

跳过 Pass 1。 "我就直接粘原始转写稿。" 不行。模型读不动 5 万字脏文本。清洗 pass 是信号和噪声的分水岭。
把 Pass 2 和 Pass 3 合并。 "直接让它从转写稿出画像。" 模型会编。永远把"逐访谈抽取"和"跨访谈聚类"分开。
用通用职位给画像起名。 "市场部 Mary"是墙纸。从客户原话里挑名字。带短语的名字记得住。
填到人口属性就停。 画像不是"35–45 岁，市场总监，城市，$100K+ 收入"——那是目标市场。画像要有目标、痛点、触发器、和团队能在脑子里看见的场景。
做出 8 个画像。 50 份访谈几乎撑不起 8 个独立细分。如果你有 8 个，是在过拟合。把差不多的 cluster 合并。3–5 个是合理区间。
信模型的频次不核。 必须抽样核。LLM 有时会说"10 份里有 8 份说 X"，其实只有 4 份说。和矩阵对一下。
跳过 Pass 2 的 QA。 自己读 5 份访谈的抽取结果。如果在那 5 份上它在编，另外 45 份也在编。

4 天执行计划

50 份访谈的项目，墙钟时间大概是这样：

第 1 天： Pass 1（数据清洗）。4–6 小时。绝大部分是机械的去标识化和切片。
第 2 天： Pass 2（逐访谈抽取）。LLM 时间 20–30 分钟，但留 3–4 小时做 prompt 调优、批量调度、QA。
第 3 天： Pass 3（跨访谈综合）。2–3 小时，含矩阵搭建、cluster 分析、边界核查。
第 4 天： Pass 4（画像成品）。3–4 小时，含画卡、内部评审、最后润色。

总计：15–20 小时专注投入，做出咨询公司要 3–4 周才交付的东西。省下来的是那些看不见的体力活——手工编码、电子表体操、"我把这篇转写再读一遍"的死循环。四步法把人的时间压在必须人来做的部分：cluster 边界的判断、画像的命名、一天场景的撰写。

如果访谈超过 200 份，这套方法依然成立，但 Pass 2 应该用 LLM API（调用模型的程序化接口）+ 脚本批跑，不要在 ChatGPT 网页里手点。成本差很多，质量差很小。

画像做出来之后怎么用

四步法是上半。下半是让画像真的被用起来。三件真正在客户那边推动过指标的事：

把画像绑到具体的投放定向上。 每个画像在画像文档里都有一行"渠道偏好"。付费团队用这一行做人群排除和出价系数，不只是写创意 brief。
用销售通话回看画像。 听 10 段录制的 discovery call（需求摸底电话），给每段打标：和哪个画像最像。匹配率告诉你画像是不是真的准。如果 10 段里只有 4 段能干净匹配上，说明画像太抽象。
每季度更新。 客户群会变。把画像文档当活产物，不要当一次性交付物。每 90 天留 2 小时，用同样的四步法处理本季度新增的 5–10 份访谈。

收个尾

四步法不是个聪明把戏。它是传统的定性分析流程——编码、聚类、写作——的现代改造版：让 LLM 干机械活，让人干判断活。团队跳过结构、直接"问 ChatGPT"的时候，做出来的画像看着像洞察，其实是平均值。团队按结构走的时候，做出来的产物是销售团队会为它吵架、市场团队会拿它定定向、产品团队会把它写进 roadmap 讨论的那种。

如果你手头有一堆转写稿和一个 deadline，这套方法能跑。如果你有一堆转写稿但没 deadline，这套方法也跑——只是 Pass 3 边界核查会多花点时间。无论哪种，不要从画像模板开始。从清洗 pass 开始。后面所有东西都靠它撑着。

Twitter LinkedIn Facebook Reddit Email

让 ChatGPT 写 100 个邮件标题，最后能打的只有 5 个每天 5 条有内容的 LinkedIn 评论：我替代发帖的 Perplexity + ChatGPT 循环 Agentic 内容刷新：n8n + ChatGPT 自动找出、更新、重新发布衰退中的旧文 AI Agent 实战：自由职业者的数字营销与联盟营销超能力