AI Tools

12种问卷题型:何时使用,以及如何用AI改写一个糟糕的问题

12种问卷题型:何时使用,以及如何用AI改写一个糟糕的问题
目录

同一份电商结账调研已经两年没动过。第一题是:您的结账体验又快又简单吗? 是/否。一个问题,同时问了两件事——典型的 double-barreled(一句话里塞了两个问题)。

我们用一个下午把这份问卷拆开。把那一题拆成两条 Likert 量表(5 点同意/不同意),把一个多选题换成排序题,结尾加了一道开放式问题。完成率从 31% 升到 49%。开放式回答变成团队两年来拿到过的最有价值的一份结账痛点数据。题目的文字几乎没改。改变的是题型,以及题型在问卷里的位置。

这篇文章是我希望第一天就有的参考。十二种题型、何时使用、每种的陷阱、一张可以贴进 brief 的对比表,以及一个提示词,可以在几分钟内把一个烂问题重新设计掉。

为什么题型比措辞更重要

问卷设计有一个安静的真相:大部分质量提升来自选对题型,而不是改写问题。一个干净的多选题,在 90% 的情况下,胜过一道措辞巧妙的开放式问题。一个位置恰当的 Likert 量表给你可以画图的数字;一个位置错位的开放式问题,给你一个永远没空读的文本文件夹。

我用的思维模型很短:题型就是你提前承诺的分析方式。 你问多选题,就承诺跨组比较百分比;你问 Likert,就承诺看均值和分布;你问开放式,就承诺手读或用 AI 编码(把回答打标签归类)。不存在中立的格式。每一种题型,都在塑造你能学到什么、以及你会错过什么。

这就是下面所有内容的视角。

十二种题型

1. 二分题(是/否)

两个选项。Binary(二元判断)。

何时使用: 硬性二元事实、入组筛选、行为打标。"今天您完成购买了吗?""过去 30 天您用过功能 X 吗?""这是您第一次访问吗?"

示例: 这次客服工单,问题解决了吗?是 / 否

常见陷阱: 把其实是连续光谱的问题强行变成二元。"您喜欢这次大会吗?"用是/否,会丢掉"有多喜欢"。要么接受你只需要一个是/否,要么升级到 5 点量表。

2. 单选多选题

3 到 7 个互斥选项。问卷的主力题型。

何时使用: 有限选项、单选。渠道、设备、客群、年龄段。

示例: 您是怎么知道我们的? —— Google 搜索 / 朋友家人 / 社交媒体广告 / 播客 / 其他

常见陷阱: 三件事会出错。选项相互重叠(比如把"Facebook"和"社交媒体"作为两个答案);选项太多(超过 7 个,完成率会掉);忘了"逃生口"——以上都不是不愿回答——这会强迫受访者选一个错的答案。

3. 多选(复选框)

和单选一样的选项列表,但受访者可以选多个。用于组合和计数。

何时使用: "您上个月做过以下哪些?""您每周使用哪些功能?"任何答案是"对,不止一个"的问题。

示例: 过去一年您从我们这里买过以下哪些品类?(可多选) —— 鞋履 / 包袋 / 配饰 / 礼品卡 / 折扣商品

常见陷阱: 如果让人勾 12 / 15 个选项,数据就糊了。要么加数量上限(最多选 3 个),要么拆题。加上限几乎总是更对的选择。

4. 下拉框

长列表折叠在一次点击之后。和单选数据形态一样,UI 不同。

何时使用: 10 个以上选项,或者国家、美国州、职业这类长列表。长列表会拖垮移动端问卷——下拉框是唯一人道的做法。

示例: 所在国家: 阿富汗 / 阿尔巴尼亚 / 阿尔及利亚 / ……

常见陷阱: 下拉框把选项藏起来了。受访者必须点开才知道里面有什么。如果选项本身是问题意义的一部分("您用以下哪些渠道?"——那应该是可见的多选),不要用下拉框。

5. Likert 量表

5 点或 7 点的同意/不同意量表。态度题的经典。Likert(以心理学家 Rensis Likert 命名)度量的是同意的强度,而不只是方向。

何时使用: 测量同意度、态度、感知质量。几乎所有"我认为 / 我感觉 / 我会"的问题都是 Likert。

示例: 结账过程很快。 —— 非常不同意 / 不同意 / 中立 / 同意 / 非常同意

常见陷阱: 中间(中立 / 说不清)是磁铁。受访者用它来表达"我不知道"、"我不在乎"、或者"题目太模糊"。你可以用强制 4 点量表(没有中立)来缓解一部分,但同时也失去了"我真没意见"这个答案。权衡真实存在——选一边,把它记下来。

6. 评分量表(数字 / 星级)

0–10、1–5、1–7,或者 0–100 滑块。把一次体验量化成一个数字。

何时使用: 客服工单上的 CSAT(客户满意度评分)、产品页的星级评分、易用性评分。任何答案需要是一个可以求平均、可以画图的数字的地方。

示例: 请您对今天获得的客服支持打分: —— 1(差) / 2 / 3 / 4 / 5(优秀)

常见陷阱: 颗粒度超出受访者能分辨的范围。多数人分不清 0–10 量表上的 7 和 8——他们会四舍五入到一个类别。5 点通常够用。11 点几乎总是太多。

7. NPS(净推荐值)

一个特定的 0–10 量表,加上分类:0–6 = 贬损者,7–8 = 被动者,9–10 = 推荐者。NPS = 推荐者 % − 贬损者 %。每位高管都认的忠诚度基准。

何时使用: 公司要向管理层或董事会汇报一个数字的时候。NPS 既是测量工具,也是沟通工具

示例: 请您用 0 到 10 分评价,您向朋友或同事推荐[品牌]的可能性有多大?

常见陷阱: 把 NPS 当成完整图景。NPS 度量的是推荐意愿,与留存相关,但不总是与收入相关。至少要配一道"为什么"——一道开放式或一道"您打这个分数的主要原因是什么?"——否则这个数字只是一种感觉。

8. 矩阵题 / 网格题

一个由行和列组成的网格,每行是一个 Likert 或评分题,共用同一套量表。

何时使用: 用同一个题型问 4 到 8 个属性。速度、准确性、友好度、整洁度——一个网格,四行。

示例: 请您对以下各项从 1(差)到 5(优)打分: —— 速度 / 准确性 / 友好度 / 整洁度

常见陷阱: 超过 6 到 7 行,受访者疲劳开始出现。网格还有一个已知偏差:人们会顺着同一列点下去。如果你的数据"太干净"(每行都得 4),矩阵题在隐藏 straight-lining(顺着同一列机械地点下去)。给行数加个上限,并且考虑把矩阵题和独立题混着用。

9. 排序题

拖拽或者从最好到最差,让受访者把一小组选项排个序。

何时使用: 相对的偏好或重要性,顺序比绝对分更重要。"请您按重要性把这 5 个功能排序"在需要做权衡时,胜过"每个从 1 到 5 打分"。

示例: 请拖动以下选项,按对您的重要程度从高到低排序: —— 价格 / 速度 / 质量 / 品牌 / 可持续性

常见陷阱: 超过 6 个选项排序会让人崩溃。超过 6 个,受访者开始猜。控制在 4 到 6 个,并且接受排名最末的几项是噪声。

10. 语义差异法

量表两端放一对反义形容词——廉价 ←→ 高级过时 ←→ 现代冷淡 ←→ 温暖。受访者在线段上选一个点。

何时使用: 品牌感知、情感联想、产品个性。问题是"它感觉怎样",而不是"它什么"。

示例: 品牌 X 给您的感觉: —— 廉价 … 高级 / 过时 … 现代 / 冷淡 … 温暖 / 无聊 … 让人兴奋

常见陷阱: 用的形容词不是真正的反义。"差 ←→ 好"太明显——每个人都知道品牌想站哪边,答案会全部聚到量表中间。挑那种受访者有可能落在任意一端的搭配。"平易近人 ←→ 高端"能告诉你一些东西。"差 ←→ 好"不能。

11. 开放式(短文本)

一行或两行的文本框。一个词、一个短语、一句话。

何时使用: 快速的逐字引用(verbatim,直接引用的受访者原话)、单词联想、"用一个词描述"提示。品牌追踪中单词联想练习的主力题型。

示例: 用一个词,您会怎么描述我们的品牌?

常见陷阱: 想要短文本却给了长文本框,或者反过来。一个小的、带字符提示的可见框("最多 50 字")能让完成率翻倍。还有:短开放式不能替代追问。如果你要深度,就明着要。

12. 开放式(长文本 / 论述)

多行文本框。唯一允许受访者说出你没预料到内容的题型。

何时使用: 问卷末尾,想要未经过滤的版本。"我们漏掉了什么?""您在[品类]里遇到的最大挑战是什么?""什么会让您换到竞品?"

示例: 今天用[产品],最让您抓狂的那一件事是什么?

常见陷阱: 一份问卷里出现两个或更多开放式。完成率会暴跌。一个已经慷慨。两个是上限。三个是研究上的失职。而且:要承诺读完这些回答,否则这道题就是做做样子。配合 AI 编码,你一个下午能读完 5,000 条,分析成本不再是借口。

对比表

# 题型 最适合 你拿到的数据 常见陷阱
1 二分题 是/否事实、入组 二元 把连续光谱强行二元化
2 单选多选 有限列表、单选 每项百分比 选项重叠、无逃生口
3 多选 组合与计数 每项百分比、总勾选数 无上限 → 糊掉
4 下拉框 已知长列表(国家、州、职位) 每项百分比 菜单被藏起来
5 Likert 同意度、态度 均值、分布 中间是磁铁
6 评分量表 量化体验 平均分 颗粒度过细
7 NPS 单数字忠诚度基准 NPS、各段 % 单独使用
8 矩阵 / 网格 同一题型、4–8 个属性 各行平均 超过 6 行疲劳
9 排序 相对偏好 排序结果 超过 6 项
10 语义差异法 品牌感知、情感 属性画像 反义词对太明显
11 开放式(短) 单词 verbatim 词云、主题 文本框尺寸不对
12 开放式(长) 未过滤的洞察 主题、引用 一份问卷超过 1 道

毁掉数据的 5 种问题设计错误

以下五种错误,是我见过的大多数烂问卷的根源。它们和措辞无关,讲的是题型和结构。

1. Double-barreled(一句话两个问题)。 "结账又快又简单吗?"是两个问题。永远要拆。测试方法:答案能不能对一个说"是"、对另一个说"否"?如果能,就拆。

2. 引导性或带偏见的措辞。 "您觉得这次体验有多惊艳?"会把受访者推向量表顶端。剥掉形容词。"请您从 1 到 5 给这次体验打分"才是对的问题;形容词是你想要的答案,不是提示。

3. 模糊的量化词。 "您多久……一次?"——"多久"是什么意思?每天?每周?每季度?换成频率量表(每天 / 每周 / 每月 / 更少 / 从不)。模糊量化词会让交叉分析(对比不同客群的回答)噪声翻倍。

4. 漏掉"以上都不是" / "不适用"。 强迫受访者选一个错的答案,是污染数据最快的方式。如果没有"其他"这个选项,受访者会把文字塞进最接近的选项;如果没有"不愿回答",你会得到随机的点击。

5. 问人们会做什么,而不是他们做过什么。 预测性问题("您会买 X 吗?")的可靠程度,比回顾性问题("您最近一次买 X 是什么时候?")低 2 到 3 倍。对于态度和意向,预测性问题可以;对于预测,要问过去的行为,再推断。

改写烂问题的 AI 提示词

我用过的最快的"改写一个烂问题"工作流,就是一个提示词 + 三个改写版本。把提示词丢进任何一个大语言模型(ChatGPT、Claude、Gemini 都能处理),把你的烂问题贴进去,模型会返回三个不同题型的改写版本。你挑一个匹配你需要做的那个决策的就行。

提示词(可复制):

你是一位问卷设计专家。我有一道表现不好的问卷题。请从这五个维度批评它:

  1. 它是不是 double-barreled(一句话里塞了两个问题)?
  2. 措辞是否引导或带偏见(把受访者推向某个特定答案)?
  3. 答案量表是否匹配题目意图(比如,题目其实是问程度,却用了是/否)?
  4. 选项是否穷尽(覆盖了所有真实答案)且互斥(没有重叠)?
  5. 答案是否真正可行动——也就是说,团队能不能根据结果做出一个决策?

然后用以下列表中的三种不同题型,各给一个改写版本:Dichotomous(二分题) / Single-Select Multiple Choice(单选) / Multi-Select(多选) / Dropdown(下拉) / Likert(同意度量表) / Rating Scale(评分量表) / NPS(净推荐值) / Matrix(矩阵) / Ranking(排序) / Semantic Differential(语义差异) / Short Open-Ended(短开放式) / Long Open-Ended(长开放式)。每个改写给出完整题干、所有选项,以及一句话解释,说明在什么情况下那个改写是"该发出去的那一版"。

原问题:[把你的问题粘贴在这里]

真实例子。烂问题:

您的结账体验又快又简单吗? (是 / 否)

模型的批评(节选):

(1) Double-barreled——"快"和"简单"是两个属性。(2) 略微引导——两个形容词都是正面的。(3) 是/否对一道体验题来说太粗。(4) 没有"不适用"选项。(5) 行动性弱——如果有 30% 选"否",你不知道该修哪个属性。

三个改写版本:

改写 A——两条 Likert(当你要画两个属性的差距):

结账过程很快。 —— 非常不同意 / 不同意 / 中立 / 同意 / 非常同意

结账过程很简单。 —— 非常不同意 / 不同意 / 中立 / 同意 / 非常同意

两个量表、两个数字、每个属性一张图。适用于你要按时间跟踪"速度"和"易用性"两条独立曲线的时候。

改写 B——带数量上限的多选(当你要知道修什么):

以下哪些事让结账比原本需要的更麻烦?(最多选 3 项) —— 页面加载太久 / 我不得不重新输入信息 / 找不到保存的地址 / 配送选项不清楚 / 我不得不注册账号 / 付款第一次没成功 / 其他(请说明)

可行动。每个选项对应一个修复。适用于问题要喂给产品路线图的时候。

改写 C——长开放式(当你想要未过滤的版本):

今天用结账,最让您抓狂的那一件事是什么?

一个问题、一个文本框,整份问卷里杠杆最高的一道题。放在末尾,在所有封闭式(选项固定)问题之后,让团队读到真实客户的原话。

我会发哪一版:

对于一份季度结账调研,我选改写 B + 在末尾追加改写 C。带数量上限的多选可行动;开放式能补上选项没覆盖到的。改写 A 的两条 Likert 适合做纵向跟踪(同一道题,每季都问,画时间序列)——但一次性诊断,多选 + 开放式杠杆更高。

这就是工作流。把你下份问卷里最烂的 5 道题,丢进这个提示词跑一遍。你通常会发现,其中两道会合并成一道(它们是 double-barreled),另外三道会拆成一个 Likert + 一个多选 + 一个开放式。问卷变短了,回答数据变厚了,完成率通常会爬升。

收尾的一个小换框

上面 12 种题型,不是 12 个权重相等的工具。在一份典型问卷里,你会用其中三四种覆盖 90% 的场景——通常是一个多选、一个 Likert、一个开放式,可能再加一个排序。其余八种,是为了这三四个不够用的时刻准备的:一道二元事实、一道长的国家列表、一份品牌感知画像、一个要交给董事会的单数字忠诚度基准。

常见的错误,是把题型菜单当成装饰——"加一条 Likert 让它看起来严谨"。真正该做的相反:先挑与"你需要做的决策"匹配的那一种题型,再写最小、最直接服务于那个决策的那道题。反过来——先写一句巧妙的话,再想拿这些答案怎么办——那才是为什么大多数问卷最后都堆在某个 Google Drive 文件夹里没人读。

拿不准的时候,问自己一句:如果有 60% 的受访者选了 A 选项而不是 B,我会做出什么不同的决定? 如果答案明确,这个问题就值得问。如果没有,选什么题型都救不了你。