AI Tools

DALL·E 3 产品场景合成图：当 AI 素材真的干掉了摄影棚

2025年9月21日

今年七月，一个我合作的护肤 DTC（Direct-to-Customer，直面消费者）品牌在为秋季大促做一套 12 个 SKU（Stock Keeping Unit，库存单位，即单个产品）的视觉。代理商出齐了创意 brief、分镜表、上海法租界的一个场地、一个订了两天的摄影师，预算约 18 万人民币。开拍前四天，场地黄了。故事太长就不展开，结果是整个 campaign 我用一个周末靠 DALL·E 3 合成图全做完了。代理商按折扣价开了发票，品牌按时上线，省下来的钱够再烧两个月的付费投放。

这不是要给 AI 立牌坊。这件事能成，是因为这个 brief 恰好落在 DALL·E 3 真正擅长的事情上——产品是绝对主角，场景足够通用不会穿帮，模特只做一个能重复的动作。这三个条件同时满足时，影棚在成本上根本没法打；产出物在大多数情况下也够直接上线。

这三个条件一旦有任何一个不满足，你会花更多时间跟模型较劲，反而不省事。下面是 DALL·E 3 合成图真正能赢的完整场景、我用的提示词模板，以及四种我会老老老实实打电话给摄影师的场合。

为什么偏偏是 DALL·E 3（不是 Midjourney、不是 Flux）

产品场景合成是一类很特殊的活。你需要产品看起来就是那个产品、场景看起来是个真实环境、人和产品之间的关系要符合物理常识——手握瓶子、瓶身直立、标签朝向镜头、没有飘在空中的手指、没有第三只手。大部分生图模型在某一环会崩。Midjourney v6 场景漂亮但产品变形。Flux.1-dev 会自己编标签。Stable Diffusion XL 要想保住产品完整，得叠一整套 ControlNet。

DALL·E 3 靠着背后的 GPT-4 prompt 改写（rewriting）管线，是第一个用大白话描述产品合成图就能拿到可用结果的主流模型。Rewriter 会自动处理"30ml 琥珀色玻璃滴管瓶，白色极简标签印着 'Glow Serum 15%' 小号衬线字体，由一个穿米色亚麻衬衫的三十岁出头的女性握在手中"这种细节颗粒度，你不需要自己雕 prompt。这对没有专职 prompt 工程师的营销团队来说是真正的杀招。

加上它便宜。API 通道 1024×1024 一张约 0.04 美元，ChatGPT Plus 20 美元一个月随便生。12 个 SKU、每个 SKU 3 个角度，36 张图的钱还不够买一杯咖啡。

真正管用的提示词模板

我过去一年大概跑过 200 张产品合成图，最后沉淀成六个要素的固定顺序：产品、动作、模特、环境、光线、否定项。漏掉任何一环，输出质量都会断崖式下跌。

这是给一个 VC 精华 campaign 真实用过的 prompt：

E-commerce lifestyle photo. A 30ml amber glass dropper bottle with a white minimalist label reading "Glow Serum 15%" in a small serif font, held in the right hand of a Korean woman in her early 30s. She is applying two drops to her left cheek, looking slightly down toward a mirror off-camera. Setting: a sunlit modern bathroom with a beige stone countertop, a folded white towel, and a small potted eucalyptus in soft focus background. Lighting: warm natural window light from the upper left, soft fill from the right, no harsh shadows. The product label must be in sharp focus and clearly readable. Realistic skin texture, no airbrushed plastic look. No text other than what is on the product label. No extra fingers. No deformed hands.

（中文大意：电商生活方式图。一个 30ml 琥珀色玻璃滴管瓶，瓶身有白色极简标签印着衬线小字 "Glow Serum 15%"，由一位三十岁出头的韩国女性右手握住。她正在把两滴精华抹到左脸颊上，眼睛朝画面外一面镜子的方向略低视。场景：阳光充足的现代浴室，米色石材台面，折叠的白色毛巾，背景柔和虚化一盆小尤加利叶。光线：左上方暖调自然窗光，右侧柔和补光，无硬阴影。产品标签必须锐利清晰、可读。真实皮肤纹理，不要磨皮塑料感。除产品标签外不要任何文字。不要多指。不要手部变形。）

新手最容易漏的两件事：没有锚定产品上具体的文字（模型于是给你编一个假品牌名），没有写清楚否定项（于是多指、手变形、背景里莫名其妙多出一个瓶子）。对合成图来说，negative prompt 不是可选项，是承重墙。

合成 vs 生成：别忘了 inpainting 这一步

这是大部分 AI 配图教程会跳过的一段。光靠 DALL·E 3 是不够的。生成出来的产品几乎不可能跟你的实物 100% 一致——瓶盖颜色不对、标签有一个字母打错、比例差一点。你必须走两步流程。

第一步：基于参考图的生成。 把产品的干净棚拍图喂给 DALL·E 3（在 ChatGPT 里用类似"严格以这张产品图作为瓶身设计的参考"这种指令）。模型会给你做到大约 80% 的还原：瓶型对、瓶盖对、标签大致对。剩下 20% 是漂移，通常是标签字体、某个二级细节的颜色，或者一条金属装饰带。

第二步：在 Photoshop（或者 Photopea、或者你顺手的工具）里做 inpainting。 把产品区域 mask 出来，用 DALL·E 3 的 edit 模式单独重新生成那一块，或者直接拿一张抠干净的产品图合成进 AI 生成的场景。一个 12 个 SKU 的 campaign，设计师做这一步总共花了 6 小时——每张图 30 分钟左右，把产品做到 100% 准确。

这是代理商不会主动告诉客户的工作流。AI 负责"拍摄"——模特、场地、灯光、置景；人负责后期修图，确保产品是产品。跳过 inpainting 这一步，顾客一眼看穿；做了这一步，结果在小图缩略图尺寸下跟真实 lifestyle 棚拍完全分不出来——而 80% 的电商转化就发生在缩略图那一眼。

让我彻底信服的那个案例

回到那个护肤品牌。代理商原 brief 是 36 张主视觉：12 个 SKU、每个 SKU 3 个生活角度，统一在上海某栋老洋房场景下拍摄，保持视觉一致性。Brief 没问题。但执行压力极大——两天拍摄、一个模特、36 个 setup，意味着每个 setup 只有 30-40 分钟，还得算上换装和调灯。

36 张合成图我用了一个周末大约 8 小时做完。拆解一下：

2 小时写主 prompt 模板，逐 SKU 微调
4 小时每张图生成 5-7 个版本，挑最好的一张
2 小时 inpainting 产品，确保跟实际 SKU 一模一样

成本：约 0.04 美元 × 200 次生成（每张最终图跑 4-5 次含废片）= 8 美元 API 费用。ChatGPT Plus 月费本来就在付。Inpainting 内部消化。

我们把这套 AI 合成图跟代理商之前 campaign 用过的 8 张真实棚拍图做了 Facebook 广告 A/B 测试。CTR（Click-Through Rate，点击率）差距不到 4%，在统计噪声范围内。品牌团队不被告知就完全看不出来是 AI。两个月后他们还在用这批图当主视觉，根本没打算重拍。

这就是影棚真正输的时刻：到了客户做决定的那一秒钟，看不出区别。

四种情况，我还是会打电话叫摄影师

DALL·E 3 合成图不是影棚的替代品，它是一个特定工具用在特定场景上。跑了一年这套工作流之后，下面四种场合我依然会老老实实约摄影师：

1. 产品本身就是照片的全部意义。 如果你拍的是一块表，刻度、秒针、磨砂钢质感是消费者下单的理由，AI 在细节保真度上一定输。产品微距摄影还是棚拍的活。AI 负责生活场景，产品细节交给真摄影。

2. 人物元素超过一个人。 多人互动、家庭、双人配合的手部动作——DALL·E 3 还是会多指、比例失调。多人生态生活图，影棚在一致性上完胜。

3. 场景本身就是品牌资产的一部分。 如果你整个 campaign 的概念就是"在这个特定地点拍的"（旗舰店、祖产建筑、地标景点），AI 复刻不到那个程度。地点本身承载品牌价值，伪造一个反而更糟。

4. 法律披露是硬性要求。 某些品类——药品、金融、任何对图像有强监管的——要求产品必须是真产品、场景必须是真场景。AI 合成图在这些垂类会过不了合规。别硬刚，法务是对的。

一页纸工作流

想把这套流程落地的团队，下面是任何以合成图为主的 campaign 我现在用的生产 checklist：

按真实拍摄一样写 brief。 分镜表、模特人群、场景类型、光线方向。Brief 越具体，AI 产出越稳。
每个 SKU 准备 1-2 张棚拍参考图。 干净、灯光到位、白色背景。这是你的"产品事实"锚点。
每个角度生成 5-7 个版本。 选最好的一张。给迭代留时间。
inpainting 或合成产品到完全一致。 不要把 AI 原始输出直接发出去。
跟任何已有棚拍素材做 A/B 测试。 CTR 差距在 5-10% 以内，直接上线。
把跑通的 prompt 模板归档。 第二个 campaign 速度直接翻倍。

最后一条是没人讲的。AI 出图真正产生价值的前提，是你攒下一批可复用的 prompt 工作库。每张成功的合成图都变成模板——同样的品牌、同样的模特人群、同样的场景风格，只换产品。第一个 campaign 贵，第五个 campaign 几乎免费。

影棚不会消失。但它们最擅长的那部分工作正在一年一年收窄，缩到 AI 真的做不了的事情上。剩下 60-70% 的生活方式图——也就是大部分品牌日常要交付的那一大块——现在是一个有合适 prompt 和 Photoshop 授权的合格营销人一个周末的事。

这才是真正的变化。不是"AI 取代摄影师"，而是"这个 campaign 的生活方式图怎么搞"这道题的默认答案，从"订影棚"翻成了"哪种方案最便宜、什么情况下影棚的钱才真的值得花"。

能分清楚这两件事，就是现在这份工的核心了。

Twitter LinkedIn Facebook Reddit Email

AI 写的 5 封购物车挽回邮件：完整时间线与文案 Gemini Nano Banana 数字营销实战指南——踩过的坑全记录 AI 生成 25 个 Klaviyo 微细分群——没有数据团队也能精耕用户列表用 Midjourney 给品牌 Instagram 轮播建 Style Sheet:那条 4.7 万曝光的帖子是怎么做出来的