Screenshot to Design 还做不好的六件事

Product2026-04-18

为什么写这篇

市面上所有 AI 产品的博客都在讲自己多厉害。我们想反其道而行之：讲清楚我们做不好的地方。

原因很简单 —— 如果你用一次发现不符合预期就走，我们输掉的不只是一个用户，还是一次建立信任的机会。不如一开始就告诉你：这些场景我们还没做好，你心里有数地用。

这篇列出 Screenshot to Design 当前能力的六个已知边界，以及我们建议的绕过方式。每一项我们都在路线图里，但"在路线图里" 和 "明天就能用" 之间，你需要今天就能做决策。

你在纸上画了一张 wireframe，拍照传上来 —— 结果 AI 识别出的图层跟你期待的对不上。

为什么难：Screenshot to Design 的模型是基于成品 UI 截图训练的，它假设输入图有清晰的色块、明确的边界、标准的字体。手绘稿的线条粗细不一、颜色只有铅笔灰、文字是潦草字体，所有特征都偏离训练分布。

绕过方式：

极尽华丽的视觉风格 —— 多层玻璃拟态嵌套、重投影、模糊背景、发光边缘 —— 识别结果会"看起来像但又不像"。

为什么难：这类视觉里"装饰效果"和"结构"纠缠在一起，AI 很难判断一个发光边是"一个结构元素"还是"一个效果"。处理不好会把结构识别成十几层堆叠的图层。

绕过方式：

一张图被圆形蒙版裁过、两张图用渐变融合、一段文字被图片做了 knockout 效果 —— 这些"合成"产物识别后结构会偏离原图。

为什么难：蒙版本质上是一种"负空间"信息，AI 看到的只是最终像素，很难反推原始的遮罩路径。

绕过方式：

我们的字体识别模型在 SF / Roboto / Inter / 思源 / Pretendard 这些主流 UI 字体上做得好，但：

绕过方式：

四级嵌套的财务表单、一屏 200 行的数据表、同屏挤了六个图表的仪表盘 —— 这些场景识别出来的结构可能不如你期待的干净。

为什么难：不是模型没理解，而是输出的图层数量会非常大，容易出现边界分错（两个相邻卡片被合并）或层级过深（八级嵌套）。这两类问题都会让"继续编辑"变得困难。

绕过方式：

用户截下来的不是静态的终态，而是动画中间的一帧 —— 抽屉滑出到一半、按钮按下的瞬间、toast 正在淡入。

为什么难：AI 识别的是"现在这一帧是什么"，它不知道这帧是过渡状态。结果可能是：抽屉被识别成"部分遮挡的矩形"、按下的按钮被识别成缩小版按钮。

绕过方式：

你可能会问：既然都知道了，为什么不直接训练一个全能模型？

真诚回答：AI 模型的能力是有取舍的。你在训练集里扩充一类场景（比如手绘稿），就会稍微拉低另一类场景（比如成品 UI）的精度。产品决策里我们选了"成品 UI 识别做到行业最好"作为第一优先级，因为那是 90% 用户的 90% 用例。

对剩下 10% 的场景，我们用Codia 生态里的其他产品去承接 —— DesignGen 解决从头构思、Psd2Figma 解决带源文件的合成稿、AI PDF 解决 PDF 类输入。你看到的不是"一个模型全搞定"，而是"用对的工具解决对的问题"。

如果你试用时踩到以上任何一个场景，它不是你做错了什么 —— 是我们还没做好。

欢迎把场景截图发到我们的社群（[email protected] 或 Slack codia-ai 工作区），我们在路线图里优先处理真实用户场景。

透明是产品发展的前提。这篇会随着产品能力演进持续更新 —— 希望下一次改动是"划掉其中几条"。

#figma#screenshot-to-design#limitations#transparency#codia