这篇文章回答的问题

一个真实在用的 AI 助手产品，把主力模型从 Claude Sonnet / Gemini 换成 DeepSeek v4 Flash，推理成本砍掉 90%——他们是怎么做到"换发动机用户还察觉不到"的？

这篇文章应该回答但没回答的问题

把命脉交给中国模型 + 第三方推理云（Atlas Cloud），地缘断供、供应商量化缩水、长期质量漂移这三个风险，谁来兜底？（压力测试发现的核心盲区，下文展开）

一、全文翻译

从 Claude 迁移到 DeepSeek

Lindy 的定价模式，只有在推理（inference）持续变便宜的前提下才成立。

这就是业务上的硬约束。Lindy 是一个通用 AI 助手——它写邮件、管日历、准备会议、做跟进，还有一长串每天都必须"靠得住"的小活儿。模型就是它的发动机，同时也是公司最大的成本项之一。

所以我们从第一天起，就把定价建立在一个押注上：模型变便宜的速度，会快到让我们能把用户顺着成本曲线往下挪，而产品不会变差。我们不想永远花同样多的钱、只是给用户堆一些他们并不总是需要的"更聪明"。

你不需要上帝来替你写邮件。

好几个月里，中国不断冒出头条，声称以几分之一的价格达到了前沿（frontier）级性能。这些大多都是噪音。然后到了五月和六月，这个声称对我们来说不再是噪音了。我们把大部分托管型 agent（managed-agent）的模型流量——包括 Claude/Sonnet 支撑的路径，以及剩下的 Gemini/Google 路径——都迁移到了运行在 Atlas Cloud 上的 DeepSeek v4 Flash。当用户显式选择 Sonnet，或某条路径需要更高智能时，Sonnet 仍然可以运行。在迁移过去的这部分流量上，推理成本下降了约 90%。

改一个模型名字很容易。难的是证明用户依然会信任这个助手——这才是真正的活儿。

这就是为什么当前关于"模型实验室（labs）“的那个问题不是书生气的清谈。AI labs 从零增长到几十亿美元营收，速度快得离谱。这笔钱总得有个出处。对应用层公司来说，其中很大一部分就直接出在基础设施账单上。

把这当成"换个下拉选项”，才是真正的错误

最天真的迁移版本只要五分钟：挑个更便宜的模型，跑几个 prompt，宣布胜利。

这个版本做出来的，就是一个更差的助手。

单个 prompt 几乎说明不了任何问题。真正有用的测试是：这个模型能不能扛住几千个微小的产品瞬间？它能不能用用户本人的口吻写邮件？能不能判断什么时候不该发？能不能让一份会议简报保持精炼？能不能在线程混乱时自我恢复？能不能做到这一切，而不让用户觉得"自己的助手一夜之间被换了大脑"？

最后一句不是比喻。我们在这次选型里试过 Kimi K2.5。它离线评测（offline evals）表现不错。然后我们把它推到一小片真实流量上，它几乎立刻就没通过"感觉测试"（vibe test）。一个用户反馈说，感觉他的 Lindy 一夜之间做了脑部手术。

离线评测是必要的。但光靠它远远不够。

我们是怎么选中 DeepSeek 的

我们先建了一大堆离线评测。这对我们不算新鲜事——如果你在生产环境跑 agent，你就必须有一套办法能回放真实任务、横向对比模型，而不把用户当小白鼠。

然后我们用这些评测跑了好几个候选模型，包括 GLM 5.1、Kimi K2.6 和 DeepSeek v4 Flash。我们还在不同的推理供应商（provider）上测了同一个模型。让人头疼的是：供应商本身有影响。同一个名义上的模型，由不同的人来服务，打分可能不一样。我们最合理的猜测是：有些供应商在提供量化（quantized）版本，或者它们的推理栈本身有问题。

这是一条很有用的教训：“我们测了 DeepSeek"这句话不够精确。你测的是【一个模型 + 一个供应商 + 一个推理栈 + 你自己的 prompt】这整套作为一个系统。

在我们关心的那些工作负载上，DeepSeek v4 Flash 胜出。然后我们调 prompt，直到离线分数大致追平旧方案。这时候我们的 GEPA prompt 优化循环派上了用场——它让我们能"对着评测优化 prompt”，而不是在黑暗里手改。

只有到这一步，我们才开始放量（rollout）。

真正重要的，是那个放量过程

我们从一小撮用户开始，其中也包括内部用户。内部流量很关键，因为员工抱怨得快、且细节有用——如果助手突然变笨了，你会在图表"客气到足以说话"之前就听到反馈。

从这里开始，我们盯两件事。

第一，在线评测（online evals）。它抓住离线集漏掉的情况，因为生产环境总比你写测试更快地"发明"出古怪的输入。

第二，留存（retention）。这个指标更慢、也更诚实。如果更便宜的模型让产品微妙地变差了，用户可能不会提交工单，他们可能只是用得少了。这意味着你至少需要几周数据，才能过于自信。

只要这些信号还撑得住，我们就继续放量。最终 DeepSeek 跑到了目标流量的 100%。

这一段从外部很容易被误解。有意思的活儿不是"我们把流量从旧模型逐步挪到新模型"——那只是管道工程（plumbing）。有意思的活儿，是去"赢得"挪动这些流量的资格。

我们学到的规则

不要问一个更便宜的模型在抽象意义上是不是"一样好"。要问它在哪里够用。

对我们来说，答案来自：离线评测 → 供应商测试 → prompt 优化 → 内部放量 → 在线评测 → 留存观察 → 最后全量 ramp。这套流程把迁移路径上的推理成本砍掉了约 90%，而且没让用户去操心模型路由。

这才是应用层公司现在该干的活儿：保持产品可靠。在证据允许时，把工作挪到更便宜的智能上。用省下的钱让生意成立。

用户不该操心是哪个模型替他写的邮件。他只该注意到——Lindy 还是那个 Lindy 的感觉。

来和我们一起做这件事

Lindy 正在招工程师，希望你把评测、prompt 优化、供应商选择、放量判断、成本纪律都当作产品工作来做。

选个更便宜的模型，那是容易的头条。证明用户还能继续信任这个助手，才是真正的工作。

这对 model labs 意味着什么

一个显而易见的问题是：这是否意味着模型 labs 会沦为商品（commodities）？

我们觉得诚实的回答是：部分会，但这跟"完蛋"不是一回事。

航空业是出了名的残酷生意——资本密集、竞争激烈、运营痛苦、很难差异化。但达美航空（Delta）依然值几百亿美元。一门商品化的生意，只要市场足够大，照样可以非常庞大。

如果 AI 变得比航空业大得多，那么即使是"商品化级别"的利润率，也能撑起巨头公司。如果某个 lab 在关键时刻拥有前沿，那仍然有巨大的溢价。奔向前沿的竞赛依然重要。

压力压的是利润率，不是相关性。前沿下方那一档（the tier just below the frontier）在持续变便宜。每一次这一档对某一类工作变得"够用"，应用层公司就有强烈动机把那类工作顺着成本曲线下移。我们刚刚就为 Lindy 的一大块工作这么干了。

这不意味着 labs 不重要了。它意味着 labs 必须不断"赚"回那份溢价。前沿可以极其值钱，与此同时，它身后那一堆工作负载正在一个接一个地被商品化。

二、工程级解读

这是一篇工程实战长文（涉及模型选型、推理供应商、评测体系、prompt 优化、放量策略），按工程级深度拆解。读完你应该能在自己的 AI 产品里复刻这套"换发动机"的流水线。

1. 是什么 → 在哪跑：先看清 Lindy 的运行时模型

很多人读完这篇文章，脑子里只剩"Lindy 把 Claude 换成了 DeepSeek"。这个理解差了三层。Lindy 的真实运行时是这样一个分层：

层	角色	这篇文章动了哪里
应用层	Lindy 产品（iMessage 助手：邮件/日历/会议/跟进）	没动，用户无感
托管型 Agent 层	Lindy 自己管理的 agent 编排（managed-agent）	这次迁移的主战场，流量大头
模型路由层	按任务智能需求 + 用户显式选择，决定走哪个模型	新增"默认走 DeepSeek、按需 fallback Sonnet"的路由
模型层	DeepSeek v4 Flash（默认）/ Claude Sonnet（高智能或显式）/ 其他候选	默认模型从 Anthropic 切到 DeepSeek
推理供应商层	Atlas Cloud（承载 DeepSeek）、各家供应商同模型表现不一	选定 Atlas Cloud，并发现"同模型不同供应商分数不同"
评测/优化层	离线 evals + 在线 evals + GEPA prompt 优化循环	这是"赢得迁移资格"的真正功臣

关键洞察：迁移不是"模型层"一个动作，而是模型层 + 路由层 + 供应商层 + 评测层四个层联动。文章里那句金句你应该重读一遍：

你测的是【一个模型 + 一个供应商 + 一个推理栈 + 你自己的 prompt】这整套作为一个系统。 You tested a model, a provider, an inference stack, and your own prompts as one system.

这句话的价值在于它戳穿了一个普遍的偷懒：把"模型"当成一个可以独立评测的原子单位。事实上 DeepSeek-v4-Flash@供应商A(量化版) 和 DeepSeek-v4-Flash@供应商B(FP8) 可能是两个不同的模型。这也解释了为什么 Lindy 要把"供应商选择"和"模型选择"放在同一层来测。

2. 核心架构拆解：Lindy 的"模型替换"流水线

把文章倒过来看，Lindy 这套迁移其实是一条七阶段流水线，每个阶段都有"是否放行下一阶段"的 gate：

阶段	做什么	失败会怎样	文中信号
① 离线评测建设	把真实任务录成可回放的 eval set	无法横向对比，只能拍脑袋	“回放真实任务、横向对比模型，不把用户当小白鼠”
② 候选横评	GLM 5.1 / Kimi K2.6 / DeepSeek v4 Flash 同台跑	选错模型，后面全白干	“跑了好几个候选模型”
③ 供应商横评	同模型 × 多供应商，找分数最高的组合	选对模型但选错供应商，质量偷偷打折	“同一个名义模型，由不同人来服务，打分可能不一样”
④ Prompt 重优化	用 GEPA 把 prompt 调到分数追平旧方案	新模型吃亏在 prompt 不适配，假阴性	“调 prompt 直到离线分数大致追平”
⑤ 内部放量	先给员工/小比例用户，靠"抱怨速度"做预警	内部没先暴露问题就外放，事故	“员工抱怨得快、且细节有用”
⑥ 在线评测	生产环境抓离线集漏掉的奇怪输入	离线集覆盖率不足的盲区	“生产环境总比你写测试更快地发明古怪输入”
⑦ 留存观察 + 全量 ramp	盯几周 retention，稳了再推到 100%	质量微妙下降→用户静默流失	“需要至少几周数据才能过于自信”

注意阶段间的语义（这是编排类内容最容易读漏的点）：阶段之间是顺序屏障（barrier）——必须当前阶段的信号"撑得住"才放行下一个；阶段内部是并发——比如 ②③可以并行跑多模型多供应商。这不是"逐步挪流量"的管道工程，是"逐步赢得挪流量资格"的信任工程。

3. 内部机制：GEPA prompt 优化循环是什么、Kimi 为什么挂

文章点了两个技术名词，但没展开。补全：

GEPA（Generalized Evolutionary Prompt Optimization / 类似的提示词进化优化方法）的内核是：把 prompt 当成待优化的代码，把 eval set 当成测试套件，让优化器（通常是一个 LLM 作为 optimizer）自动生成 prompt 变体、在 eval 上打分、保留高分变体、再变异——本质是遗传算法/进化策略用在 prompt 上。

它解决的是文章点名的问题：“在黑暗里手改 prompt”。手改 prompt 的问题是：你改了一个 case 可能弄坏另外三个，且你不知道。GEPA 让优化对着评分函数收敛，每一轮变异都有客观分数背书。

对照表：

维度	手改 Prompt	GEPA 循环
反馈来源	工程师直觉 + 几个 case	完整 eval set 的客观分数
收敛性	容易越改越歪、按下葫芦浮起瓢	朝着评分函数单调改进
可复现	改动没有版本化因果	每轮变体可回放、可对比
适用场景	单点 hotfix	模型替换/大版本升级这种系统性重构

Kimi K2.5 为什么挂：它在离线 evals 上"表现不错"，但真实流量上"感觉像一夜之间做了脑部手术"。这是评测体系里经典的**分布偏移（distribution shift）**问题——离线集是"干净、典型"的任务，真实流量是"混乱、长尾、带上下文污染"的任务。一个模型可以在典型分布上追平 Sonnet，却在长尾上崩盘（语气突变、人格不连贯、判断边界漂移）。这也正是 Lindy 坚持要做 ⑤⑥⑦ 三层"真实环境验证"的原因——离线集本质上无法覆盖生产环境的输入分布。

4. DIY 对比：在 Lindy 这套体系出现之前，人们怎么手搓

这套方法论不是天降，它是把过去散落的工程实践"产品化"了。手搓版 vs Lindy/官方做法：

环节	手搓版（绝大多数团队在做的）	Lindy 这套做法（工程化产品级）
评测集	10-20 个手工 case，存在 Notion/Excel 里	录制真实任务，可回放、可大规模并发跑
模型对比	拍脑袋 + A/B 看看	标准化 eval set 跨模型同台打分
供应商	默认走模型官方 API，没想过同模型不同供应商	显式横评供应商，检测量化缩水
Prompt	工程师手动调，改坏不知道	GEPA 自动对着 eval 优化
放量	直接全量切，出事回滚	内部→小流量→留存观察→全量 ramp，多道 gate
失败检测	靠用户投诉工单	内部抱怨 + 在线 eval + retention 三重信号

省的到底是什么：不是省"选模型的时间"（那本来就只要五分钟），而是省**“选错模型的代价”**——一次把 Sonnet 贸然换成 Kimi 的全量切换，可能导致 retention 静默下跌几个点，几周后才从财报里发现，那时已经流失了一批用户。Lindy 这套流水线的价值是：把"选错模型"的代价从"事故级"压到"评测阶段就被拦截"。

5. 选型决策框架：你应该用什么模型

把 Lindy 的方法论抽象成一个可复用的决策框架——“够用边界"决策法：

问题/场景	推荐模型档位	理由
写邮件、日程协调、会议简报等"日常可靠"任务	DeepSeek v4 Flash 这档（frontier-below）	不需要上帝，成本敏感，量大
用户显式要"最强”、或高难度推理路径	Claude Sonnet / 前沿档	保留溢价智能，按需触发
需要强视觉/多模态（图片理解）	谨慎用 DeepSeek，保留更强多模态模型	评论实测：DeepSeek 在 vision 场景偏弱（见下方评论）
需要低延迟 + 频繁 tool calling	谨慎用 DeepSeek + 慎选供应商	评论实测：tool calling/retries 延迟可能飙升（见下方评论）
你的产品有严格合规/数据主权要求	评估地缘与供应商合规风险	DeepSeek 是中国模型 + 第三方云托管，见下方"诚实限制"

核心判断公式（这是这篇文章最值得偷走的东西）：

不要问"更便宜的模型是不是一样好"，要问"它在哪些地方够用"。

这句话的本质是把一个布尔判断（一样好/不一样好）换成了分段判断（在 A 任务够用、在 B 任务不够用）。前者会让你在"平均值"上做错误决策，后者让你把流量按"够用边界"切成路由表——能下移的下移，不能下移的留在前沿档。

6. 诚实限制：这篇文章没说的几个坑

这一节来自我对原文的压力测试（用外部信源交叉验证 + 评论区反向证据），原文出于 PR 立场没有展开：

“100% 迁移"的措辞矛盾：文章同时说"moved 100% of managed-agent traffic"又说"Sonnet can still run when explicitly selected”。准确表述是：托管 agent 的默认流量 100% 切到 DeepSeek，但保留用户手动选 Sonnet + 高智能路径 fallback。读"100%“时要在心里加这个限定。
DeepSeek 的视觉短板（评论 @samarthg1911 实测）：DeepSeek 在"除了 vision 之外"的场景表现好。如果你的 agent 要读截图/图片，要单独验证。
Tool calling + 重试的延迟陷阱（评论 @nimsbh_ai 实测）：切换到 DeepSeek V4 Flash 后，工具调用和重试导致"延迟大幅增加”——至少在 OpenRouter 上。Lindy 跑在 Atlas Cloud 上没提这个问题，但这说明"供应商=推理栈"的影响在 tool calling 这种重交互场景上会被放大。
地缘与供应链风险（原文完全沉默）：DeepSeek 是中国模型，托管在 Atlas Cloud（第三方推理云）。三个原文没提的风险：
- 出口管制/政策：美国对中国模型的访问限制可能随时收紧；
- 量化版本的不确定性：文章自己承认"有些供应商在提供量化版"，意味着你买到的"DeepSeek v4 Flash"可能不是满血版；
- 供应商单点：把命脉交给单一第三方推理云，对方涨价/宕机/改量化策略，你怎么办。对一个"产品可靠性=生命线"的助手产品，这个沉默相当刺眼。
“成本曲线持续下降"是个押注，不是物理定律：Lindy 整个定价模式建立在这个假设上。如果 scaling law 触顶、或能源/算力成本反转上升，这个商业模型会承压。文章把它当成既定事实，但它是赌注。
留存观察窗口可能不够：文章说"至少几周数据”。但模型迁移的"长期质量漂移"（prompt drift、用户口味变化、任务分布演化）可能要几个月才显现。几周的 retention 曲线稳，不等于一年后稳。

为什么这些坑原文没说：这篇文章本质是 Lindy 的"工程能力展示 + 招聘广告 + 成本叙事"的混合体（结尾两节直接是招聘 + 行业判断）。它有动机把故事讲得干净漂亮。这不削弱其方法论价值，但读者要自己补上"沉默的证据"。

三、精选评论

@samarthg1911：我很喜欢 DeepSeek 的性价比。大多数事你确实不需要上帝，DeepSeek 几乎哪儿都能塞进去——除了需要视觉（vision）的时候。我把 discovery 和 synthesis agent 迁到了 DeepSeek，成本降了 100 倍🫣
原文：I love deepseek for how good it is for its price. You definitely don’t need god for most things. And deepseek slots in nicely everywhere except when i need vision. I moved my discovery and synthesis agents to deepseek and costs have come down 100x.

@nimsbh_ai：我发现切换到 DeepSeek V4 Flash 是个不错的替代方案，但工具调用（tool calling）和重试似乎会让延迟大幅增加——至少在 OpenRouter 上是这样。
原文：I have found that switching to Deepseek V4 Flash is a good alternative, except for the tool calling and retries seem to increase the latency way too much at-least with OpenRouter.

@mikehealthai1：这太无情了。智能正在从超算中心到终端设备的各个层级变成商品。不是商品的，是引导（guidance）和信任（trust）——也就是你们正在做的事。我们以前是驯化数据，现在是驯化智能。
原文：It’s relentless. Intelligence is becoming a commodity at all levels… What’s not a commodity is guidance and trust, what u are doing. We used to wrangle data, now we’re wrangling intelligence.

评论里两条反向证据（vision 弱、tool calling 延迟）价值最高——它们正好补上了原文"沉默的限制"。@samarthg1911 的"100x"比 Lindy 官方的"90%“还激进，说明在特定工作负载（discovery/synthesis 这种偏文本归纳）上，降本上限比通用场景更高。

四、Socratic Dialogue（苏格拉底对话）

尾巴：我看完第一反应是——这不就是"Lindy 发现 Claude 太贵，换了个便宜的国产模型"吗？这有啥值得写长文的？

Cloudcold：那我问你，假如明天你自己的 AI 产品也这么换，你敢不敢直接全量切？

尾巴：……应该不敢。万一用户觉得变笨了呢。

Cloudcold：对了。那"万一变笨"这件事，你怎么测？你能列出现在用的模型，在哪几类任务上"绝不能换"吗？

尾巴：老实说列不出来，我现在连一个正式的 eval set 都没有，就是凭感觉用。

Cloudcold：这就是这篇文章真正的价值——它不是在讲"DeepSeek 便宜”，它在讲**“你怎么科学地证明一个更便宜的模型在你的场景里够用”**。Lindy 的七阶段流水线，本质是"用证据换流量"。你注意到没有，他们把"内部员工先抱怨"当成一个独立阶段？

尾巴：看到了，说员工"抱怨得快且细节有用"。这个挺反直觉的，一般都觉得内部反馈不重要。

Cloudcold：因为员工是你最快的脏数据探测器。生产环境的图表要等几天才有统计意义，员工用了一下觉得"诶今天怪怪的"，当天就告诉你了。它在"图表还没礼貌到能说话之前"就给你预警。这是拿人当 canary（金丝雀）。

尾巴：那 Kimi K2.5 离线评测过关、上线翻车这个，是不是说明离线评测没用？

Cloudcold：不是没用，是不够。离线集是"典型分布"，真实流量是"长尾分布"。一个模型可以在典型任务上追平 Sonnet，却在混乱上下文里人格分裂。这就是为什么 Lindy 不只做离线，还要做在线 + 留存三层。离线评测能淘汰坏的，但证明不了好的——好模型是"在生产环境里活下来"才能证明的。

尾巴：最后那个"航空公司"的比喻我没太 get，商品化生意还能诞生巨头？

Cloudcold：达美值几百亿，但航空业是公认的烂生意。关键不在"利润率高不高"，在"市场够不够大"。如果 AI 市场比航空业大十倍百倍，那即便每个 token 的利润被压到地板，总盘子也能撑起巨头。这对你的美股视角是个信号——别光看 lab 的毛利率，看 TAM（总可寻址市场）。前沿 lab 仍有溢价，但溢价正在被"frontier-below 那一档持续变便宜"这件事侵蚀。

尾巴：那我反过来问——Lindy 这么依赖 DeepSeek，万一断供呢？文章好像完全没提。

Cloudcold：这正是这篇文章最大的沉默。 把产品命脉押在一个中国模型 + 一个第三方推理云上，地缘、量化缩水、供应商单点，三个风险原文一字未提。文章结尾两节是招聘 + 行业判断，它本质是 PR。方法论要学，但"沉默的证据"得你自己补上——这条够我给你单列一个待办了。

五、Personalized Insights（个性化洞察）

基于你的画像：QA 工程师背景、重度 Claude Code 用户、关注 AI 行业/美股/创业方法论、自己在做 AI 产品和技术自媒体。

1. 美股视角：这是一份关于"AI lab 估值逻辑"的一手信号。 为什么跟你有关：你是关注 AI 板块的投资者，Lindy 是真实付费的 B 端客户，它的采购决策比任何分析师报告都真实。它从 Anthropic/Google churn 到 DeepSeek，砍 90% 成本——这是"frontier-below 模型正在吃掉 lab 利润率"的活体证据。你可以怎么做：跟踪这个迁移趋势的受益方（DeepSeek 生态、Atlas Cloud 等第三方推理云、廉价推理芯片）和承压方（闭源 lab 的毛利率叙事）。HN 上已经有人说"DeepSeek V4 Flash 成本是 Sonnet 的 3%"——这种成本断层一旦普及，Anthropic 的"溢价"叙事需要新支撑（可能是前沿智能、企业合规、多模态）。下次看 AI 财报，盯"应用层客户的模型采购结构"这个先行指标。

2. 工程方法论：把 Lindy 这套"七阶段迁移流水线"偷到你自己的 AI 产品里。 为什么跟你有关：你自己在做 AI 产品，迟早要面对"用不起 Sonnet、要降级模型"的时刻。Lindy 给了你一套现成 SOP：离线 eval → 模型横评 → 供应商横评（这步 99% 的人忽略）→ GEPA prompt 优化 → 内部 canary → 在线 eval → 留存 ramp。你可以怎么做：现在就给你的产品搭一个最小 eval set，哪怕只有 30 条真实任务。它不是负担，是未来换模型时的"决策依据"。另外记住文章那句最值钱的话——“你测的是模型+供应商+推理栈+prompt 这个系统”，所以你的 eval 要固定供应商，否则打分不可比。

3. “供应商=推理栈"的量化陷阱，QA 出身的你应该最敏感。 为什么跟你有关：你是 QA 背景，“同一个名义模型不同供应商分数不同"这种事，本质是未声明的版本差异（undeclared version skew）——典型的测试环境不可复现问题。文章承认"有些供应商在提供量化版”，意思是你买到的 DeepSeek 可能是悄悄打折的。你可以怎么做：如果你做模型选型，把"供应商 + 量化配置 + 推理栈"当成显式变量记录，每个供应商跑同一套 eval，对比分数方差。这其实就是 QA 思维用在 LLM 选型上——你的专业优势在这里能直接变现。

4. 技术自媒体选题：这是"中国大模型出海击败美国 lab"的稀缺一手素材。 为什么跟你有关：你做技术自媒体，需要"有数据、有当事人、有反直觉"的选题。Lindy 这篇同时满足：当事人亲述、90% 降本硬数据、反直觉（Kimi 离线过线线上翻车、DeepSeek 击败 GLM5.1/Kimi K2.6）、且带地缘张力（中国模型 + 美国客户）。HN/Reddit 已经在热讨论。你可以怎么做：可以做一个"模型迁移经济学"系列，把 Lindy、Cursor、各种 coding agent 的模型采购决策横向对比。读者最想看的不是"DeepSeek 强”，而是"别人是怎么科学地决定换不换的"——这套 eval 驱动的方法论才是干货差异化点。

5. 一个留给你自己的风险备忘：别犯 Lindy 没说的错。 为什么跟你有关：Lindy 沉默的三个风险（地缘断供、量化缩水、供应商单点），对你这种"自己当老板"的产品是致命的——你没有一个 Anthropic 那样的法务/合规团队兜底。你可以怎么做：如果你要用中国模型做核心链路，默认配置一个 fallback 路由（DeepSeek 挂了自动切回 Sonnet 或 GLM），并把这个路由成本写进定价模型。永远不要让"单一供应商 + 单一模型"成为产品的单点故障——哪怕它便宜 90%。

深度交叉验证：LinkedIn 官方摘要确认 90% 降本与 Kimi K2.5 翻车；HN 评论称 DeepSeek V4 Flash 成本约为 Sonnet 的 3%（量级一致）；FriendliAI/Artificial Analysis 基准确认 DeepSeek V4 Flash 智力与 Sonnet 4.6 相当；Reddit r/vibecoding 实测"实际节省远超 4 倍（cache hit rate 极高）"。

#AI #DeepSeek #模型迁移 #Lindy #推理成本 #Eval #工程方法论