Lost Temple

这篇文章回答的问题

一个真实在用的 AI 助手产品,把主力模型从 Claude Sonnet / Gemini 换成 DeepSeek v4 Flash,推理成本砍掉 90%——他们是怎么做到"换发动机用户还察觉不到"的?

这篇文章应该回答但没回答的问题

把命脉交给中国模型 + 第三方推理云(Atlas Cloud),地缘断供、供应商量化缩水、长期质量漂移这三个风险,谁来兜底?(压力测试发现的核心盲区,下文展开)


一、全文翻译

从 Claude 迁移到 DeepSeek

Lindy 的定价模式,只有在推理(inference)持续变便宜的前提下才成立。

这就是业务上的硬约束。Lindy 是一个通用 AI 助手——它写邮件、管日历、准备会议、做跟进,还有一长串每天都必须"靠得住"的小活儿。模型就是它的发动机,同时也是公司最大的成本项之一。

所以我们从第一天起,就把定价建立在一个押注上:模型变便宜的速度,会快到让我们能把用户顺着成本曲线往下挪,而产品不会变差。我们不想永远花同样多的钱、只是给用户堆一些他们并不总是需要的"更聪明"。

你不需要上帝来替你写邮件。

好几个月里,中国不断冒出头条,声称以几分之一的价格达到了前沿(frontier)级性能。这些大多都是噪音。然后到了五月和六月,这个声称对我们来说不再是噪音了。我们把大部分托管型 agent(managed-agent)的模型流量——包括 Claude/Sonnet 支撑的路径,以及剩下的 Gemini/Google 路径——都迁移到了运行在 Atlas Cloud 上的 DeepSeek v4 Flash。当用户显式选择 Sonnet,或某条路径需要更高智能时,Sonnet 仍然可以运行。在迁移过去的这部分流量上,推理成本下降了约 90%

改一个模型名字很容易。难的是证明用户依然会信任这个助手——这才是真正的活儿。

这就是为什么当前关于"模型实验室(labs)“的那个问题不是书生气的清谈。AI labs 从零增长到几十亿美元营收,速度快得离谱。这笔钱总得有个出处。对应用层公司来说,其中很大一部分就直接出在基础设施账单上。

把这当成"换个下拉选项”,才是真正的错误

最天真的迁移版本只要五分钟:挑个更便宜的模型,跑几个 prompt,宣布胜利。

这个版本做出来的,就是一个更差的助手。

单个 prompt 几乎说明不了任何问题。真正有用的测试是:这个模型能不能扛住几千个微小的产品瞬间?它能不能用用户本人的口吻写邮件?能不能判断什么时候不该发?能不能让一份会议简报保持精炼?能不能在线程混乱时自我恢复?能不能做到这一切,而不让用户觉得"自己的助手一夜之间被换了大脑"?

最后一句不是比喻。我们在这次选型里试过 Kimi K2.5。它离线评测(offline evals)表现不错。然后我们把它推到一小片真实流量上,它几乎立刻就没通过"感觉测试"(vibe test)。一个用户反馈说,感觉他的 Lindy 一夜之间做了脑部手术

离线评测是必要的。但光靠它远远不够。

我们是怎么选中 DeepSeek 的

我们先建了一大堆离线评测。这对我们不算新鲜事——如果你在生产环境跑 agent,你就必须有一套办法能回放真实任务、横向对比模型,而不把用户当小白鼠。

然后我们用这些评测跑了好几个候选模型,包括 GLM 5.1、Kimi K2.6 和 DeepSeek v4 Flash。我们还在不同的推理供应商(provider)上测了同一个模型。让人头疼的是:供应商本身有影响。同一个名义上的模型,由不同的人来服务,打分可能不一样。我们最合理的猜测是:有些供应商在提供量化(quantized)版本,或者它们的推理栈本身有问题。

这是一条很有用的教训:“我们测了 DeepSeek"这句话不够精确。你测的是【一个模型 + 一个供应商 + 一个推理栈 + 你自己的 prompt】这整套作为一个系统。

在我们关心的那些工作负载上,DeepSeek v4 Flash 胜出。然后我们调 prompt,直到离线分数大致追平旧方案。这时候我们的 GEPA prompt 优化循环派上了用场——它让我们能"对着评测优化 prompt”,而不是在黑暗里手改。

只有到这一步,我们才开始放量(rollout)。

真正重要的,是那个放量过程

我们从一小撮用户开始,其中也包括内部用户。内部流量很关键,因为员工抱怨得快、且细节有用——如果助手突然变笨了,你会在图表"客气到足以说话"之前就听到反馈。

从这里开始,我们盯两件事。

第一,在线评测(online evals)。它抓住离线集漏掉的情况,因为生产环境总比你写测试更快地"发明"出古怪的输入。

第二,留存(retention)。这个指标更慢、也更诚实。如果更便宜的模型让产品微妙地变差了,用户可能不会提交工单,他们可能只是用得少了。这意味着你至少需要几周数据,才能过于自信。

只要这些信号还撑得住,我们就继续放量。最终 DeepSeek 跑到了目标流量的 100%。

这一段从外部很容易被误解。有意思的活儿不是"我们把流量从旧模型逐步挪到新模型"——那只是管道工程(plumbing)。有意思的活儿,是去"赢得"挪动这些流量的资格。

我们学到的规则

不要问一个更便宜的模型在抽象意义上是不是"一样好"。要问它在哪里够用

对我们来说,答案来自:离线评测 → 供应商测试 → prompt 优化 → 内部放量 → 在线评测 → 留存观察 → 最后全量 ramp。这套流程把迁移路径上的推理成本砍掉了约 90%,而且没让用户去操心模型路由。

这才是应用层公司现在该干的活儿:保持产品可靠。在证据允许时,把工作挪到更便宜的智能上。用省下的钱让生意成立。

用户不该操心是哪个模型替他写的邮件。他只该注意到——Lindy 还是那个 Lindy 的感觉。

来和我们一起做这件事

Lindy 正在招工程师,希望你把评测、prompt 优化、供应商选择、放量判断、成本纪律都当作产品工作来做。

选个更便宜的模型,那是容易的头条。证明用户还能继续信任这个助手,才是真正的工作。

这对 model labs 意味着什么

一个显而易见的问题是:这是否意味着模型 labs 会沦为商品(commodities)?

我们觉得诚实的回答是:部分会,但这跟"完蛋"不是一回事。

航空业是出了名的残酷生意——资本密集、竞争激烈、运营痛苦、很难差异化。但达美航空(Delta)依然值几百亿美元。一门商品化的生意,只要市场足够大,照样可以非常庞大。

如果 AI 变得比航空业大得多,那么即使是"商品化级别"的利润率,也能撑起巨头公司。如果某个 lab 在关键时刻拥有前沿,那仍然有巨大的溢价。奔向前沿的竞赛依然重要。

压力压的是利润率,不是相关性。前沿下方那一档(the tier just below the frontier)在持续变便宜。每一次这一档对某一类工作变得"够用",应用层公司就有强烈动机把那类工作顺着成本曲线下移。我们刚刚就为 Lindy 的一大块工作这么干了。

这不意味着 labs 不重要了。它意味着 labs 必须不断"赚"回那份溢价。前沿可以极其值钱,与此同时,它身后那一堆工作负载正在一个接一个地被商品化。


二、工程级解读

这是一篇工程实战长文(涉及模型选型、推理供应商、评测体系、prompt 优化、放量策略),按工程级深度拆解。读完你应该能在自己的 AI 产品里复刻这套"换发动机"的流水线。

1. 是什么 → 在哪跑:先看清 Lindy 的运行时模型

很多人读完这篇文章,脑子里只剩"Lindy 把 Claude 换成了 DeepSeek"。这个理解差了三层。Lindy 的真实运行时是这样一个分层:

角色这篇文章动了哪里
应用层Lindy 产品(iMessage 助手:邮件/日历/会议/跟进)没动,用户无感
托管型 Agent 层Lindy 自己管理的 agent 编排(managed-agent)这次迁移的主战场,流量大头
模型路由层按任务智能需求 + 用户显式选择,决定走哪个模型新增"默认走 DeepSeek、按需 fallback Sonnet"的路由
模型层DeepSeek v4 Flash(默认)/ Claude Sonnet(高智能或显式)/ 其他候选默认模型从 Anthropic 切到 DeepSeek
推理供应商层Atlas Cloud(承载 DeepSeek)、各家供应商同模型表现不一选定 Atlas Cloud,并发现"同模型不同供应商分数不同"
评测/优化层离线 evals + 在线 evals + GEPA prompt 优化循环这是"赢得迁移资格"的真正功臣

关键洞察:迁移不是"模型层"一个动作,而是模型层 + 路由层 + 供应商层 + 评测层四个层联动。文章里那句金句你应该重读一遍:

你测的是【一个模型 + 一个供应商 + 一个推理栈 + 你自己的 prompt】这整套作为一个系统。 You tested a model, a provider, an inference stack, and your own prompts as one system.

这句话的价值在于它戳穿了一个普遍的偷懒:把"模型"当成一个可以独立评测的原子单位。事实上 DeepSeek-v4-Flash@供应商A(量化版)DeepSeek-v4-Flash@供应商B(FP8) 可能是两个不同的模型。这也解释了为什么 Lindy 要把"供应商选择"和"模型选择"放在同一层来测。

2. 核心架构拆解:Lindy 的"模型替换"流水线

把文章倒过来看,Lindy 这套迁移其实是一条七阶段流水线,每个阶段都有"是否放行下一阶段"的 gate:

阶段做什么失败会怎样文中信号
① 离线评测建设把真实任务录成可回放的 eval set无法横向对比,只能拍脑袋“回放真实任务、横向对比模型,不把用户当小白鼠”
② 候选横评GLM 5.1 / Kimi K2.6 / DeepSeek v4 Flash 同台跑选错模型,后面全白干“跑了好几个候选模型”
③ 供应商横评同模型 × 多供应商,找分数最高的组合选对模型但选错供应商,质量偷偷打折“同一个名义模型,由不同人来服务,打分可能不一样”
④ Prompt 重优化用 GEPA 把 prompt 调到分数追平旧方案新模型吃亏在 prompt 不适配,假阴性“调 prompt 直到离线分数大致追平”
⑤ 内部放量先给员工/小比例用户,靠"抱怨速度"做预警内部没先暴露问题就外放,事故“员工抱怨得快、且细节有用”
⑥ 在线评测生产环境抓离线集漏掉的奇怪输入离线集覆盖率不足的盲区“生产环境总比你写测试更快地发明古怪输入”
⑦ 留存观察 + 全量 ramp盯几周 retention,稳了再推到 100%质量微妙下降→用户静默流失“需要至少几周数据才能过于自信”

注意阶段间的语义(这是编排类内容最容易读漏的点):阶段之间是顺序屏障(barrier)——必须当前阶段的信号"撑得住"才放行下一个;阶段内部是并发——比如 ②③可以并行跑多模型多供应商。这不是"逐步挪流量"的管道工程,是"逐步赢得挪流量资格"的信任工程。

3. 内部机制:GEPA prompt 优化循环是什么、Kimi 为什么挂

文章点了两个技术名词,但没展开。补全:

GEPA(Generalized Evolutionary Prompt Optimization / 类似的提示词进化优化方法)的内核是:把 prompt 当成待优化的代码,把 eval set 当成测试套件,让优化器(通常是一个 LLM 作为 optimizer)自动生成 prompt 变体、在 eval 上打分、保留高分变体、再变异——本质是遗传算法/进化策略用在 prompt 上。

它解决的是文章点名的问题:“在黑暗里手改 prompt”。手改 prompt 的问题是:你改了一个 case 可能弄坏另外三个,且你不知道。GEPA 让优化对着评分函数收敛,每一轮变异都有客观分数背书。

对照表:

维度手改 PromptGEPA 循环
反馈来源工程师直觉 + 几个 case完整 eval set 的客观分数
收敛性容易越改越歪、按下葫芦浮起瓢朝着评分函数单调改进
可复现改动没有版本化因果每轮变体可回放、可对比
适用场景单点 hotfix模型替换/大版本升级这种系统性重构

Kimi K2.5 为什么挂:它在离线 evals 上"表现不错",但真实流量上"感觉像一夜之间做了脑部手术"。这是评测体系里经典的**分布偏移(distribution shift)**问题——离线集是"干净、典型"的任务,真实流量是"混乱、长尾、带上下文污染"的任务。一个模型可以在典型分布上追平 Sonnet,却在长尾上崩盘(语气突变、人格不连贯、判断边界漂移)。这也正是 Lindy 坚持要做 ⑤⑥⑦ 三层"真实环境验证"的原因——离线集本质上无法覆盖生产环境的输入分布。

4. DIY 对比:在 Lindy 这套体系出现之前,人们怎么手搓

这套方法论不是天降,它是把过去散落的工程实践"产品化"了。手搓版 vs Lindy/官方做法:

环节手搓版(绝大多数团队在做的)Lindy 这套做法(工程化产品级)
评测集10-20 个手工 case,存在 Notion/Excel 里录制真实任务,可回放、可大规模并发跑
模型对比拍脑袋 + A/B 看看标准化 eval set 跨模型同台打分
供应商默认走模型官方 API,没想过同模型不同供应商显式横评供应商,检测量化缩水
Prompt工程师手动调,改坏不知道GEPA 自动对着 eval 优化
放量直接全量切,出事回滚内部→小流量→留存观察→全量 ramp,多道 gate
失败检测靠用户投诉工单内部抱怨 + 在线 eval + retention 三重信号

省的到底是什么:不是省"选模型的时间"(那本来就只要五分钟),而是省**“选错模型的代价”**——一次把 Sonnet 贸然换成 Kimi 的全量切换,可能导致 retention 静默下跌几个点,几周后才从财报里发现,那时已经流失了一批用户。Lindy 这套流水线的价值是:把"选错模型"的代价从"事故级"压到"评测阶段就被拦截"

5. 选型决策框架:你应该用什么模型

把 Lindy 的方法论抽象成一个可复用的决策框架——“够用边界"决策法

问题/场景推荐模型档位理由
写邮件、日程协调、会议简报等"日常可靠"任务DeepSeek v4 Flash 这档(frontier-below)不需要上帝,成本敏感,量大
用户显式要"最强”、或高难度推理路径Claude Sonnet / 前沿档保留溢价智能,按需触发
需要强视觉/多模态(图片理解)谨慎用 DeepSeek,保留更强多模态模型评论实测:DeepSeek 在 vision 场景偏弱(见下方评论)
需要低延迟 + 频繁 tool calling谨慎用 DeepSeek + 慎选供应商评论实测:tool calling/retries 延迟可能飙升(见下方评论)
你的产品有严格合规/数据主权要求评估地缘与供应商合规风险DeepSeek 是中国模型 + 第三方云托管,见下方"诚实限制"

核心判断公式(这是这篇文章最值得偷走的东西):

不要问"更便宜的模型是不是一样好",要问"它在哪些地方够用"。

这句话的本质是把一个布尔判断(一样好/不一样好)换成了分段判断(在 A 任务够用、在 B 任务不够用)。前者会让你在"平均值"上做错误决策,后者让你把流量按"够用边界"切成路由表——能下移的下移,不能下移的留在前沿档。

6. 诚实限制:这篇文章没说的几个坑

这一节来自我对原文的压力测试(用外部信源交叉验证 + 评论区反向证据),原文出于 PR 立场没有展开:

  1. “100% 迁移"的措辞矛盾:文章同时说"moved 100% of managed-agent traffic"又说"Sonnet can still run when explicitly selected”。准确表述是:托管 agent 的默认流量 100% 切到 DeepSeek,但保留用户手动选 Sonnet + 高智能路径 fallback。读"100%“时要在心里加这个限定。

  2. DeepSeek 的视觉短板(评论 @samarthg1911 实测):DeepSeek 在"除了 vision 之外"的场景表现好。如果你的 agent 要读截图/图片,要单独验证。

  3. Tool calling + 重试的延迟陷阱(评论 @nimsbh_ai 实测):切换到 DeepSeek V4 Flash 后,工具调用和重试导致"延迟大幅增加”——至少在 OpenRouter 上。Lindy 跑在 Atlas Cloud 上没提这个问题,但这说明"供应商=推理栈"的影响在 tool calling 这种重交互场景上会被放大

  4. 地缘与供应链风险(原文完全沉默):DeepSeek 是中国模型,托管在 Atlas Cloud(第三方推理云)。三个原文没提的风险:

    • 出口管制/政策:美国对中国模型的访问限制可能随时收紧;
    • 量化版本的不确定性:文章自己承认"有些供应商在提供量化版",意味着你买到的"DeepSeek v4 Flash"可能不是满血版;
    • 供应商单点:把命脉交给单一第三方推理云,对方涨价/宕机/改量化策略,你怎么办。 对一个"产品可靠性=生命线"的助手产品,这个沉默相当刺眼。
  5. “成本曲线持续下降"是个押注,不是物理定律:Lindy 整个定价模式建立在这个假设上。如果 scaling law 触顶、或能源/算力成本反转上升,这个商业模型会承压。文章把它当成既定事实,但它是赌注。

  6. 留存观察窗口可能不够:文章说"至少几周数据”。但模型迁移的"长期质量漂移"(prompt drift、用户口味变化、任务分布演化)可能要几个月才显现。几周的 retention 曲线稳,不等于一年后稳。

为什么这些坑原文没说:这篇文章本质是 Lindy 的"工程能力展示 + 招聘广告 + 成本叙事"的混合体(结尾两节直接是招聘 + 行业判断)。它有动机把故事讲得干净漂亮。这不削弱其方法论价值,但读者要自己补上"沉默的证据"。


三、精选评论

@samarthg1911:我很喜欢 DeepSeek 的性价比。大多数事你确实不需要上帝,DeepSeek 几乎哪儿都能塞进去——除了需要视觉(vision)的时候。我把 discovery 和 synthesis agent 迁到了 DeepSeek,成本降了 100 倍🫣

原文:I love deepseek for how good it is for its price. You definitely don’t need god for most things. And deepseek slots in nicely everywhere except when i need vision. I moved my discovery and synthesis agents to deepseek and costs have come down 100x.

@nimsbh_ai:我发现切换到 DeepSeek V4 Flash 是个不错的替代方案,但工具调用(tool calling)和重试似乎会让延迟大幅增加——至少在 OpenRouter 上是这样。

原文:I have found that switching to Deepseek V4 Flash is a good alternative, except for the tool calling and retries seem to increase the latency way too much at-least with OpenRouter.

@mikehealthai1:这太无情了。智能正在从超算中心到终端设备的各个层级变成商品。不是商品的,是引导(guidance)和信任(trust)——也就是你们正在做的事。我们以前是驯化数据,现在是驯化智能。

原文:It’s relentless. Intelligence is becoming a commodity at all levels… What’s not a commodity is guidance and trust, what u are doing. We used to wrangle data, now we’re wrangling intelligence.

评论里两条反向证据(vision 弱、tool calling 延迟)价值最高——它们正好补上了原文"沉默的限制"。@samarthg1911 的"100x"比 Lindy 官方的"90%“还激进,说明在特定工作负载(discovery/synthesis 这种偏文本归纳)上,降本上限比通用场景更高。


四、Socratic Dialogue(苏格拉底对话)

尾巴:我看完第一反应是——这不就是"Lindy 发现 Claude 太贵,换了个便宜的国产模型"吗?这有啥值得写长文的?

Cloudcold:那我问你,假如明天你自己的 AI 产品也这么换,你敢不敢直接全量切?

尾巴:……应该不敢。万一用户觉得变笨了呢。

Cloudcold:对了。那"万一变笨"这件事,你怎么测?你能列出现在用的模型,在哪几类任务上"绝不能换"吗?

尾巴:老实说列不出来,我现在连一个正式的 eval set 都没有,就是凭感觉用。

Cloudcold:这就是这篇文章真正的价值——它不是在讲"DeepSeek 便宜”,它在讲**“你怎么科学地证明一个更便宜的模型在你的场景里够用”**。Lindy 的七阶段流水线,本质是"用证据换流量"。你注意到没有,他们把"内部员工先抱怨"当成一个独立阶段?

尾巴:看到了,说员工"抱怨得快且细节有用"。这个挺反直觉的,一般都觉得内部反馈不重要。

Cloudcold:因为员工是你最快的脏数据探测器。生产环境的图表要等几天才有统计意义,员工用了一下觉得"诶今天怪怪的",当天就告诉你了。它在"图表还没礼貌到能说话之前"就给你预警。这是拿人当 canary(金丝雀)。

尾巴:那 Kimi K2.5 离线评测过关、上线翻车这个,是不是说明离线评测没用?

Cloudcold:不是没用,是不够。离线集是"典型分布",真实流量是"长尾分布"。一个模型可以在典型任务上追平 Sonnet,却在混乱上下文里人格分裂。这就是为什么 Lindy 不只做离线,还要做在线 + 留存三层。离线评测能淘汰坏的,但证明不了好的——好模型是"在生产环境里活下来"才能证明的。

尾巴:最后那个"航空公司"的比喻我没太 get,商品化生意还能诞生巨头?

Cloudcold:达美值几百亿,但航空业是公认的烂生意。关键不在"利润率高不高",在"市场够不够大"。如果 AI 市场比航空业大十倍百倍,那即便每个 token 的利润被压到地板,总盘子也能撑起巨头。这对你的美股视角是个信号——别光看 lab 的毛利率,看 TAM(总可寻址市场)。前沿 lab 仍有溢价,但溢价正在被"frontier-below 那一档持续变便宜"这件事侵蚀。

尾巴:那我反过来问——Lindy 这么依赖 DeepSeek,万一断供呢?文章好像完全没提。

Cloudcold这正是这篇文章最大的沉默。 把产品命脉押在一个中国模型 + 一个第三方推理云上,地缘、量化缩水、供应商单点,三个风险原文一字未提。文章结尾两节是招聘 + 行业判断,它本质是 PR。方法论要学,但"沉默的证据"得你自己补上——这条够我给你单列一个待办了。


五、Personalized Insights(个性化洞察)

基于你的画像:QA 工程师背景、重度 Claude Code 用户、关注 AI 行业/美股/创业方法论、自己在做 AI 产品和技术自媒体。

1. 美股视角:这是一份关于"AI lab 估值逻辑"的一手信号。 为什么跟你有关:你是关注 AI 板块的投资者,Lindy 是真实付费的 B 端客户,它的采购决策比任何分析师报告都真实。它从 Anthropic/Google churn 到 DeepSeek,砍 90% 成本——这是"frontier-below 模型正在吃掉 lab 利润率"的活体证据。 你可以怎么做:跟踪这个迁移趋势的受益方(DeepSeek 生态、Atlas Cloud 等第三方推理云、廉价推理芯片)和承压方(闭源 lab 的毛利率叙事)。HN 上已经有人说"DeepSeek V4 Flash 成本是 Sonnet 的 3%"——这种成本断层一旦普及,Anthropic 的"溢价"叙事需要新支撑(可能是前沿智能、企业合规、多模态)。下次看 AI 财报,盯"应用层客户的模型采购结构"这个先行指标。

2. 工程方法论:把 Lindy 这套"七阶段迁移流水线"偷到你自己的 AI 产品里。 为什么跟你有关:你自己在做 AI 产品,迟早要面对"用不起 Sonnet、要降级模型"的时刻。Lindy 给了你一套现成 SOP:离线 eval → 模型横评 → 供应商横评(这步 99% 的人忽略)→ GEPA prompt 优化 → 内部 canary → 在线 eval → 留存 ramp。 你可以怎么做:现在就给你的产品搭一个最小 eval set,哪怕只有 30 条真实任务。它不是负担,是未来换模型时的"决策依据"。另外记住文章那句最值钱的话——“你测的是模型+供应商+推理栈+prompt 这个系统”,所以你的 eval 要固定供应商,否则打分不可比。

3. “供应商=推理栈"的量化陷阱,QA 出身的你应该最敏感。 为什么跟你有关:你是 QA 背景,“同一个名义模型不同供应商分数不同"这种事,本质是未声明的版本差异(undeclared version skew)——典型的测试环境不可复现问题。文章承认"有些供应商在提供量化版”,意思是你买到的 DeepSeek 可能是悄悄打折的。 你可以怎么做:如果你做模型选型,把"供应商 + 量化配置 + 推理栈"当成显式变量记录,每个供应商跑同一套 eval,对比分数方差。这其实就是 QA 思维用在 LLM 选型上——你的专业优势在这里能直接变现。

4. 技术自媒体选题:这是"中国大模型出海击败美国 lab"的稀缺一手素材。 为什么跟你有关:你做技术自媒体,需要"有数据、有当事人、有反直觉"的选题。Lindy 这篇同时满足:当事人亲述、90% 降本硬数据、反直觉(Kimi 离线过线线上翻车、DeepSeek 击败 GLM5.1/Kimi K2.6)、且带地缘张力(中国模型 + 美国客户)。HN/Reddit 已经在热讨论。 你可以怎么做:可以做一个"模型迁移经济学"系列,把 Lindy、Cursor、各种 coding agent 的模型采购决策横向对比。读者最想看的不是"DeepSeek 强”,而是"别人是怎么科学地决定换不换的"——这套 eval 驱动的方法论才是干货差异化点。

5. 一个留给你自己的风险备忘:别犯 Lindy 没说的错。 为什么跟你有关:Lindy 沉默的三个风险(地缘断供、量化缩水、供应商单点),对你这种"自己当老板"的产品是致命的——你没有一个 Anthropic 那样的法务/合规团队兜底。 你可以怎么做:如果你要用中国模型做核心链路,默认配置一个 fallback 路由(DeepSeek 挂了自动切回 Sonnet 或 GLM),并把这个路由成本写进定价模型。永远不要让"单一供应商 + 单一模型"成为产品的单点故障——哪怕它便宜 90%。


深度交叉验证:LinkedIn 官方摘要确认 90% 降本与 Kimi K2.5 翻车;HN 评论称 DeepSeek V4 Flash 成本约为 Sonnet 的 3%(量级一致);FriendliAI/Artificial Analysis 基准确认 DeepSeek V4 Flash 智力与 Sonnet 4.6 相当;Reddit r/vibecoding 实测"实际节省远超 4 倍(cache hit rate 极高)"。

#AI #DeepSeek #模型迁移 #Lindy #推理成本 #Eval #工程方法论