来源:X Article by @heynavtoor(Nav Toor),2026-06-17 发布 · 118 万阅读 / 2607 赞 / 359 转 / 40 评 原文标题:The Stanford STORM Method: How to Make Claude Research Like a PhD in Minutes 分析完成时间:2026-06-18 22:52:14
斯坦福 STORM 方法:如何让 Claude 像 PhD 一样做研究——以及它没告诉你的事
这篇文章回答的问题: 怎么用一个"多视角提问"的框架,让 Claude 在 5 分钟内产出一份像博士研究生那样的研究简报。
这篇文章应该回答却没回答的问题: 那 4 个号称"复制粘贴即可"的 prompt,到底长什么样?以及——把一个带联网检索的学术系统(STORM)扒掉检索、只剩 4 段 prompt 之后,它还是"研究"吗?
一、完整中文翻译
大多数人把 Claude 当搜索引擎用。提问、得到答案、关掉标签页。他们把最好的功能一直锁着没用。
收藏一下这篇 :)
斯坦福造了一个叫 STORM 的研究系统。在同行评审(peer reviewed)的测试中,它产出的文章比次优方法组织性高出 25%。它是开源的。它是免费的。几乎没人知道,你可以在 Claude 里用 4 个 prompt 跑通同一套思路。
不需要软件。不需要 GitHub。不需要安装。只要粘贴。5 分钟后,你对某个话题的了解,会超过那些花了好几天读资料的人。
下面是完整方法。
【原文此处为一张概念示意图:横向流程条,标注 “STANFORD STORM → Perspectives · Interviews · Outline · Synthesis”,下方时间轴 0:00 → 5:00,配文 “Four moves. Five minutes. PhD-grade research."】
第一阶段:STORM 到底是什么
STORM 全称是 Synthesis of Topic Outlines through Retrieval and Multi-perspective Question Asking(通过检索与多视角提问实现主题大纲的综合)。它由斯坦福 OVAL 实验室发表于 NAACL 2024。
你可以在 storm.genie.stanford.edu 试用在线版。免费。无需注册。输入一个话题,看着它在你面前写出一篇带来源引用的文章。
有一个 12 分钟的讲解视频:YouTube 上的 “STORM by Stanford”。值得看一次。
完整代码在 github.com/stanford-oval/storm。MIT 协议。想在自己笔记本上跑也行。
但真正的奖品在这里:你根本不需要上面这些。斯坦福的方法只是一种思维方式。你可以在 Claude 里用 4 个复制粘贴的 prompt 跑通同样的思维方式。
本文剩下的部分,讲的就是这个。
【原文此处为概念示意图:盲点问题图——“THE BLIND SPOT PROBLEM / 4 of 10 angles seen. 6 missed. / Single-prompt research, in one picture."】
第二阶段:为什么单个 prompt 永远会失败
当你问 Claude"给我讲讲 X”,你拿到的是多数派观点。最常见的框架。最表层的东西。
你拿不到的是:每天和 X 打交道的实践者;觉得这个领域整个方向错了的怀疑论者;跟着钱走的经济学家;见过这个套路重演的历史学家;真正读过那些研究论文的学者。
这五个声音看到的是完全不同的东西。这正是博士生做的事。他们不是只问一个问题,而是问五个。
斯坦福那篇论文用数字证明了这一点。基于多视角构建的文章,比按常规方式构建的文章,组织性高 25%、覆盖面广 10%。这就是整个突破所在。多视角提问,能抓住单个 prompt 的研究永远看不到的盲点。
一份 PhD 级别的研究,需要一个人读 40 到 60 小时。大多数人挤不出这个时间。STORM 把它压缩了。下面这 4 个 prompt 把它压缩得更狠。总共 5 分钟。
【原文此处为概念示意图:矛盾地图——“CONTRADICTION MAP / PRACTITIONER · ACADEMIC · SKEPTIC · ECONOMIST · HISTORIAN / disagrees / The fights are where insight lives."】
第三阶段:Prompt 1——多视角扫描
这是整套方法的心脏。把它粘进 Claude。把第一行里的主题替换成你的话题。
【原文此处为一张概念示意图(并非可复制的 prompt 文本)】
你得到的回报:对同一个话题的五种截然不同的解读。实践者看到学者忽略的东西。怀疑论者挑战实践者视为理所当然的假设。经济学家揭穿学者无视的激励结构。历史学家提供经济学家看不到的模式。
这是 60 秒的工作,能抓住单个 prompt 永远找不到的东西。
第四阶段:Prompt 2——矛盾地图
现在让 Claude 找出这 5 个声音在哪里打架。分歧所在之处,就是真正理解所在之处。
【原文此处为一张概念示意图(并非可复制的 prompt 文本)】
你得到的回报:一张专家们在哪里分歧、以及为什么分歧的地图。大多数人跳过这一步。而正是这一步,把表层的理解与真正的专业能力区分开来。
如果 5 个视角都同意,那它很可能是真的。如果没有任何一方触及某个话题,那你刚刚找到了整个领域的空白。
第五阶段:Prompt 3——综合
现在让 Claude 把所有东西整合成一份研究简报。
【原文此处为一张概念示意图(并非可复制的 prompt 文本)】
你得到的回报:一份没有任何单一专家能写出的简报。它覆盖每个角度,点出矛盾,给可靠性排序,并落脚到一个具体的行动。这是一个博士生要花 48 小时才能产出的东西。你 90 秒就拿到了。
第六阶段:Prompt 4——同行评审
STORM 有一个已知的弱点。斯坦福自己的研究者就指出过:这个系统不会自我批判。信源偏见和事实错配会悄悄溜进来。这个 prompt 通过让 Claude 给自己的工作打分,来修复这个问题。
【原文此处为一张概念示意图(并非可复制的 prompt 文本)】
你得到的回报:对你自己研究的一份诚实审视。强论点、弱论点、偏见、遗漏的角度。真正的同行评审要花几个月。你 60 秒就做完了。
第七阶段:5 分钟工作流
- 第 1 分钟: Prompt 1。你拿到 5 个专家视角。
- 第 2–3 分钟: Prompt 2。你拿到一张矛盾地图。
- 第 3–4 分钟: Prompt 3。你拿到一份研究简报。
- 第 5 分钟: Prompt 4。你知道什么是可靠的、什么不是。
总耗时:5 分钟。产出:一份带矛盾分析、综合结论、具体行动和可靠性评分的多视角简报。
一个博士生手工产出这个要花 40 到 60 小时。不是因为他们慢。而是因为从 5 个角度阅读、梳理矛盾、综合、再自我批判,对单个人脑来说,确实是一项 40 小时的工作。
【原文此处为概念示意图:时间窗口图——“THE WINDOW / The edge is a prompt. / NOW … 18 MONTHS / Today it is still a secret. Soon it will be a default."】
第八阶段:从今天开始的 7 种用法
- 写任何文章或报告之前。 跑这 4 个 prompt。你的稿子会覆盖到别人想不到的角度。
- 做重大商业决策之前。 拿到全部 5 个视角。实践者告诉你现实中什么行得通。怀疑论者告诉你什么可能出问题。经济学家告诉你谁会获利。
- 面试之前。 5 分钟内从 5 个角度研究这家公司。实践者视角给你行内黑话。怀疑论者视角给你犀利的问题。你走进去时比房间里任何人都准备得更充分。
- 投资之前。 看多理由、看空理由、历史类比、激励地图、学术证据。5 分钟。矛盾地图告诉你真正的风险藏在哪里。
- 学一项新技能之前。 从 5 个角度测绘这个领域。实践者告诉你先学什么。学者告诉你理论。怀疑论者告诉你什么是被过度炒作的。你跳过噪音。
- 谈判之前。 从 5 个视角研究对方。理解他们的激励、弱点、历史行为。你带着结构性优势走进去。
- 做任何演讲之前。 对你的话题跑一遍 STORM。你的幻灯片会在观众提出异议之前就先回答了它。你的 Q&A 会显得毫不费力。
【原文此处为概念示意图:5 分钟 prompt 总览图——“THE 5-MINUTE PROMPT / Phase 1: Perspectives · Phase 2: Contradictions · Phase 3: Synthesis · Phase 4: Peer Review / Paste once. Think better."】
人格设定块(The Persona Block)
你是一个会读书的人。你问尖锐的问题。你不想要一份听起来很聪明、其实什么都没说的 200 字摘要。
你想要真正理解事物。快速地。带来源地。像斯坦福研究生那样。而不需要付六年学费。
这就是这套方法的目标人群。
如果这就是你,收藏这篇文章。用这 4 个 prompt。看看差别。
不那么舒服的真相
下面是没有人公开说出来的东西。
斯坦福团队在 2024 年发表了它。论文是同行评审的。代码是开源的。在线工具是免费的。方法就是四个 prompt。然而几乎没人在用。
我们正处于一个 18 个月的窗口期。学会正确地用 AI 做研究的人,会在思维上碾压不会的人。大幅碾压。不是因为他们更聪明。而是因为他们同时在跑 5 个视角、一张矛盾地图、一次综合、一次同行评审,而其他人还在读 Google 的第一条结果。
18 个月后,这种工作流会被烤进每一个工具里。优势将不复存在。今天,它还是个藏在眼皮底下的秘密。
挑一个你最需要研究的话题。打开 Claude。粘贴 Prompt 1。
5 分钟后,你将比那些花了好几天读资料的人懂得更多。
prompt 就在上面。方法由斯坦福证明。剩下的,取决于你。
希望这篇对你有用。Nav ❤️
二、深度解读
Part 1 · Magazine Article:一套好框架,套在增长黑客的壳里
先说结论:这篇文章的方法是真的有用,但它讲的"STORM"和斯坦福的 STORM 是两个东西。
Nav Toor 这篇能拿下 118 万阅读、2600+ 赞,不是偶然。它把一个真正有认知价值的思想(多视角提问)装进了一个教科书级的增长黑客结构里:痛点钩子(“你把最好的功能锁着”)→ 权威背书(斯坦福、同行评审)→ 零门槛承诺(不用装、不用 GitHub、粘贴就行)→ FOMO(18 个月窗口期)→ CTA(收藏、转发、关注)。 这个结构本身值得每一个做内容的人拆解学习。
但真正值得花时间想清楚的,是下面这个工程层面的真相。
真 STORM vs 这篇文章的"4-prompt STORM”:差了一个灵魂
STORM 这个名字里的 R = Retrieval(检索),不是装饰,是地基。把斯坦福那套系统拆开,它的运行时模型是这样的:
| 环节 | 真 STORM(斯坦福开源系统) | 本文的"4-prompt 版本”(纯 Claude 对话) |
|---|---|---|
| 信息来源 | 实时联网检索,抓取真实网页/文献作为证据 | 无检索,全靠模型预训练知识 + 你喂的上下文 |
| 多视角的"多样性"来自哪 | 来自不同的检索来源(不同作者、不同立场的真实文章) | 来自同一个模型扮演的 5 个角色 |
| 每个观点有无外部锚点 | 有,每条都挂在具体 URL/引用上 | 没有,全是模型生成 |
| 能否被发现"说错” | 能,因为可回溯到原始来源核对 | 难,模型编了个看似合理的数字你也未必察觉 |
| 本质 | RAG(检索增强)+ 多智能体协同提问 | Persona prompting(角色扮演提示) |
评论区里技术含金量最高的一条,来自 @jeffweisbein,一刀切中了要害:
“real STORM does retrieval… it searches the web and grounds every perspective in sources. the paste-4-prompts version skips that. so you’re not researching, you’re persona-prompting 5 experts who all share one model’s blind spots.”
(真正的 STORM 做检索……它搜索网页、用来源支撑每一个视角。粘贴 4 个 prompt 的版本跳过了这一步。所以你不是在做研究,你是在让 5 个专家玩角色扮演——而他们共享同一个模型的盲点。)
这句话为什么致命?因为它戳破了一个身份冒充:5 个"专家"看起来观点各异,但它们背后是同一个权重矩阵。一个模型对某个事实的盲点,会被它扮演的所有角色同时继承。你以为你在听 5 个独立的声音,其实你在听 1 个声音的 5 种口音。这正是评论区 @MadBeachMafia 实测踩到的坑——“在 Opus 4.6 上第一次跑就跑出了一些好笑的(编造的)数字”。
一个数据迁移的谬误
文章反复引用"组织性高 25%、覆盖面广 10%"。这个数字来自 STORM 论文(NAACL 2024,Stanford OVAL),方向上没问题——多视角提问确实能提升文章的结构性和广度。但论文测的是带检索的完整系统,不是裸 prompt。 把带 RAG 的系统的成绩,迁移到剥掉 RAG 的 prompt 版本身上,这在逻辑上是偷换。4-prompt 版本的组织性是否也高 25%?没有任何证据。作者用真系统的数据,给了一个阉割版本背书。
一个"沉默的证据”:那 4 个 prompt,正文里其实没给
这是我在抓取原文时最意外的发现。文章 6 张配图,我逐一做了文字识别——没有一张包含 prompt 的实际文本。它们全是这样:
- “STANFORD STORM → Perspectives · Interviews · Outline · Synthesis”(流程图)
- “THE BLIND SPOT PROBLEM / 4 of 10 angles seen. 6 missed."(盲点图)
- “CONTRADICTION MAP / PRACTITIONER · ACADEMIC · SKEPTIC…"(矛盾图)
- “THE 5-MINUTE PROMPT / Phase 1-4 / Paste once. Think better."(总览图)
- “THE WINDOW / NOW … 18 MONTHS / Today it is still a secret."(时间窗图)
也就是说,文章核心承诺的是"4 个 copy-paste prompt”,但正文里每个 prompt 的位置都只是一张概念示意图,没有可复制的 prompt 全文。这是一个有意思的现象:要么是作者的有意设计(让读者收藏/关注/去 newsletter 获取完整 prompt,制造引流漏斗),要么是 X Article 的排版把 prompt 渲染丢了。无论是哪种,一个声称"5 分钟拿到 4 个现成 prompt"的文章,读者实际拿不到这 4 个 prompt——这件事本身值得在转发之前知道。
金句
“When you ask Claude ’tell me about X’ you get the majority view.”
当你问 Claude"给我讲讲 X”,你拿到的是多数派观点。
“The fights are where real understanding lives.”
分歧所在之处,才是真正理解所在之处。
但请别把婴儿连同洗澡水一起倒掉
把上面这些批评说完,必须补一句公道话:这套框架作为"思维工具"是真的好。 多视角扫描、矛盾地图、综合、自我批判——这四步作为"强迫自己跳出默认框架思考"的认知脚手架,价值是实打实的。问题只出在它被包装成"研究”(research)这个词上。
更诚实的命名应该是:“多视角头脑风暴 + 自我审计”,而不是"像 PhD 一样做研究”。PhD 研究的核心是原创性和真实文献综述,而这两样恰好是去检索化的 prompt 版本给不了的。
如果你想要真正的 STORM 体验,有三条路,按" fidelity(保真度)“排序:
- 最高保真: 直接用斯坦福原版——
storm.genie.stanford.edu(在线,免费)或github.com/stanford-oval/storm(本地跑)。它会真去检索。 - 中保真: 在 Claude 里手动给检索能力——开 Web Search / 用 Projects 挂上你找的真实资料,让 5 个视角都基于检索结果,而不是模型记忆。
- 本文版本(低保真): 纯对话 persona prompting。快,适合做头脑风暴和盲点扫描,但产出必须当成草稿,不能当结论——尤其是任何数字和事实。
Part 2 · 苏格拉底对话:去掉检索,STORM 凭什么还叫 STORM?
学生: 我看了那篇爆款,说要 4 个 prompt 让 Claude 像 PhD 一样研究。我挺想试的,但评论区有人说"这不是研究,是角色扮演”。我被绕晕了——多视角不就是研究吗?
老师: 那我们先回到最朴素的问题:当你说"研究"一个话题时,你到底在做什么?
学生: 嗯……查资料,然后形成自己的判断?
老师: 对。注意那个"查资料"——它的本质是什么?是从一个你不掌握的外部世界里,把信息拉进来。你不知道答案,所以你去读别人写的东西。这个"外部性"是关键。那现在,如果 5 个专家的声音,全都是同一个 Claude 用它的训练记忆"演"出来的,缺了什么?
学生: 缺了……外部世界?它没去真的查,是在回忆自己被训练时见过什么。
老师: 一针见血。STORM 名字里的 R 是 Retrieval,检索。斯坦福的系统会真的去抓网页、抓论文,每个视角都挂在真实来源上。这才是"多"视角之所以"多"的原因——多样性的来源是不同的真实文本,不是一个模型的不同口音。那我问你:同一个模型扮演的 5 个角色,它们之间最可能共享什么?
学生: 共享……盲点?如果一个事实它训练时就没学好,那它演的 5 个角色都会说错?
老师: 而且更隐蔽——它们会用同样自信的语气说错。这就是为什么评论区有人实测跑出"好笑的数字"。模型不会因为换了 persona 就突然知道自己不知道什么。所以你觉得,把检索去掉之后,这套方法最适合用来做什么、最不适合用来做什么?
学生: 适合……做头脑风暴?逼自己换角度看问题?不适合用来查证事实、做投资决策那种需要准确数据的?
老师: 完全正确。它是一个极好的"思考脚手架",却是一个危险的"知识来源"。最后留个问题给你:如果 18 个月后这套工作流真的"被烤进每个工具里",到那时,真正稀缺的、能给你带来优势的,还会是"会跑这 4 个 prompt"吗?还是会是别的什么?
Part 3 · 个性化洞察(写给尾巴)
你 QA 背景 + 重度 Claude 用户,这套框架的"自我审计"环节(Prompt 4)对你最对路。 你天然对"模型编造"敏感,所以当你用这套方法时,把 Prompt 4(让模型给自己的产出打分、标弱论点和偏见)做成你的强制最后一步,而不是可选步骤。评论区 @MadBeachMafia 在 Opus 4.6 跑出幻觉数字就是活教材——没有审计步,多视角只会用 5 种方式整齐地骗你。
别让 Claude 的多视角停留在"角色扮演",给它接上检索。 你日常就在 Claude 里干活,最低成本的升级是:跑这套 prompt 时强制开启 Web Search,或把你在 X/HN/论文库里扒到的真实资料塞进上下文,让 5 个视角基于检索结果发言。这一步把"低保真 persona prompting"直接拉到"中保真 STORM",几乎零成本,效果天差地别。
“去检索化的研究"对你做 AI 产品是个直接提醒。 你关注 AI 产品设计——这篇文章暴露的就是一个普遍的产品陷阱:把一个需要外部工具(检索)才能成立的能力,简化成纯模型 prompt 来卖。 评估任何"AI 研究/分析"类产品时,先问一句"它的多样性来自检索还是来自模型自演”——这一问能帮你过滤掉一半名不副实的东西。
这篇文章本身就是一份高完成度的"增长黑客内容模板",值得逆向拆解。 它的钩子结构(痛点→权威→零门槛→FOMO→CTA)、视觉设计(每节配一张高对比概念图)、节奏控制都极成熟。你做技术自媒体,可以把这套骨架拿来装真正有干货的内容——把它的传播力和你的工程级深度结合,比原作者更有杀伤力,因为你愿意把"4 个 prompt 实际长什么样"这种核心交付物真的给出来,而不是用示意图留悬念。
三、精选评论
@jeffweisbein(cackles / jeff weisbein,认证)|本帖技术含金量最高的一条,一针见血 扎实的一贴,但值得指出:真正的 STORM 做检索……它搜索网页、用来源支撑每一个视角。粘贴 4 个 prompt 的版本跳过了这一步。所以你不是在做研究,你是在让 5 个专家玩角色扮演——而他们共享同一个模型的盲点。
原文:solid thread but worth flagging: real STORM does retrieval… it searches the web and grounds every perspective in sources. the paste-4-prompts version skips that. so you’re not researching, you’re persona-prompting 5 experts who all share one model’s blind spots.
@MadBeachMafia(Living The Dream,认证)|实测踩坑,幻觉警示 一定要加些护栏(guardrails),防止模型编造事实和产生幻觉。我在 Opus 4.6 上第一次跑就跑出了一些好笑的数字。
原文:Make sure to have some guardrails in place to avoid fact creation and hallucination. I got some funny numbers on my first pass in Opus 4.6.
@_themousepotato(Navaneeth Suresh)|戳中检索短板 你怎么让 Claude 绕过那些被 SEO 污染的文章?
原文:How do you get claude to bypass all the SEO hacked articles?
@FossDT(David Tom Foss)|反向观点:趋同扼杀创新 如果每个人都用同样的方式做研究,结果注定平庸。AI 民主化了研究,但如果所有人都走同一条路,就不会有什么进步。真正有趣的,恰恰是用完全非传统方式得出的结果。
原文:If everyone researches in the same way, the results are bound to be poor. AI has democratized research, but if everyone follows the same path, there will be little progress. What’s really interesting, after all, are the results that come about in completely unconventional ways.
@positivememes(Michael Dee)|创作视角的反对 适合做幕后研究,但别把它搬到非虚构写作的成稿上。把五视角扫描用在任何非虚构题材上,回来的东西读起来就像一篇已经写完的文章——自带它的段落逻辑和重点。找到你自己的声音!
原文:Good for backstage research, but keep it off the nonfiction page. Use the five-perspective scan on any nonfiction & what comes back reads like a finished piece, with its own paragraph logic and emphasis built in. FIND YOUR OWN VOICE!
@kortan_(Kirill,认证)|质疑方法论有无数据验证 有没有任何数据证明这个方法有效?
原文:Is there any analytics on this method working?
@gv_sin(Gaurav Singh)|建设性补充 一个想法——额外的视角可以基于资历级别或工作年限,当"五顶帽子"里有些不适用时会有帮助!
原文:Additional perspective could be based upon Seniority level or Years of experience, that might help when some of the Five HATS are not applicable!
@dbschlosser(David B. Schlosser,认证)|金句补充 “一次视角的切换,值 80 点智商。”
原文:A change in perspective is worth 80 IQ points.
@ihtesham2005(Ihtesham Ali,认证)|正面验证 我试了。有用。
原文:I tried it. It works.
#Storm #Claude #Ai-Research #Prompt-Engineering #Multi-Perspective #RAG