如何做好研究 — Vivek (Anthropic AI) 翻译解读

原文：How to Be Good at Research by Vivek（Anthropic AI 研究员，MATS Fellow）

分析完成时间：2026-06-13 09:57 CST

核心论点

研究能力不是天赋，是一堆可训练的子技能：自己选题、升级输入源、写一切下来、收紧实验循环、盯住输出、有目的地跨领域漫游、找到你的同路人、长期复利。

翻译

没人教过你的事

研究这件事，没人真教过你。你得到一张桌子、一个别人选好的课题、一句含糊的"做出点新东西来"。于是大多数人从能看到的东西——论文、推文、公告——去反推这份工作该怎么做。最终学到的是如何像一个研究者，而不是如何做一个研究者。

真正的技能是一堆小技能的叠加，而且几乎每一个都可以刻意训练。

1. 自己选题

Richard Hamming 在 Bell Labs 有个让他午饭时不受欢迎的习惯：问坐在旁边的人"你这个领域最重要的课题是什么"，然后追问"那你为什么不做那个？"。人们换桌子躲他。

吸收来的课题，你只有结论没有推理。你知道某个大实验室在乎某个方向，但不知道为什么。当他们转向时，你一年后才知道。在一个已经时髦的课题上，你在和一千个比你起步早、算力比你多的人赛跑。

John Schulman 把 ML 研究分成两种模式：读文献找可改进的 vs 选择你真心希望存在的成果反向推导实验。他推荐第二种——它制造原创性。

品味不是天赋，是肌肉。预测每个实验结果、遮住论文结果猜数字、标记哪些成果两年后还有意义。预测加纠偏，重复几百次——这就是训练，包括你脑袋里那个模型。

2. 升级你的输入

共享的阅读清单产生共享的想法。如果你的信息饮食是 arxiv 热门页加群聊过滤，你会和所有人同时得出同样的结论，价值约等于零。

老材料被严重低估。MoE 始于 1991，LSTM 始于 1997，反向传播 1986 年才主流化。Rich Sutton 一千字的 The Bitter Lesson 对行业走向的预测比十倍长度的综述都准。Claude Shannon 1952 年说：把问题缩小到 trivial，解决小版本，然后一块一块加难度。

范围和深度同样重要。可解释性无耻地借鉴神经科学。eval 设计是穿了白大褂的机制设计。GPU 如何搬运内存的直觉告诉你哪些架构论文在 benchmark 之前就注定失败。

附录是尸体埋藏的地方，limitations 部分通常是整篇文档里最诚实的一段。

3. 把一切写下来

Paul Graham：一个想法在你想变成文字之前会觉得自己完全成型。纸面找到你脑子糊弄过去的漏洞。

Feynman 的规则：你第一个必须避免糊弄的人是你自己。写作是最廉价的防御。Darwin 把不利证据立刻写下来，因为他发现自己的记忆删除不利证据比有利证据快。你的记忆对你的失败实验做同样的事。保持日志：假设、设置、预期、结果、更新后的信念。

然后公开一部分。Olah 和 Carter 的 Research Debt 论证：清晰的解释是真正的贡献。公开写作是最强凭证——它是你思维方式不可伪造的样本。

4. 收紧循环

Alec Radford 的故事不涉及天才时刻，涉及体量。更多实验、更多淘汰、更快的现实模型更新。研究速度主要就是发现自己错了的速度。

工具是一等公民的研究活动。一条命令启动实验，一条画图。每个实验从配置复现。比较两个实验几秒不是一下午。

Karpathy 的秘诀：大规模训练前先在单 batch 上过拟合。30 秒，一半 bug 消失。缩小到便宜为止，搞对，再花算力。

在技术前沿，工程和研究已经融合。能搭 harness、eval、数据管线的研究员才是假设真正被测试的人。

5. 盯住输出

下降的 loss 曲线不是分析，是安慰。你的实验产生远比你消耗多的信息。大部分死在 logs 文件夹里。

Andrew Ng 教了十年同一个动作：拉 100 个失败案例，全部读完，分堆，攻击最大堆。一个真正奇怪行为的 transcript 教你的比下一个小数点的精度永远都多。

6. 有目的地漫游

你的第一个子领域是时间的偶然。在可解释性、eval、RL、系统各花真时间再决定住哪。某个角落有你特有怪异性的不公平优势，定位它需要交学费。

消融到你知道哪个组件承载结果为止。通常是一个，而且通常不是标题里的那个。广度也是保险——子领域会饱和，通常在 Twitter 上达到峰值之后。

7. 找到你的同路人

Hamming 的观察：关着门的人每年做更多的事，开着门的人做了重要的事。打断携带关于世界真正需要什么的信息。

慷慨以独特方式复利。复现结果、发布工具、用通俗语言解释难懂的东西。回报侧面到达——几个月后的合作、推荐、你不可能申请到的角色。

在时间线上犯错比在论文中犯错便宜得多。

8. 长期游戏

知识和生产力像利息一样复利。每天的边际收益单独看微不足道。你读什么、你记什么、你的循环跑多快、你和谁争论。给它们几年时间，它们产出从外部看起来像运气的职业。

比感觉必要的更早开始复利。未来的你已经知道这是最便宜的部分。

解读

这篇文章的价值不在"信息"——Hamming 的午餐故事、Feynman 的自我欺骗规则、Karpathy 的单 batch 过拟合技巧，任何一个都能单独搜到。它的价值在于框架：把散落在不同学科的方法论打包成一个可执行的技能栈。

最被低估的建议

“读老材料”。这个建议在追逐 SOTA 的 ML 圈几乎是异端。但 Vivek 列出的时间线（MoE 1991→现在、LSTM 1997→Transformer 2017）说明：这个领域不是在前进，是在螺旋上升。上一个螺旋里被遗弃的想法，可能是下一个突破的种子。

最大的盲区

全篇没有讨论结构性障碍。Vivek 在 Anthropic（资源充足的顶级 AI 实验室），他的建议天然假设了你有算力、有同事、有时间。对于独立研究者或资源不足的人，“花时间在多个子领域漫游"可能是奢侈而非策略。

金句

研究速度主要就是发现自己错了的速度。 research speed is mostly the speed at which you discover you’re wrong.

附录是尸体埋藏的地方，limitations 是最诚实的一段。 the appendix is where the bodies are buried, and the limitations section is usually the most honest paragraph.

比感觉必要的更早开始复利。未来的你已经知道这是最便宜的部分。 start compounding earlier than feels necessary. future you already knows this was the cheap part.

精选评论

@BetaTomorrow (10 likes)：“one transcript of genuinely strange behavior will teach you more than the next decimal of accuracy” ——这应该贴在每个研究生的工位上。
原文：“one transcript of genuinely strange behavior will teach you more than the next decimal of accuracy ever will”

@profleonn (2 likes)：作为一个刚从神经科学转向 AI 研究的人，“interpretability borrows shamelessly from neuroscience” 这句话让我笑了。
原文：interpretability borrows shamelessly from neuroscience

@ben_sturgeon：“It’s a good post despite being AI written” — 有人质疑是 AI 写的（附 AI 检测器截图），但也有人说这类检测器本身就不可靠。
原文：“It’s a good post despite being AI written”

#研究方法论 #AI #ML #个人成长 #知识管理