OpenAI「北极星」项目的一些深入思考

2026-03-23 发布 380 次浏览

我记得极客公园有一篇关于OpenAI「北极星」项目的文章，看了之后给我很大的一些感触。作为一个多年产品经验的人，我习惯性地想把这件事拆开来看——它到底意味着什么？对我们这些普通从业者，又意味着什么？今天我聊一聊我的看法，感兴趣的朋友不妨关注下。

一、先说说这件事本身

2026年3月20日，一个普通的周五。

OpenAI首席科学家Jakub Pachocki在接受MIT Technology Review独家专访时，说了一句让很多人脊背发凉的话：

他们的「北极星」，是在2028年之前建成一套全自动的多智能体研究系统。

更具体的，今年9月，第一阶段目标就会落地——一个能独立处理特定研究问题的「自主AI研究实习生」。

我第一次读到这段话的时候，沉默了大概有三分钟。

不是因为恐惧，而是因为我意识到，这件事的体量，远超大多数人的想象。

「北极星」这个词，在科技公司的语境里有特定含义。它不是路线图上的一个节点，不是PPT里的一个愿景页，而是公司所有资源都要为之让路的终极方向。当一家公司把某件事称为「北极星」，意味着两件事同时发生：一是内部已经达成共识，二是其他一切都要服从于这个目标。

从过去两周OpenAI的动作来看，这个判断完全成立。3月19日，OpenAI宣布收购开发者工具公司Astral，团队并入Codex部门；同一时间，公司宣布整合ChatGPT、Codex和浏览器为一个统一的桌面「超级应用」。碎片化产品时代宣告终结，OpenAI正在把所有筹码往一个方向推。

而这个方向，指向的是「让AI自己做研究」。

二、我为什么觉得这次不是在画饼

说实话，AI行业不缺豪言壮语。每隔三个月就有人说「AGI要来了」，每隔半年就有人说「这次不一样」。我们这些在行业里待久了的人，早就练出了一套过滤机制——听到大话先打折，等看到产品再说。

但这次，我觉得不一样。原因有三个。

第一个原因，是说话的人不一样。

Pachocki不是Altman。Altman是那种擅长在X上发豪言的人，他的每一句话都带着PR属性，你需要主动扣除水分。但Pachocki是首席科学家，是真正在实验室里做事的人。这类人说话，通常比较保守，因为他们知道技术的难度，不会轻易承诺。一个首席科学家主动在媒体专访里说出「2028年全自动研究系统」，这本身就是一个信号。

第二个原因，是Karpathy的那句话。

前OpenAI研究员Andrej Karpathy说：「所有大语言模型前沿实验室都会这样做，这是最终的BOSS战。」然后他补了一句：「规模化当然会更复杂，但做这件事只是工程问题，它会成功。」

注意他的用词：不是「能不能」，是「什么时候」。

Karpathy是那种极少说废话的人。他在OpenAI工作过，他知道这条路有多难。但他说「只是工程问题」——这意味着在他看来，理论上的障碍已经基本扫清，剩下的只是工程执行的问题。这两件事放在一起，分量非常重。

第三个原因，是已经有了可以验证的早期结果。

Shopify CEO Tobias Lütke分享过一个案例：他让autoresearch智能体在夜间运行，第二天早上，智能体跑了37次实验，把模型性能提升了19%。

这不是论文里的数字，不是演示视频里的效果，这是一个真实的商业公司在真实的生产环境里跑出来的结果。从概念到落地，这条路比想象中要短。

三、Anthropic的路径选择，其实更值得研究

就在OpenAI宣布「北极星」的同一天，Anthropic悄悄上线了Claude Code Channels——一个让开发者可以通过Telegram和Discord直接与正在运行的Claude Code会话交互的功能。

这件事单独看很小，放进整体趋势里看，就非常重要。

我做产品这么多年，看过太多公司在「做伟大的事」和「做有用的事」之间撕裂。OpenAI选择了前者：押注2028年，赌一个全自动研究系统。Anthropic选择了后者：把AI直接送进开发者每天工作的地方，让它今天就能用。

这两种路径，没有对错之分，但有风险结构的差异。

OpenAI的路径，是一次豪赌。如果2028年真的交出了全自动研究系统，那它将获得无与伦比的技术护城河，并且开启一个AI自我加速的新纪元。但如果没有按时交付，或者交付的东西达不到预期，那这两年的全押注就意味着在其他方向上的巨大机会成本。

Anthropic的路径，是一种稳健的渗透策略。让Claude Code活在Telegram和Discord里，意味着它从「工具」变成了「同事」。这不是技术上的突破，而是用户关系上的深度绑定。当一个开发者已经习惯在工作流里和Claude Code交互，换掉它的成本会越来越高。这种策略的天花板可能不如OpenAI的愿景高，但它的确定性要强得多。

有用户说：「Claude通过这次更新把OpenClaw给杀了，你不再需要买一台Mac Mini。」这句话背后的含义是，Anthropic的基础设施改进，已经让开源替代方案失去了成本优势。这才是真正值得关注的信号——不是技术参数的比拼，而是生态位的占领。

四、那个「20000美元/月」的数字，才是核心

我注意到很多人在讨论「北极星」项目的时候，重点放在了技术层面——全自动研究系统、多智能体、可解释性。但我作为一个产品经理，最先看到的是另一组数字。

Paul Roetzer援引OpenAI内部预测：到2029年，智能体业务单独就能带来290亿美元年收入，其中包括月费2000美元的「知识代理」和月费20000美元的「研究代理」。

月费20000美元。

我反复看了几遍，确认自己没有看错。

这个数字，换算成年费就是24万美元，大约175万人民币。这是一个资深研究员年薪的几分之一，但它可以24小时不间断工作，同时跑37个实验。

这里有一个非常重要的认知转变，很多人还没有意识到：这不是「替代某一个具体的人」，而是「重新定义了研究生产力本身是什么」。

当你雇佣一个研究员，你买的是他每周40小时的注意力、他的知识储备、他的判断力，以及他在某个方向上的专注度。当你订阅一个月费20000美元的「研究代理」，你买的是什么？你买的是：无限的并行实验能力、7×24小时的运行时间、以及在数据中心里自主运行的推理能力。

这两件事，根本不在同一个维度上比较。

所以当我看到这个定价，我的第一反应不是「这太贵了」，而是「对于某类机构来说，这可能是有史以来最便宜的研究生产力」。一家制药公司，一家材料科学公司，一家量化基金，他们的研究成本是以亿为单位计算的。月费20000美元的研究代理，对他们来说是什么？是零头。

这才是「北极星」项目真正的商业逻辑：它不是在做一个面向普通用户的产品，它是在做一个面向机构客户的「研究基础设施」。

五、Pachocki说了一句很少有人注意到的话

在所有关于「北极星」项目的报道里，有一段话被大多数人跳过了，但我认为它是整篇专访里最重要的部分。

Pachocki主动谈到了安全和可控性的挑战，而且说得相当坦诚。

他说，他们的想法是用其他大语言模型，来「监控AI研究员的便签」，在行为出问题之前就捕捉到不良行为。但紧接着他承认：「对大语言模型的理解度，不足以让我们完全控制它们，要真正说‘这个问题已经解决了’，还需要很长时间。」

一家公司的首席科学家，在公开专访里说「我们还没有完全的控制力」，同时宣布要在2028年交出全自动AI研究系统——这两件事放在一起，是一个非常奇特的组合。

我对这段话的解读是：这不是在唱衰，而是一种罕见的诚实。Pachocki能说出这句话，本身说明OpenAI内部对这条路的艰难有清醒认知。他们知道自己在做什么，也知道自己还不完全知道自己在做什么。

这种认知上的「双重性」，其实是这个行业里最健康的状态。最危险的，是那种完全相信自己能控制一切的公司——他们往往是在不知道自己不知道什么的情况下，把系统推向了临界点。

但「我们知道我们不完全了解」和「我们应该停下来」之间，是两件完全不同的事。OpenAI的选择是：在承认不确定性的同时，继续推进。这是一个成熟的工程判断——你不需要100%的控制力才能开始建造，但你需要足够的监控机制来保证系统不会失控。

他们提出的「用其他大语言模型来监控AI研究员的便签」这个思路，本质上是一种「AI监督AI」的架构。这个思路本身很有意思，但它也带来了一个新的问题：监督者是否足够可靠？谁来监督监督者？这是一个递归的问题，目前没有完美的答案。

六、「卡帕西循环」：一个值得所有产品人记住的框架

在这篇文章里，有一个技术细节被提到了，但没有被充分展开——「卡帕西循环」。

研究者总结的成功自动化AI研究框架需要三个要素：一个有权修改单个文件的智能体、一个可以客观测试的单一指标、固定的实验时间限制。

我把这个框架翻译成产品语言，它其实在说：自主性、可测量性、时间边界。

这三个要素，不只是AI研究的必要条件，它们也是任何一个有效的自动化系统的基本要素。一个智能体需要有足够的自主权才能真正做事（不能每一步都需要人工审批），需要有一个明确的成功标准才能知道自己是否在进步（不能只是「感觉好像更好了」），需要有时间边界才能防止无限循环和资源浪费。

这个框架的价值在于，它把一个听起来很宏大的「AI自主研究」问题，分解成了三个可以逐步实现的工程约束。

Shopify的案例正是这个框架的完美演示：autoresearch智能体有权修改模型参数（自主性），有一个明确的性能指标（可测量性），在夜间的固定时间窗口内运行（时间边界）。结果是：37次实验，性能提升19%。

这让我想到一个问题：如果这个框架已经在实际环境中产生了结果，那「北极星」项目的第一阶段——今年9月的「自主AI研究实习生」——其实并不是一个遥不可及的目标，而是这个框架在更大规模、更复杂任务上的延伸。

七、我真正担心的，不是失业，而是「研究垄断」

「2028大失业」是个吸引眼球的标题，但我认为它抓错了重点。

失业浪潮当然会来，而且已经在来的路上了。美国码农市场的萎缩、影视行业开始签约AI演员、各种「AI替代XX职业」的新闻每天都在出现。这些都是真实的，不需要等到2028年。

但我真正担心的，是一个更深层的结构性问题：当AI能够自主推进科学研究，谁拥有这个能力，谁就拥有了加速创新的特权。

让我解释一下这个逻辑。

科学研究，是人类知识积累和技术进步的根本动力。历史上，这个过程受制于人类研究员的数量和工时——全球顶尖研究员的总量是有限的，每个人每天能做的实验是有限的，每个领域能推进的速度是有限的。这个限制，某种程度上是一种均衡机制：没有任何一个机构可以无限加速。

但如果「北极星」项目成功了呢？

一旦AI能够自主推进科学研究，AI进步的速度，将不再受限于人类研究员的数量和工时。这意味着，拥有这个能力的机构，可以以指数级的速度积累技术优势。而没有这个能力的机构，将面临一个越来越难以追赶的差距。

这不只是商业竞争的问题，这是一个关于知识生产权力结构的问题。

当然，这个担忧可能是多余的——技术历史上，每一次重大突破最终都会扩散，成为公共基础设施。但「最终」和「当下」之间，往往有一段漫长而痛苦的过渡期。

八、回到地面：对普通从业者意味着什么

说了这么多宏观的东西，我知道很多人最关心的问题还是：这对我意味着什么？我该怎么办？

我想分两个层面来回答。

第一个层面，是认知层面。

你需要接受一个现实：AI正在从「工具」变成「同事」，并且正在向「研究员」进化。这不是未来的事，这是正在发生的事。接受这个现实，不是要你恐惧，而是要你调整自己的坐标系。

你的价值，不再是「我能做什么」，而是「我能判断什么、我能指挥什么、我能为什么负责」。这三件事，是AI目前做不到的——不是因为技术不够，而是因为判断需要价值观，指挥需要目标理解，负责需要利益绑定。

第二个层面，是能力层面。

人人都是产品经理上有一篇文章说得很好：AI消灭了低端岗位，却抬高了高端人才的价值。大学四年，不用焦虑，抓住四点：打好计算机基础，懂原理，不只懂语法；练会拆解问题和指挥AI；做能上线的完整项目，证明你能交付；培养超强学习能力。

这个框架不只适用于大学生，它适用于所有人。

我在做产品的这些年里，见过太多人把精力放在「学会某个工具」上，却忽略了「培养某种能力」。工具会过时，能力不会。当AI能做的工具性工作越来越多，你的「能力密度」就变得越来越重要。

九、一个产品经理的私人判断

最后，我想说一些更私人的东西。

我做产品，本质上是在做一件事：理解人，然后为人创造价值。 这件事，在AI时代不会消失，反而会变得更重要。因为当工具变得越来越强大，「为什么要做这件事」的问题就变得越来越核心。

OpenAI的「北极星」项目，是一个关于「AI能做什么」的回答。但它没有回答的问题是：「AI应该做什么」，以及「当AI能做一切的时候，人应该做什么」。

这两个问题，不是技术问题，是产品问题，是人文问题，是哲学问题。

Pachocki说，一旦AI能够自主推进科学研究，「这是我们真正依赖的东西」。我理解这句话的技术含义，但我想追问：依赖它，然后呢？当AI研究员跑出了一个改变世界的发现，谁来决定这个发现应该如何使用？谁来为这个决定负责？

这些问题，2026年没有答案，2028年也不会有现成的答案。

但我们现在就需要开始思考它们。

因为「北极星」项目的时间线是2028年，而我们思考这些问题的时间，只有现在。

尾声：2026年9月，等一个答案

今年9月，OpenAI会交出第一个「自主AI研究实习生」。

我会认真看这件事。不是因为我想知道AI有多强，而是因为我想看看，当一个「自主AI研究实习生」真的出现的时候，人们的反应会是什么。

是恐惧？是兴奋？是漠然？还是像所有技术突破刚出现时一样，先是一阵喧嚣，然后慢慢变成生活的一部分？

Karpathy说，这是「最终的BOSS战」。他说的BOSS，不是竞争对手，而是AI能力的天花板本身。

我倒觉得，这场战争的终点，不是AI打败了人类，也不是人类驯服了AI，而是我们找到了一种新的共处方式——在那个世界里，AI负责跑37次实验，而我们负责问出值得跑37次实验的问题。

那个问题，才是真正的价值所在。

阅读排行榜

加载数据中...

好文推荐

搜索

温馨提示

绑定手机号

获取更多下载次数

免费下载产品原型，提高工作效率

微信扫一扫添加