为什么有人觉得AI改变世界、有人觉得普通？Karpathy的两个诊断

2026-05-04分类：人工智能阅读（）

OpenAI 创办团队成员、Tesla 前AI 总监Andrej Karpathy 在X 上发表「AI 能力认知差距」长文、回应一个社群现象：对AI 的惊叹程度两极分化—一群人觉得AI 已经改写世界、另一群人觉得AI 只会幻觉、无聊、被吹过头。 Karpathy 提出两个诊断、解释为什么这两群人是「平行世界」、彼此误解了对方的判断依据。

诊断一：你用的是哪一年、哪一层的AI？

Karpathy 的第一个观察直接、犀利：「很多人去年试了ChatGPT 的免费版、就让那次体验主导他们对AI 的看法。」这群人的反应通常是嘲笑模型的奇怪反应、幻觉、笨拙、转发OpenAI 进阶语音模式被「我该开车去洗车还是走路」这种简单问题搞砸的影片。

但Karpathy 指出：这些「免费版、旧版、弃用版」的模型、根本不能反映2026 年最先进agentic 模型（特别是OpenAI Codex 与Claude Code）的能力。简单说：你拿2024 年的免费ChatGPT 来判断AI 能不能写程式、就像拿2008 年的Nokia E71 来判断智慧型手机能不能用。

对许多读者而言这也是现实—订ChatGPT Plus（$20）尚算普遍、但订ChatGPT Pro（$200）、Claude Max（$100）的人非常少数。没在最先进付费tier 上跑过agent task 的人、看AI 大多是「玩具好玩但不可靠」；跑过的人、看AI 是「完整改写工作流程」。同一个技术、两个世界。

诊断二：能力进步在不同领域是「不对称」的

Karpathy 的第二个诊断更有意思：「就算你付$200／月用最先进模型、能力的进步也是『尖峰式』、集中在高度技术领域。」

他指出：搜寻、写作、建议这类「典型查询」、不是过去这年AI 进步最剧烈的领域。原因有两层：

强化学习（RL）依赖可验证的奖励函数—写程式有「单元测试通过了吗」这种明确讯号、写作没有对应的客观判准、所以RL 训练的进步速度差距很大
OpenAI、Anthropic 等公司的最大商业价值在B2B 程式码／研究／工程场景、所以资源、人力、优先序都集中在这些领域、其他用例不是最大利润来源

这个观察很关键—它解释了「为什么AI 写程式能力突飞猛进、但AI 写文章还是常常很普通」这个多人困惑的现象。不是AI 公司不会做、而是他们的金矿在别处、注意力跟着去了。

谁最受「AI 认知冲击」？两个条件齐备的人

把两个诊断结合、Karpathy 描述「最会被AI 认知冲击」的群体—同时满足两个条件的人：

付费使用最先进的agentic 模型（OpenAI Codex、Claude Code）
在高度技术领域（程式设计、数学、研究）专业使用

这群人最受所谓「AI Psychosis」影响—Karpathy 用语、形容当你亲眼看到LLM 把原本要花几天到几周的程式问题在几小时内解决、那种对AI 能力与斜率（slope）的判断、会让你对未来几年的科技格局有截然不同的看法。

对另一群人（没付费、没在技术领域用）、这种说法听起来像「过度兴奋」、像「矽谷小圈圈的群体迷思」。但Karpathy 认为这不是迷思、而是亲身体验的真实判断。

两群人「对着彼此的世界发言」

Karpathy 的核心结论：「这两群人在彼此说话、不在跟对方说话。」他描述同时可能成立的两件事：

OpenAI 免费（且我认为被半放弃的）「进阶语音模式」、在Instagram Reels 上会搞砸最笨的问题
同一时间、OpenAI 最高tier 付费的Codex 模型、会花1 小时连贯地重构整个codebase、或找出并利用电脑系统的漏洞

两件事都是真的、不冲突。但两群人各自只看到一边、然后互相觉得对方「过度兴奋」或「太无知」。 Karpathy 写这篇文的目的、就是想桥接这个落差。

Karpathy 的「OpenClaw 时刻」补充

Karpathy 在后续贴文补充：「有人最近告诉我、OpenClaw 时刻之所以这么大、是因为这是非技术背景的大群人、第一次亲身体验最先进的agentic 模型。」这个观察说明：认知差距不只是「程度」差距、也是「亲身体验vs 道听涂说」的差距。

对abmedia 读者而言、最实用的解法是：拿出$20、订一个月ChatGPT Plus 或Claude Pro、找一个你自己关心的真实任务（写一篇研究报告、整理一份财务分析、debug 一个程式专案）、用agent 完整跑一次、再回来判断AI 对你的工作意义。比读100 篇AI 报导都有用。

Tags：

本栏推荐

Gmgn.ai是什么？怎么注册？GMGN.AI链上交易