为什么有人觉得AI改变世界、有人觉得普通?Karpathy的两个诊断

2026-05-04分类:人工智能 阅读(


OpenAI 创办团队成员、Tesla 前AI 总监Andrej Karpathy 在X 上发表「AI 能力认知差距」长文、回应一个社群现象:对AI 的惊叹程度两极分化—一群人觉得AI 已经改写世界、另一群人觉得AI 只会幻觉、无聊、被吹过头。 Karpathy 提出两个诊断、解释为什么这两群人是「平行世界」、彼此误解了对方的判断依据。

诊断一:你用的是哪一年、哪一层的AI?

Karpathy 的第一个观察直接、犀利:「很多人去年试了ChatGPT 的免费版、就让那次体验主导他们对AI 的看法。」这群人的反应通常是嘲笑模型的奇怪反应、幻觉、笨拙、转发OpenAI 进阶语音模式被「我该开车去洗车还是走路」这种简单问题搞砸的影片。

但Karpathy 指出:这些「免费版、旧版、弃用版」的模型、根本不能反映2026 年最先进agentic 模型(特别是OpenAI Codex 与Claude Code)的能力。简单说:你拿2024 年的免费ChatGPT 来判断AI 能不能写程式、就像拿2008 年的Nokia E71 来判断智慧型手机能不能用。

对许多读者而言这也是现实—订ChatGPT Plus($20)尚算普遍、但订ChatGPT Pro($200)、Claude Max($100)的人非常少数。没在最先进付费tier 上跑过agent task 的人、看AI 大多是「玩具好玩但不可靠」;跑过的人、看AI 是「完整改写工作流程」。同一个技术、两个世界。

诊断二:能力进步在不同领域是「不对称」的

Karpathy 的第二个诊断更有意思:「就算你付$200/月用最先进模型、能力的进步也是『尖峰式』、集中在高度技术领域。」

他指出:搜寻、写作、建议这类「典型查询」、不是过去这年AI 进步最剧烈的领域。原因有两层:

  • 强化学习(RL)依赖可验证的奖励函数—写程式有「单元测试通过了吗」这种明确讯号、写作没有对应的客观判准、所以RL 训练的进步速度差距很大
  • OpenAI、Anthropic 等公司的最大商业价值在B2B 程式码/研究/工程场景、所以资源、人力、优先序都集中在这些领域、其他用例不是最大利润来源

这个观察很关键—它解释了「为什么AI 写程式能力突飞猛进、但AI 写文章还是常常很普通」这个多人困惑的现象。不是AI 公司不会做、而是他们的金矿在别处、注意力跟着去了。

谁最受「AI 认知冲击」?两个条件齐备的人

把两个诊断结合、Karpathy 描述「最会被AI 认知冲击」的群体—同时满足两个条件的人:

  • 付费使用最先进的agentic 模型(OpenAI Codex、Claude Code)
  • 在高度技术领域(程式设计、数学、研究)专业使用

这群人最受所谓「AI Psychosis」影响—Karpathy 用语、形容当你亲眼看到LLM 把原本要花几天到几周的程式问题在几小时内解决、那种对AI 能力与斜率(slope)的判断、会让你对未来几年的科技格局有截然不同的看法。

对另一群人(没付费、没在技术领域用)、这种说法听起来像「过度兴奋」、像「矽谷小圈圈的群体迷思」。但Karpathy 认为这不是迷思、而是亲身体验的真实判断。

两群人「对着彼此的世界发言」

Karpathy 的核心结论:「这两群人在彼此说话、不在跟对方说话。」他描述同时可能成立的两件事:

  • OpenAI 免费(且我认为被半放弃的)「进阶语音模式」、在Instagram Reels 上会搞砸最笨的问题
  • 同一时间、OpenAI 最高tier 付费的Codex 模型、会花1 小时连贯地重构整个codebase、或找出并利用电脑系统的漏洞

两件事都是真的、不冲突。但两群人各自只看到一边、然后互相觉得对方「过度兴奋」或「太无知」。 Karpathy 写这篇文的目的、就是想桥接这个落差。

Karpathy 的「OpenClaw 时刻」补充

Karpathy 在后续贴文补充:「有人最近告诉我、OpenClaw 时刻之所以这么大、是因为这是非技术背景的大群人、第一次亲身体验最先进的agentic 模型。」这个观察说明:认知差距不只是「程度」差距、也是「亲身体验vs 道听涂说」的差距。

对abmedia 读者而言、最实用的解法是:拿出$20、订一个月ChatGPT Plus 或Claude Pro、找一个你自己关心的真实任务(写一篇研究报告、整理一份财务分析、debug 一个程式专案)、用agent 完整跑一次、再回来判断AI 对你的工作意义。比读100 篇AI 报导都有用。

Tags: