当前位置：首页 > 文章列表 > 科技周边 > 人工智能 > Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

来源：51CTO.COM 2023-04-30 09:18:35 0浏览收藏

IT行业相对于一般传统行业，发展更新速度更快，一旦停止了学习，很快就会被行业所淘汰。所以我们需要踏踏实实的不断学习，精进自己的技术，尤其是初学者。今天golang学习网给大家整理了《Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远》，聊聊，我们一起来看看吧！

本文转自雷锋网，如需转载请至雷锋网官网申请授权。

自从 DALL-E 2 问世以来，很多人都认为，能够绘制逼真图像的 AI 是迈向通用人工智能（AGI）的一大步。OpenAI 的 CEO Sam Altman 曾在 DALL-E 2 发布的时候宣称“AGI is going to be wild”，媒体也都在渲染这些系统对于通用智能进展的重大意义。

但真的是如此吗？知名 AI 学者（给 AI 泼冷水爱好者） Gary Marcus 表示“持保留意见”。

最近，他提出，在评估 AGI 的进展时，关键要看像 Dall-E、Imagen、Midjourney 和 Stable Diffusion 这样的系统是否真正理解世界，从而能够根据这些知识进行推理并进行决策。

在判断这些系统之于 AI （包括狭义和广义的 AI）的意义时，我们可以提出以下三个问题：

图像合成系统能否生成高质量的图像？

它们能否将语言输入与它们产生的图像关联起来？

它们了解它们所呈现出的图像背后的世界吗？

1 AI 不懂语言与图像的关联

在第一个问题上，答案是肯定的。区别只在于，在用 AI 生成图像这件事儿上，经过训练的人类艺术家能做得更好。

在第二个问题上，答案就不一定了。在某些语言输入上，这些系统能表现良好，比如下图是 DALL-E 2 生成的“骑着马的宇航员”：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

但在其他一些语言输入上，这些 AI 就表现欠佳、很容易被愚弄了。比如前段时间 Marcus 在推特上指出，这些系统在面对“骑着宇航员的马”时，难以生成对应的准确图像：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

尽管深度学习的拥护者对此进行了激烈的反击，比如 AI 研究员 Joscha Bach 认为“Imagen 可能只是使用了错误的训练集”，机器学习教授 Luca Ambrogioni 反驳说，这正表明了“Imagen 已经具有一定程度的常识”，所以拒绝生成一些荒谬的东西。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

还有一位谷歌的科学家 Behnam Neyshabur 提出，如果“以正确的方式提问”，Imagen 就可以画出“骑着宇航员的马”：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

但是，Marcus 认为，问题的关键不在于系统能否生成图像，聪明的人总能找到办法让系统画出特定的图像，但这些系统并没有深刻理解语言与图像之间的关联，这才是关键。

2 不知道自行车轮子是啥？怎么能称是AGI？

系统对语言的理解还只是一方面，Marcus 指出，最重要的是，判断 DALL-E 等系统对 AGI 的贡献最终要取决于第三个问题：如果系统所能做的只是以一种偶然但令人惊叹的方式将许多句子转换为图像，它们可能会彻底改变人类艺术，但仍然不能真正与 AGI 相提并论，也根本代表不了 AGI。

让 Marcus 对这些系统理解世界的能力感到绝望的是最近的一些例子，比如平面设计师 Irina Blok 用 Imagen 生成的“带有很多孔的咖啡杯”图像：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

正常人看了这张图都会觉得它违反常识，咖啡不可能不从孔里漏出来。类似的还有：

“带有方形轮子的自行车”

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

“布满仙人掌刺的厕纸”

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

说“有”容易说“无”难，谁能知道一个不存在的事物应当是什么样？这也是让 AI 绘制不可能事物的难题所在。

但又或许，系统只是“想”绘制一个超现实主义的图像呢，正如 DeepMind 研究教授 Michael Bronstein 所说的，他并不认为那是个糟糕的结果，换做是他，也会这样画。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

那么如何最终解决这个问题呢？Gary Marcus 在最近同哲学家 Dave Chalmers 的一次交谈中获得了新的灵感。

为了了解系统对于部分和整体、以及功能的认识， Gary Marcus 提出了一项对系统性能是否正确有更清晰概念的任务，给出文本提示“Sketch a bicycle and label the parts that roll on the ground”（画出一辆自行车并标记出在地面上滚动的部分），以及“Sketch a ladder and label one of the parts you stand on”（画出一个梯子并标记出你站立的部分）。

这个测试的特别之处在于，并不直接给出“画出一辆自行车并标记出轮子”、“画出一个梯子并标记出踏板”这样的提示，而是让 AI 从“地面上滚动的部分”、“站立的部分”这样的描述中推理出对应的事物，这正是对 AI 理解世界能力的考验。

但 Marcus 的测试结果表明，Craiyon（以前称为 DALL-E mini）在这种事情上做得一塌糊涂，它并不能理解自行车的轮子和梯子的踏板是什么：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

那么这是不是 DALL-E Mini 特有的问题呢？

Gary Marcus 发现并不是，在目前最火的文本生成图像系统 Stable Diffusion 中也出现了同样的结果。

比如，让 Stable Diffusion “画一个人，并把拿东西的部分变成紫色”（Sketch a person and make the parts that hold things purple），结果是：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

显然，Stable Diffusion 并不理解人的双手是什么。

而在接下来的九次尝试中，只有一次成功完成（在右上角），而且准确性还不高：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

下一个测试是，“画出一辆白色自行车，并将用脚推动的部分变成橙色”，得到图像结果是：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

所以它也不能理解什么是自行车的脚踏板。

而在画出“自行车的草图，并标记在地面上滚动部分”的测试中，其表现得也并没有很好：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

如果文本提示带有否定语，比如“画一辆没有轮子的白色自行车"，其结果如下：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

这表明系统并不理解否定的逻辑关系。

即便是“画一辆绿色轮子的白色自行车”这样简单的只关注部分与整体关系提示，而且也没有出现复杂的语法或功能等，其得到的结果仍存在问题：

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

因此，Marcus 质问道，一个并不了解轮子是什么、或是它们的用途的系统，能称得上是人工智能的重大进步么？

今天，Gary Marcus 还针对这个问题发出了一个投票调查，他提出的问题是，“Dall-E 和 Stable Diffusion 等系统，对它们所描绘的世界到底了解有多少？”

其中，86.1% 的人认为系统对世界的理解并不多，只有 13.9% 的人认为这些系统理解世界的程度很高。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

对此，Stability.AI 的首席执行官 Emad Mostique 也回应称，我投的是“并不多”，并承认“它们只是拼图上的一小块。”

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

来自科学机构 New Science 的 Alexey Guzey 也有与 Marcus 类似的发现，他让 DALL-E 画出一辆自行车，但结果只是将一堆自行车的元素堆在一起。

Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远

所以他认为，并没有任何能真正理解自行车是什么以及自行车如何工作的模型，生成当前的 ML 模型几乎可以与人类媲美或取代人类是很荒谬的。

大家怎么看？

今天关于《Gary Marcus：文本生成图像系统理解不了世界，离 AGI 还差得远》的内容介绍就到此结束，如果有什么疑问或者建议，可以在golang学习网公众号下多多回复交流；文中若有不正之处，也希望回复留言以告知！

文本生成

版本声明

本文转载于：51CTO.COM 如有侵犯，请联系study_golang@163.com删除

谷歌神秘项目曝光！能写代码还会改bug的AI，让码农瑟瑟发抖

谷歌神秘项目曝光！能写代码还会改bug的AI，让码农瑟瑟发抖

上一篇: 谷歌神秘项目曝光！能写代码还会改bug的AI，让码农瑟瑟发抖

Meta最新图像生成工具火了，竟能把梦境画成现实！

下一篇: Meta最新图像生成工具火了，竟能把梦境画成现实！

查看更多

最新文章

科技周边 · 人工智能 | 17小时前 | 人工智能 · GenAI · opentelemetry · 可观测性 · AI工程 · 人工智能链路追踪 GenAI OpenTelemetry AI可观测性 LLM网关 Token统计

AI 调用可观测架构：从散乱日志到 OpenTelemetry GenAI 字段统一

427浏览收藏
科技周边 · 人工智能 | 22小时前 | Node.js · 人工智能 · deepseek · AI工具 · Node.js 人工智能命令行工具流式输出 AI摘要 DeepSeek API

用 DeepSeek API 从零写一个流式摘要小工具：Node.js 命令行版

154浏览收藏
科技周边 · 人工智能 | 2天前 | JSON · 人工智能 · 结构化输出 · 接口排查 · JSON Schema AI结构化输出解析失败 LLM接口提示词排查

AI 结构化输出解析失败怎么办：从提示词到 JSON Schema 逐步定位

309浏览收藏
科技周边 · 人工智能 | 2天前 | 人工智能 · webgpu · 浏览器API · 本地推理 · 前端AI · AI推理 WebGPU 降级方案前端性能浏览器端AI 本地推理

WebGPU 做浏览器端 AI 推理：能力边界、检测和降级方案

234浏览收藏
科技周边 · 人工智能 | 3天前 | 人工智能 · 前端流式输出 · AI聊天 · Fetch Stream · 前端 AI聊天流式输出 ReadableStream TextDecoder Fetch Stream

AI 聊天流式输出前端配方：用 Fetch Stream 实现逐字渲染和中断控制

448浏览收藏
科技周边 · 人工智能 | 4天前 | 人工智能 · rag · 向量数据库 · 检索增强生成 · 人工智能 AI应用 RAG embedding 向量检索

RAG 答非所问怎么排查：从切块、向量到召回上下文

427浏览收藏
科技周边 · 人工智能 | 1星期前 | 人工智能 · rag · 向量检索 · 知识库问答 · AI工程化 · 人工智能知识库 RAG 重排向量检索文档切分证据引用

AI 知识库检索召回工作流：从文档切分到重排和证据引用

191浏览收藏
科技周边 · 人工智能 | 1星期前 | JSON · 人工智能 · 结构化输出 · 大模型接口 · 后端接入 · 人工智能 JSON AI接口 Schema 结构化输出

AI 接口 JSON 返回不稳定排查：从提示词到结构化输出

299浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · mcp · ai agent · 工具接入 · 安全审计 · AI Agent MCP Model Context Protocol 工具清单资源上下文权限审计

MCP 服务接入工作流：从工具清单到权限审计的 AI Agent 落地路线

378浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · ai agent · 工具调用 · 结构化输出 · 工程排查 · AI Agent Schema 结构化输出超时重试工具调用兜底回答

AI Agent 工具调用失败排查：从 Schema 到超时兜底的完整工作流

195浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · rag · 知识库检索 · RAG 向量检索 AI知识库混合召回结果重排

AI 知识库检索不到答案排查：从分块到重排的 RAG 修复流程

453浏览收藏
科技周边 · 人工智能 | 2星期前 | 人工智能 · AI工程 · 成本控制 · 人工智能成本控制 AI接口 token预算 Batch API

AI 批量调用成本控制：从请求日志到预算阈值的完整工作流

202浏览收藏

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ljg-skills

ljg-skills 是李继刚开源的 AI 技能与提示词集合，面向大模型使用者整理了一批可复用的 prompt、角色设定和任务技能模板，适合用于学习提示词设计、搭建个人 AI 工作流和沉淀团队常用智能体能力。

3297次使用
MELO音乐

MELO音乐是一站式AI视频与音乐制作助手，对标suno, udio的高品质体验。提供伴奏生成、原创写词、无损导出、哼唱识曲、混音变声等全套音频与短视频编辑工具。无论是流行Kpop、电音说唱、民谣古风、摇滚儿歌还是商用轻音乐，MELO为你免费谱曲，轻松做同款！

3046次使用
UniScribe

UniScribe 是一款 AI 音视频转文字与内容整理工具，支持上传音频、视频文件或粘贴 YouTube 链接，自动生成转写文本、摘要、思维导图和关键问题，并支持多格式导出，适合会议记录、课程学习、访谈整理和内容创作复盘。

2996次使用
剧云

剧云是专业中文剧本创作平台，安全稳定运行十余年，集成AI编剧、剧本医生审核、人物小传、剧情关系图、大纲编写、多人协作、Word导入导出、版权管控功能，数据安全防护，轻松高效创作剧本。

3204次使用
万象有声

万象有声，一个专为有声创作者打造的新一代智能有声内容创作平台。平台提供专业的智能拆章、智能画本编辑、AI配音、AI生成音效、后期制作、智能对轨、智能审听等有声创作全流程工具，可以帮助创作者高效、低成本创作出引人入胜的有声作品。立即体验，让有声书制作更简单！

3162次使用

查看更多

相关文章

AI写作工具免费版安装教程（含豆包Clawdbot）

2026-05-30 501浏览
WPS AI能自动生成PPT吗？输入主题一键制作演示文稿

2026-05-27 501浏览
Canva手机闪退解决方法及适配指南

2026-05-25 501浏览
Hermes Agent依赖的工具链有哪些必备工具链介绍

2026-05-05 501浏览
千问AI官网地址链接入口_千问AI官方网站登陆入口

2026-05-05 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码