OpenAI 发布 GPT-4.0，实现真正的多模态，初步具备人类视觉识别能力

junjun123 · 2024-8-13 17:22:54

OpenAI 今天发布 GPT-4，GPT-4 比 GPT-3.5 提升非常明显，GPT-4 是真正意义上实现大型多模态（large multimodal model），支持图像和文本的输入，具备视觉识别能力，并生成文本结果。因为考虑到商业竞争原因，OpenAI 没有公布 GPT-4 的架构、硬件、具体参数和训练方法，不过训练数据跟GPT-3.5一样，都是截止于2021年9月。ChatGPT 正式发布才100多天，这105天，很多我们熟悉的规则都改变了，模型进化的速度完全超过了绝大部分人的想象。我这里不是对 ChatGPT 的吹捧，而是对技术的敬畏，拥抱每一个变化。对 ChatGPT 有兴趣的可以下载GPT-4 Technical Report。

需要注册 ChatGPT的童鞋，可以移步：国内注册ChatGPT详细教程。

第一家升级到 GPT-4 的应用是 Be My Eyes，这是一个通过手机应用连接有视障需求的人和愿意提供视觉帮助的志愿者的平台。这个应用的目的是为视障人士提供日常生活中的视觉帮助，例如识别物品、阅读标签或说明书、判断信封上的邮戳等等。

可以通过以下两种方法体验 GPT-4

ChatGPT Plus 订阅，不过现在限量供应。
Poe 订阅已经集成了 GPT-4 ，同时集成新 AI，Claude+ 。

GPT-4 升级主要表现在哪些方面？

GPT-4 在专业和学术能力 Benchmark 上已达到人类水平，应试能力从 GPT 3.5的倒数 10% 提升到人类水平的前 10%。
实现真正的多模态，具备人类基本的视觉识别能力，可以识别资料中的图片、表格、示意图等，比如要写代码在文字追问下，辅助以把纸笔画的原型，直接写出网页代码，。
跨语言能力全面超越同类模型，英文准确度提升到70-85%，中文准确度提升到 GPT-3.5 的英文水平。

GPT-4 的局限性

虽然现在的模型所展示出的功能非常强大，但是与前几代的 GPT 模型存在一些类似的问题，比如生成的结果不符合事实。不过在这个方面 GPT-4 的得分要比 GPT-3.5 高 40%。

ChatGPT 中文应用

我自己主要关注知识管理工具方面的 ChatGPT 应用，看到下面三款做得不错的国人应用。

ChatGPT Siri Pro 一种 Siri 快捷指令，集成 ChatGPT 支持 Siri 连续对话。项目仓库：https://github.com/ClarenceDan/chatGPT-Siri-Pro
OpenAI Translator 一种基于 ChatGPT API 翻译软件，支持全局划词翻译。OpenAI Translator 项目：https://github.com/yetone/openai-translator
PandaGPT 一种 ChatGPT 超级 PDF 阅读器，支持阅读大部头专注，并支持追问书籍内容。PandaGPT官网。

		自动登录	找回密码
密码			立即注册