当我还沉浸于收集各种基于 ChatGPT 开发的 AI 效率神器时,OpenAI 竟然发布了 GPT-4。之前为大家介绍 ChatGPT 时就提到过它使用的是 GPT-3 的模型,而当时 OpenAI 的研发进度其实已经超过了 GPT-3,但是没想到 GPT-4 的发布会这么突然,一时间网上铺天盖地都是关于 GPT-4 的各种消息,看来真的是功能很强大,废话不多说,一起看看和 GPT-3 相比 GPT-4 有哪些进步吧~
一、接受图片输入并识别内容
这次发布最令人激动的一点就是 GPT-4 支持多模态(接受图像和文本输入,发出文本输出),这意味着我们可以发送图片给 GPT-4,并指示它识别分析图片的内容,图片的类型可以是带有文字和照片的文件、图标或者屏幕截图。 虽然该功能目前仅供预览,没有开放给用户,但从官方论文和直播公布的案例来看,GPT-4 并不是简单地描述图片的内容,而是能够理解内容物之间的联系,并做出进一步的判断和动作,也就是说 GPT-4 理解图片能力与它理解文本的能力不相上下。比如下面的案例,将一张图片发送给 GPT-4 分析它的笑点,GPT-4 能非常准确地识别一张图片中的不同部分,理解它们之间的逻辑关系,并之指出笑点所在。
它也能识别出图片的不合理之处,或者推断出图片内容状态被改变时会发生什么事情。
GPT-4 还能像理解文本内容一样,理解图像内的文字并按照用户指示作出下一步的操作,比如分析论文内容然后总结提炼。OpenAI 在官方直播里还展示了一个神奇的案例 —— 利用 GPT-4 的识图功能,结合其强大的代码编写能力,将简单潦草的手绘网页线框草稿转换为代码,从而制作出一个真正的网页。
|