ChatGPT发布新功能，多模态的完全体？

Original op7418 歸藏的AI工具箱 2023-11-12

Open AI今天给一些人悄咪咪开放了两个新功能，现在他可以上传PDF等文档进行分析和提问了，GPT-4加持下想必能有更好的结果。另一个是现在代码解释器，图片交谈和图片生成还有联网能力不需要你自己选择了，你发出要求后他可以自行选择需要的能力完成任务。

我们都以为两个主要的是文档交谈能力的时候，一些开放了模型自动选择的人发现了一一些不得了的东西。

这个Chat GPT自动选择模型的功能是非常强大的。不只是自动调用模型那么简单，这个新模式可以将信息在多个功能之间传递从而完成类似代理的工作。

可能这才是GPT-4多模态模式的完全体，从一些测试上来看他已经有了非常大的潜力，下面是一些例子可以参考一下。

根据上传图片生成新的图片

根据这个能力最容易想到的就是我们常说的的垫图功能，上传一张图片让视觉模型理解之后DALL-E3再生成，之前由于两个模型不互通我们需要自己写提示词复制内容。

现在可以一步完成比如下面的这个卡皮巴拉就被重绘成了动漫风格。

更离谱的是再后续的图片修改过程中我们还能上传图片让它参考只更改图片的某一个部分，比如下面这个例子让卡皮巴拉拿着那张图片中的滑板，可以看到GPT完成的很好。

离谱的东西来了，现在GPT可以把再互联网检索的的信息绘制在用DALL-E3生成的图片里面，比如下面这个查找到对应地区的天气以后根据信息生成天气应用的UI界面。数据和下雪天气对应的内容都是正确的。

还有这个查找23年所有飓风的数据，然后用DALL-E3生成可视化的图表。

图像生成也可以和代码解释器联动，比如让DALL-E生成图片后再利用代码解释的代码能力提取图片的色彩信息为图片制作色板参考。

这个信息就比较复杂了，让GPT检索昨天足球比赛的结果，然后绘制两个队比赛结束的状态，可以看到它明确的把球衣样式画对了。然后要求它让队员穿上指定样式的羽绒服，它也搞得很好。

这个功能现在还处于开白的时间段，应该只有少数人有，可以看一下你们的Chat GPT有没有，期待发掘更多的玩法可以跟我交流。

感觉随着11月6号的开发者大会临近Open AI还有更多王炸会放出。

如果觉得有用的话可以点个赞或者分享给你有需要的朋友。

继续滑动看下一个