查看原文
其他

重磅更新:ChatGPT 联网、Bard 插件、Meta AI 眼镜

lencx 浮之静 2023-11-07

ChatGPT

最近 OpenAI 持续发布重磅更新,从 DALL·E 3[1]语音图像[2]、再到现在的联网功能,都在不断地提高 ChatGPT Plus 的性价比。这些功能会在未来两周内逐步向 Plus 用户开放。

目测应该会有一波人退订其他服务,重新回到 ChatGPT 阵营。如果这些更新组合起来使用,生产力将不可想象。

联网

9月 28 日,OpenAI 发帖称联网功能再次回归。ChatGPT 之前就发布过此功能,但因用户发现他们可以通过直接向聊天机器人提供 URL来诱骗聊天机器人向他们提供付费内容,OpenAI 就对其进行下架整改。

联网对于需要最新信息的任务特别有用,例如帮助你进行技术研究、尝试选择商品或计划假期等等。现在,Plus 和 Enterprise 用户可以使用此功能,很快就会扩展到所有用户。在 GPT-4 下的下拉菜单中选择 “Browse with Bing” 即可启用。

📌 GPTBot 网络爬虫

OpenAI 使用 GPTBot 用户代理来抓取网页改进模型,或为模型提供联网功能。你可以通过向网站添加 robots.txt 来控制 GPTBot 的访问权限。

网站可以通过以下用户代理(User Agent)和字符串来识别 GPTBot:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

完全禁止 GPTBot[3]

User-agent: GPTBot
Disallow: /

自定义 GPTBot 访问[4]

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

语音图像

9 月 25 日,OpenAI 发文介绍了语音和图像功能。现在的 ChatGPT 不但可以看见,听见,还可以说话(科幻照进现实)。它在未来两周内逐步向 Plus 用户推送(在 iOS 和 Android 中进行语音对话)。

语音

你点击一个按钮说出问题,ChatGPT 将其转化为文本并提供给模型,得到答案,再将该答案转回为语音,并大声回答。这与各种对话助手类似,但 OpenAI 希望通过底层技术的改进,让回答变得更好。

OpenAI 的 Whisper 模型完成了大量的语音转文本工作,新的语音功能由新的文本转语音模型提供支持,能够仅从文本和几秒钟的样本语音中生成类似人类的音频。你可以从五种声音(Juniper、Sky、Cove、Ember、Breeze)中选择一个自己喜欢的声音。但 OpenAI 似乎认为模型的潜力远不止于此,它正在与 Spotify 合作,将播客翻译成其他语言。

但这种技术也带来了潜在的风险,如恶意使用合成语音进行欺诈。因此,OpenAI 限制了这种技术的普及应用,并仅限于特定的用途和合作伙伴。

图像

图像搜索有点像 Google Lens。你只需拍摄任何感兴趣的物体,将照片上传,ChatGPT 会尝试理解你想要询问的内容并相应地回应。你还可以使用应用的绘图工具来帮助明确你的查询,或说出或键入与图像相关的问题。

它也有其潜在的问题,当你询问关于人的一些事情时,OpenAI 表示已经故意限制了 ChatGPT 的“分析和直接陈述有关人的能力”,这既是出于准确性也是出于隐私考虑。

DALL·E 3

OpenAI 将 DALL-E 3[5] 集成在 ChatGPT Plus 中,它在理解细节方面超越了先前的系统,使用户的创意能够精确地转化为图像(了解更多 ChatGPT 集成 DALL-E 3,多模态 AI 即将来临)。

其他进展

Google Bard

从推出以来,Google 已为 Bard 增加了许多新功能和集成。现在可以扫描用户的 Gmail、Docs 和 Drive 来帮助用户查找信息。用户可以要求 Bard 从邮件或 Drive 文档中提取和总结关键信息。尽管这可能引发隐私担忧,但 Google 强调不会使用用户数据来训练 Bard,并且用户可以选择是否开启此集成。除此之外,Bard 还将与 Maps、YouTube 和 Google Flights 进行整合,为用户提供更多实用功能。

Meta AI

Meta 已正式加入 AI 聊天机器人的竞争,首先在 WhatsApp、Instagram 和 Messenger 中发布了其助手和 28 个 AI 角色。与 OpenAI 的 ChatGPT 相似,Meta 的 AI 旨在成为一个通用助手,帮助用户策划旅行或回答搜索引擎问题。与此同时,Meta 与微软的 Bing 达成了合作,提供实时的网络搜索结果。该 AI 还能够生成图像(通过 /imagine 命令生成与 Midjourney、DALL·E 3 类似的图像),并与多个名人如 Charli D'Amelio 和 Snoop Dogg 等相似的 AI 角色进行互动,这些角色在与之交互时会显示动态效果。Meta 的目标是利用其在社交网络中的巨大用户基数,使其 AI 助手成为人们首选的工具。

Meta 与雷朋合作推出了售价 $299 的 AI 智能眼镜,具有多种功能。这款眼镜可以理解用户正在看什么,并针对用户的问题提供答案。无论用户想要识别眼前的建筑、翻译标志,还是修理漏水的水龙头,都可以通过询问 Meta AI 得到指导。除此之外,眼镜还支持直播功能,用户可以通过它直接与朋友和粉丝互动。

视频来自 Meta,由 @dotey 提供翻译

macOS Sonoma

还没有升级新系统的朋友可以试试了,在新系统 Sonoma 中,苹果提供了上百款动态锁屏(从自然、城市、深海、到地球等),这些动画会在锁屏解锁时定格为静态壁纸(千变万化,帧帧都是独一无二的)。

总结

神仙打架:OpenAI、Bard 以及 Meta 都在不断地整合自家生态,开始在端应用发力,提供各种有趣的,更加人性化的交互形式。

References

[1]

DALL·E 3: https://openai.com/dall-e-3

[2]

语音图像: https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

[3]

完全禁止 GPTBot: https://platform.openai.com/docs/gptbot/disallowing-gptbot

[4]

自定义 GPTBot 访问: https://platform.openai.com/docs/gptbot/customize-gptbot-access

[5]

DALL-E 3: https://openai.com/dall-e-3


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存