国际

OpenAI新模型能逼真对话 “宛如电影中人工智能效应”

美国人工智能公司OpenAI推出新的人工智能模型GPT-4o，能实施逼真的语音对话。

该模型同时能支持文本、音频和图像的任意组合输入，并生成文本、音频和图像的任意组合输出。

OpenAI研究人员在直播活动上，展示了新的音频功能。这项新功能可以让用户直接同ChatGPT交谈，并获得及时回应，还能在ChatGPT说话时打断它，这两项逼真的对话特点在聊天机器人上前所未见。

“感觉就像是电影中的人工智能……我仍然对其感到惊讶。”OpenAI首席执行员奥特曼在部落格中写道。

在直播活动上，研究人员也展示了新的语音功能，ChatGPT利用视觉和语音功能同研究人员对话，解开印在纸张上的数学方程式。

GPT-4o可以检测用户的情绪，并以类似人类或机器人的语调与用户交谈。

此外，研究团队也演示了型GPT-4o的实时语言翻译能力。

面临着越来越大的竞争

官网显示，GPT-4o的文本和图像功能将在ChatGPT更新后提供给所有用户，Plus用户的消息数量使用上限是免费版的5倍（使用上限后会切换回GPT-3.5版本）。而新版语音模式将在未来几周向Plus用户推出，同时也将会在API（应用接口）中向小范围推出对GPT-4o的新音频和视频功能的支持。

路透社报道指出，OpenAI面临着越来越大的竞争和扩大ChatGPT用户群的压力。在2022年底推出后不久，ChatGPT被称为有史以来最快的达到每月1亿活跃用户的应用程式。然而，根据分析公司Similarweb的数据，在过去的一年里，ChatGPT网站的全球流量一直犹如过山车，起伏不定，直到现在才恢复到2023年5月的峰值。

OpenAI在谷歌一年一度的开发者大会前一天宣布这项消息。预计谷歌将在会上展示自己的人工智能相关新功能。另外，路透社上周引述消息人士报道称，OpenAI计划宣布一款人工智能驱动的搜索产品。但据知情人士透露，该公司决定推迟搜索产品的发布。