GPT-4o原生生图功能大升级,奥特曼亲自演示:能否超越谷歌新模型?

   时间:2025-03-26 06:21 来源:ITBEAR作者:柳晴雪

近日,人工智能领域的巨头OpenAI在深夜里举行了一场引人注目的直播活动,正式推出了GPT-4o的原生图像生成功能。这一重大升级由OpenAI的创始人奥特曼亲自带队演示,展示了从自拍变梗图到相对论漫画等多样化的图像生成能力。然而,这一动作似乎并未能与近期谷歌发布的Gemini 2.5 Pro模型相抗衡,引发了业界的不少讨论。

直播中最引人注目的莫过于GPT-4o生成的官方玩梗表情包,这一功能已经在ChatGPT和Sora中向所有Plus、Pro、Team和免费用户开放。尽管新版Sora生成图像的时间有所增加,但OpenAI认为,其生成图像的质量和所具备的世界知识足以让用户等待这几秒的时间。

奥特曼在直播中介绍道,从今天起,ChatGPT中的原生图像生成功能将正式推出,这一功能也融入了Sora中。OpenAI多模态研究的负责人Gabe透露,该项目从两年前开始启动时,他对GPT-4如何原生支持图像模型充满了好奇。当模型完成训练后,他看到了令人兴奋的结果,这使他回想起GPT-2之后的疯狂时刻。

在演示中,GPT-4o展现了其强大的图像生成能力。只需给出简单的prompt,模型就能生成符合要求的图像。例如,当三个人用手机自拍时,GPT-4o能迅速将自拍转换为动漫风格的版本,并添加“Feel The AGI”这样的官方梗,生成一张有趣的表情包。

GPT-4o还能根据复杂的提示生成图像。例如,当要求它画出一幅描述相对论的漫画,并要求通俗易懂且加入幽默元素时,模型生成了一幅令人惊喜的漫画,其中很可能利用了自己的世界知识对提示词进行了扩展。

另一个令人印象深刻的演示是,GPT-4o能够根据此前生成的内容制作一个纪念币,且要求使用特殊的十六进制代码,并加上生成图像的文本和日期。生成结果非常惊艳,此前出现的所有元素都完美地呈现在了纪念币上。

GPT-4o的图像生成功能不仅强大,而且非常实用。它能够遵循复杂的提示,注重细节,确保生成的图像与文本保持一致性。GPT-4o还能分析并学习用户上传的图像,将其细节无缝整合到上下文中,用于辅助图像生成。

这些能力使得GPT-4o的图像生成功能成为了一种具有精确性和强大功能的实用工具,能够帮助用户通过视觉更有效地沟通,创建想象中的画面。随着这一功能的推出,GPT-4o无疑将在人工智能领域掀起新的波澜。

 
 
更多>同类内容
全站最新
热门内容