摘要:近期,OpenAI在其ChatGPT平台上进行了一次重要更新,此次更新特别聚焦于文字生成图像(文生图)功能的优化。这次变动不仅仅是功能的简单升级,更是一次技术上的小幅度革新。
近期,OpenAI在其ChatGPT平台上进行了一次重要更新,此次更新特别聚焦于文字生成图像(文生图)功能的优化。这次变动不仅仅是功能的简单升级,更是一次技术上的小幅度革新。
以往,ChatGPT通过集成DALL-E模型来实现图像生成,而现在,这一功能已经被直接内置于ChatGPT之中。这意味着用户无需跳转至其他工具,即可在ChatGPT内完成从文字到图像的转化。
新的文生图功能在准确性上有了显著提升。所谓准确,是指生成的图像能够更加紧密地贴合用户的描述要求。例如,当用户请求生成一张戴眼镜的猫咪图片时,ChatGPT会先进行分析,然后输出一张更加精细、符合要求的图像。
新功能还加入了图像修改的能力。用户若对生成的图像中的某些细节不满意,只需告知ChatGPT,它便能根据反馈进行相应的调整。
在一次官方直播活动中,OpenAI展示了几个生动的应用实例。研究人员与奥特曼的合影被成功转化为动画风格的画作,以及ChatGPT在图像上添加文字的任务也顺利完成,如在图片上添加“Feel The AGI”字样。
为了亲身体验这一新功能,作者在朋友的建议下进行了测试。作者通过提出一个具体的场景描述,分别让GPT和另一款AI图像生成工具即梦AI进行图像生成。结果显示,虽然两者都捕捉到了赛博朋克风格的核心元素,但在细节呈现和清晰度上有所不同。即梦AI通过其内置的修复和超清功能,在清晰度上更胜一筹,而GPT在这方面则稍显不足。
在调整图像尺寸方面,GPT展现出了其灵活性。当用户要求生成1:1比例的图片时,GPT提供了两个不同方案,并询问用户更倾向于哪一个。这种交互方式体现了GPT在图像生成过程中的高度可定制性。
作者还测试了ChatGPT的新增功能——世界知识应用。这一功能使得AI在生成图像时能够更好地融入现实世界的知识,从而生成的图像更加符合用户的预期和实际逻辑。例如,在绘制雪山时不会出现热带植物,在古代场景中也不会突兀地出现现代科技产品。
然而,尽管ChatGPT在图像生成方面取得了显著进步,但作者认为其某些能力仍然有待提升。例如,在生成人体骨骼结构图时,其表现并不如预期中的那么出色。尽管如此,ChatGPT在展示牛顿第三定律的图像时,还是通过直观的方式展现了作用力和反作用力的关系。
OpenAI首席执行官Sam Altman对这次更新给予了高度评价,认为它将为用户带来更多的创作自由和创意内容。同时,他也强调了平衡创作自由和控制权的重要性,以确保AI的发展符合社会的期望和道德标准。
值得注意的是,这次更新背后隐藏着技术架构的重大变革。OpenAI选择用非自回归模型(Non-autoregressive models)替代了原有的自回归模型(Autoregressive models)。非自回归模型通过先理解整个图像的结构和细节,再进行生成的方式,大大提高了图像生成的效率和准确性。这种模型不仅能够处理复杂的场景和多个物体之间的关系,还能更好地融合到多模态应用中。
事实上,非自回归模型并非OpenAI的独创。早在2018年的ICLR会议上,这一模型就被提出并应用于神经机器翻译领域。近年来,国内的多家企业如阿里巴巴、科大讯飞等也已经引入了这一技术。因此,有观点认为,OpenAI此次的更新可能是受到了国内技术应用的启发。
来源:ITBear科技资讯