GPT-4O图片生成:工作原理大白话浅析!

B站影视 电影资讯 2025-03-29 17:41 1

摘要:最近大家都在聊openai最新的gpdfouro的图片生成模型,效果着实炸裂。用到的方法据说不是diffuse model的模型,而是auto regressive,也就是自回归模型。

最近大家都在聊openai最新的gpdfouro的图片生成模型,效果着实炸裂。用到的方法据说不是diffuse model的模型,而是auto regressive,也就是自回归模型。

if you some model,我之前已经有视频介绍过它是怎么工作的,简单来说还是个监督学习的过程。找到一堆的文字和目标生成图片的训练资料,通过逐步驾照来训练出一个模型。如果是一步到位,就是一段文字和一个满是噪音的图片。

丢到模型里面,我选了一步将噪音给去掉,剩下的就是目标图片了。字回归模型的做法就不一样了。

·先回想下什么是字回归?以大语言模型为例,就是输入一段文字给大语言模型,大语言模型跟着生成一个字。

·再把字接到之前的文字后面,再来输入到单元模型中,如此反复直到生成一篇文章为止,这就是字回归了。

·而图片生成的字回归也是类似的意思,输入一段文字到对应的模型,对应的模型生成第一个像素。一般来说这里会是一个包含多个像素的patch,不过这里方便理解,理解成像素就好了。

·然后就将像素再输入到模型生成下个像素,下个像素了再叠加到三个像素后面,再输到模型里面再来继续生成,如此反复直到生成完整的图片为止。

这就是所谓的自回归文生图模型。但是这种模型理论上是速度非常慢的,因为它只能一个一个像素去生成,跟dpus model是没得比的。

至于openai自身做了什么改进,我就不知道了,这里只是快速的跟大家分享一下知识。大家觉得有用别忘记给我点赞、关注、分享。

来源:AI产品狙击手一点号

相关推荐