如何蒸馏openai呢?

B站影视 2025-02-05 15:44 3

摘要:如何蒸馏(Distillation)openai?这是一个人工神经网络,把它组装成transformer结构不断放大就是大模型-AI。要蒸馏一个大模型也就是教师模型,怎么吸干老师的功力?从模型的最后一层原始的logits层吸,不过注意一个正常的大模型。

如何蒸馏OpenAI呢?

如何蒸馏(Distillation)openai?这是一个人工神经网络,把它组装成transformer结构不断放大就是大模型-AI。要蒸馏一个大模型也就是教师模型,怎么吸干老师的功力?从模型的最后一层原始的logits层吸,不过注意一个正常的大模型。

最后还有一个softmax层用于将logits转换为概率分布,输出的是整个词汇表中每个token的概率。蒸馏不吸这个吸教师模型(Teacher Model)的原始输出logits,主要过程是这样的:计算教师模型的软标签Soft Labels(logits+温度缩放),计算学生模型的预测logits,衡量教师模型和学生模型的分布差异(KL散度),衡量上面两个的分布差异【使用KL散度】。

通过交叉熵损失优化学生模型不断的逼近教师模型,具体的技术细节之前做了很多期的视频详解了也手推了大家,可以翻看。先用上面的步骤把老师模型的功力吸光光,之后再用其它的技术再图超越。此时是不是意识到问题了?开源的你随便蒸。

长期玩openai api的知道,就怕蒸馏不给logits返回。虽然openai允许你通过logprobs参数返回前5个最可能token的对数概率log probabilities,问题是从logits-softmax-log这个过程也不可逆,没法还原原始logits。蒸馏的核心要蒸出新高度是学习整个概率分布。

具体可以翻看之前详解知识蒸馏开山之作论文解析。除了概率最高的下一个token之外的那些词(概率)也包含巨多信息,没有完整的logits向量,这有个毛用?还蒸个啥?它闭源。没法蒸馏openai的模型,纯只是收集问答资料搞不出这么好的效果的。百思不得其解想了好久,这不合逻辑哪来的?我有个不成熟的想法我蒙的纯逻辑推理的假说。

各位有没有可能就像曼哈顿计划发明原子弹之后核技术扩散一样,电影大家都看过吧,也可能是为了生存交易出去的。openai gpt3.5或者gpt4的模型权重已经扩散了,如果是这样那一切都想通了,那不出意外,为了掩盖这个走个闭环同时对得起openai这个名字,openai接下来应该会选择开源至少gpt3.5这样的模型。

其实gpt4o就是之前模型蒸馏来的。

i允许你通过logplobs参数返回前五个最可能token的对数概率。问题是从logitts到soft max到log这个过程不可逆,没法还原原始的诺基特斯,真牛的核心。要真出新高度是学习整个概率分布,除了概率最高的下一个词之外的那些词也包含着巨多的信息,没有完整的诺基特斯项量。

这有个毛用,这真个傻,它碧玉园没法真牛恩爱的模型,纯只是收集问答资料搞不出这么好的效果的,百思不得其解,想了好久,这不合逻辑,哪来的?我有个不成熟的想法,我蒙的,纯逻辑推理的。

各位有没有可能就像曼哈顿计划发明原子弹之后核技术扩散一样,电影大家都看过,也可能是为了生存交易出去的openai,gpt3.5或者gpt4的模型权重已经扩散了。如果是这样,那一切都想通了,不出意外,为了掩盖这个走出闭环,同时对得起openai这个名字,openai接下来应该会选择开源至少gpt3.5这样的模型。

其实gpt4就是之前的模型蒸馏出来的低成本小模型,对于openai来说gpt5才是绝对差距的开始,现在活到gpt5练出来那才是最重要的,这之前都不重要了,真的会开源吗?拭目以待看会不会验证,常回基地看看,谢谢。

来源:基地说

相关推荐