大模型微调样本构造的trick
你:数据中大部分都是pad token,训练数据利用效率低下。另外会有数据重复膨胀的问题,训练数据重复膨胀为 session数量*平均轮次数,且上文有重复部分,训练效率也会低下。
你:数据中大部分都是pad token,训练数据利用效率低下。另外会有数据重复膨胀的问题,训练数据重复膨胀为 session数量*平均轮次数,且上文有重复部分,训练效率也会低下。
小伙伴们!你们是不是也曾经遇到过这样的尴尬?跟外国人聊天时,明明心里有很多想说的,但一开口就卡壳,甚至说错了还让人笑话?别担心,今天咱们就来聊聊那些让你瞬间提升逼格的英语短语,保证让你“见过世面”,说话都自信满满!