从2019年到现在,是时候重新审视Tokenization了
2019 年问世的 GPT-2,其 tokenizer 使用了 BPE 算法,这种算法至今仍很常见,但这种方式是最优的吗? 来自 HuggingFace 的一篇文章给出了解释。
llama tokenization regex 2025-01-04 23:49 3
2019 年问世的 GPT-2,其 tokenizer 使用了 BPE 算法,这种算法至今仍很常见,但这种方式是最优的吗? 来自 HuggingFace 的一篇文章给出了解释。
llama tokenization regex 2025-01-04 23:49 3