从2019年到现在,是时候重新审视Tokenization了
2019 年问世的 GPT-2,其 tokenizer 使用了 BPE 算法,这种算法至今仍很常见,但这种方式是最优的吗? 来自 HuggingFace 的一篇文章给出了解释。
llama tokenization regex 2025-01-04 23:49 6
2019 年问世的 GPT-2,其 tokenizer 使用了 BPE 算法,这种算法至今仍很常见,但这种方式是最优的吗? 来自 HuggingFace 的一篇文章给出了解释。
llama tokenization regex 2025-01-04 23:49 6
最近几天,来自 Meta 、芝加哥大学等机构的合著论文《 Byte Latent Transformer: Patches Scale Better Than Tokens 》火了,在 Hacker News 上受到广泛讨论。
meta tokenizer tokenization 2024-12-17 10:34 10