LLM 自回归训练过程演示

基于 BPE 分词的真实训练流程

原始句子
我爱机器学习和人工智能技术
分词结果(BPE 子词分词)
我爱机器学习和人工智能技术 ["我爱", "机器", "学习", "和", "人工智能", "技术"]
分词后的 6 个 token(每个 token 有独立 ID)
我爱
机器
学习
人工智能
技术
输入(模型看到的上文)
目标(需要预测的下一个 token)
正确预测
点击卡片查看样本详情(共 6 个训练样本)
请选择一个样本查看详情
👆 点击上方样本卡片或按钮查看训练详情