返回

README.md

1.4 KB · MD · 2026-06-05 05:32

Transformer 与现代大模型

这个模块回答一个核心问题:为什么现代大语言模型大多建立在 Transformer 结构上?

本模块重点

  • token 与 tokenizer
  • BPE、WordPiece、Unigram、byte-level tokenization
  • embedding 与位置编码
  • RoPE、ALiBi、长上下文入口
  • Query、Key、Value
  • Self-Attention、Cross-Attention、Causal Mask、Padding Mask
  • Multi-Head Attention
  • Residual connection
  • LayerNorm
  • Feed Forward Network
  • Encoder、Decoder、decoder-only
  • KV cache、prefill、decode、流式生成
  • 解码策略:temperature、top-k、top-p、beam search
  • 预训练、SFT、RLHF、DPO
  • PEFT、LoRA、QLoRA、adapter、prompt tuning
  • RAG、向量检索、重排、上下文拼接
  • 量化、蒸馏、FlashAttention、推理引擎
  • MoE、Mamba/SSM、多模态模型、安全评估入口

暂定课程

  1. 文本怎样进入模型:tokenizer 与 embedding
  2. 位置表示:从正弦位置编码到 RoPE
  3. Attention 要解决什么问题
  4. 用小矩阵手算 Self-Attention
  5. Multi-Head Attention
  6. Transformer Block
  7. Encoder-Decoder 与 Decoder-only
  8. GPT 类模型的 next-token prediction
  9. KV cache、流式生成与解码策略
  10. 预训练、SFT、RLHF、DPO
  11. LoRA、QLoRA、PEFT 与消费级硬件微调
  12. RAG 与外部知识
  13. 量化、FlashAttention、推理部署入口
  14. MoE、长上下文、Mamba/SSM、多模态入口