# Transformer 与现代大模型

这个模块回答一个核心问题：为什么现代大语言模型大多建立在 Transformer 结构上？

## 本模块重点

- token 与 tokenizer
- BPE、WordPiece、Unigram、byte-level tokenization
- embedding 与位置编码
- RoPE、ALiBi、长上下文入口
- Query、Key、Value
- Self-Attention、Cross-Attention、Causal Mask、Padding Mask
- Multi-Head Attention
- Residual connection
- LayerNorm
- Feed Forward Network
- Encoder、Decoder、decoder-only
- KV cache、prefill、decode、流式生成
- 解码策略：temperature、top-k、top-p、beam search
- 预训练、SFT、RLHF、DPO
- PEFT、LoRA、QLoRA、adapter、prompt tuning
- RAG、向量检索、重排、上下文拼接
- 量化、蒸馏、FlashAttention、推理引擎
- MoE、Mamba/SSM、多模态模型、安全评估入口

## 暂定课程

1. 文本怎样进入模型：tokenizer 与 embedding
2. 位置表示：从正弦位置编码到 RoPE
3. Attention 要解决什么问题
4. 用小矩阵手算 Self-Attention
5. Multi-Head Attention
6. Transformer Block
7. Encoder-Decoder 与 Decoder-only
8. GPT 类模型的 next-token prediction
9. KV cache、流式生成与解码策略
10. 预训练、SFT、RLHF、DPO
11. LoRA、QLoRA、PEFT 与消费级硬件微调
12. RAG 与外部知识
13. 量化、FlashAttention、推理部署入口
14. MoE、长上下文、Mamba/SSM、多模态入口