Transformer 与现代大模型
这个模块回答一个核心问题:为什么现代大语言模型大多建立在 Transformer 结构上?
本模块重点
- token 与 tokenizer
- BPE、WordPiece、Unigram、byte-level tokenization
- embedding 与位置编码
- RoPE、ALiBi、长上下文入口
- Query、Key、Value
- Self-Attention、Cross-Attention、Causal Mask、Padding Mask
- Multi-Head Attention
- Residual connection
- LayerNorm
- Feed Forward Network
- Encoder、Decoder、decoder-only
- KV cache、prefill、decode、流式生成
- 解码策略:temperature、top-k、top-p、beam search
- 预训练、SFT、RLHF、DPO
- PEFT、LoRA、QLoRA、adapter、prompt tuning
- RAG、向量检索、重排、上下文拼接
- 量化、蒸馏、FlashAttention、推理引擎
- MoE、Mamba/SSM、多模态模型、安全评估入口
暂定课程
- 文本怎样进入模型:tokenizer 与 embedding
- 位置表示:从正弦位置编码到 RoPE
- Attention 要解决什么问题
- 用小矩阵手算 Self-Attention
- Multi-Head Attention
- Transformer Block
- Encoder-Decoder 与 Decoder-only
- GPT 类模型的 next-token prediction
- KV cache、流式生成与解码策略
- 预训练、SFT、RLHF、DPO
- LoRA、QLoRA、PEFT 与消费级硬件微调
- RAG 与外部知识
- 量化、FlashAttention、推理部署入口
- MoE、长上下文、Mamba/SSM、多模态入口