返回

README.md

1.4 KB · MD · 2026-06-05 05:32

Transformer 与现代大模型

这个模块回答一个核心问题：为什么现代大语言模型大多建立在 Transformer 结构上？

本模块重点

token 与 tokenizer
BPE、WordPiece、Unigram、byte-level tokenization
embedding 与位置编码
RoPE、ALiBi、长上下文入口
Query、Key、Value
Self-Attention、Cross-Attention、Causal Mask、Padding Mask
Multi-Head Attention
Residual connection
LayerNorm
Feed Forward Network
Encoder、Decoder、decoder-only
KV cache、prefill、decode、流式生成
解码策略：temperature、top-k、top-p、beam search
预训练、SFT、RLHF、DPO
PEFT、LoRA、QLoRA、adapter、prompt tuning
RAG、向量检索、重排、上下文拼接
量化、蒸馏、FlashAttention、推理引擎
MoE、Mamba/SSM、多模态模型、安全评估入口

暂定课程

文本怎样进入模型：tokenizer 与 embedding
位置表示：从正弦位置编码到 RoPE
Attention 要解决什么问题
用小矩阵手算 Self-Attention
Multi-Head Attention
Transformer Block
Encoder-Decoder 与 Decoder-only
GPT 类模型的 next-token prediction
KV cache、流式生成与解码策略
预训练、SFT、RLHF、DPO
LoRA、QLoRA、PEFT 与消费级硬件微调
RAG 与外部知识
量化、FlashAttention、推理部署入口
MoE、长上下文、Mamba/SSM、多模态入口