大模型技术及其发展
自 2017 年 Transformer 诞生以来,大模型(Large Language Models, LLMs)的发展日新月异,许多关键论文极大地推动了模型架构、训练方法、推理效率和能力边界。以下是 对大模型发展影响深远、具有里程碑意义的重要论文/技术,按主题分类整理:
Transformer (2017)
🌟 一、奠基性架构
🧠 二、Scaling Laws 与大模型涌现
⚙️ 三、高效训练与推理
🧩 四、对齐与指令微调
🧠 五、推理与思维链(Reasoning)
🌐 六、开源与社区推动
📌 总结:关键演进脉络
↓
BERT / GPT (2018) → 双向 vs 自回归
↓
GPT-3 (2020) → 超大规模 + in-context learning
↓
Scaling Laws / Chinchilla (2020–2022) → 科学扩展
↓
Instruction Tuning + RLHF (2021–2022) → 与人类对齐
↓
Efficient Attn (FlashAttention, RoPE, GQA) → 长文本 & 快推理
↓
CoT / ToT (2022–2023) → 高级推理
↓
QLoRA / 开源生态 (2023–) → 民主化大模型
