大模型技术及其发展

时间:2025-12-10

自 2017 年 Transformer 诞生以来,大模型(Large Language Models, LLMs)的发展日新月异,许多关键论文极大地推动了模型架构、训练方法、推理效率和能力边界。以下是 对大模型发展影响深远、具有里程碑意义的重要论文/技术,按主题分类整理:


🌟 一、奠基性架构

论文
贡献
年份
Attention Is All You Need<br>(Vaswani et al., Google)
提出 Transformer 架构,取代 RNN/CNN,开启大模型时代
2017
提出 双向预训练 + Masked LM,引爆 NLP 预训练范式
2018
提出 GPT-1,确立“预训练 + 微调”和 Decoder-only 自回归 路线
2018

🧠 二、Scaling Laws 与大模型涌现

论文
贡献
Language Models are Few-Shot Learners (GPT-3)<br>(Brown et al., OpenAI)
展示 超大规模(175B)模型的上下文学习(in-context learning)能力,无需微调即可完成多任务
Scaling Laws for Neural Language Models<br>(Kaplan et al., OpenAI)
首次系统提出 模型规模、数据量、计算量与性能的幂律关系,指导大模型投入
指出 GPT-3 训练数据不足,提出“在给定算力下,小模型+大数据更优”的新范式

⚙️ 三、高效训练与推理

论文
贡献
提出 旋转位置编码(RoPE),显著提升长文本建模能力,被 LLaMA、Qwen、ChatGLM 等广泛采用
通过 IO 感知算法 加速 Attention 计算,降低显存,是 LLM 训练/推理的基础设施级优化
提出 分组查询注意力(GQA),平衡推理速度(接近 MQA)与模型质量(接近 MHA),被 Llama-2、Qwen、Mixtral 采用

🧩 四、对齐与指令微调

论文
贡献
证明 指令微调(Instruction Tuning) 可大幅提升模型泛化和 zero-shot 能力
提出 RLHF(人类反馈强化学习) 流程,使模型输出更有用、诚实、无害,成为 ChatGPT 核心技术
实现 4-bit 量化 + LoRA 微调,让 65B 模型可在消费级 GPU 上微调,极大降低开源模型使用门槛

🧠 五、推理与思维链(Reasoning)

论文
贡献
提出 思维链(CoT),让大模型“先思考再回答”,显著提升数学、逻辑推理能力
扩展 CoT,引入 搜索、回溯、评估 机制,实现更复杂的推理

🌐 六、开源与社区推动

项目/论文
贡献
虽非完全开源,但泄露后引爆开源社区,催生 Alpaca、Vicuna、Chinese-LLaMA 等,推动国产模型发展(如 Qwen、ChatGLM)
Qwen Technical Report<br>(Alibaba)
展示 中文大模型从预训练到对齐的完整技术栈,包括长上下文、多语言、代码能力等

📌 总结:关键演进脉络

Transformer (2017)
   ↓
BERT / GPT (2018) → 双向 vs 自回归
   ↓
GPT-3 (2020) → 超大规模 + in-context learning
   ↓
Scaling Laws / Chinchilla (2020–2022) → 科学扩展
   ↓
Instruction Tuning + RLHF (2021–2022) → 与人类对齐
   ↓
Efficient Attn (FlashAttention, RoPE, GQA) → 长文本 & 快推理
   ↓
CoT / ToT (2022–2023) → 高级推理
   ↓
QLoRA / 开源生态 (2023–) → 民主化大模型

	



【推荐】 图解 Transformer 工作原理
【推荐】 关于深度学习,这可能是你最容易读进去的科普贴了(五)
【推荐】 关于深度学习,这可能是你最容易读进去的科普贴了(七)
【推荐】 关于深度学习,这可能是你最容易读进去的科普贴了(六)