logo
LLM LabLearn by doing, not by memorizing

系统掌握 LLM 工程的 实战训练场

从基础概念、RAG、微调,到评估优化与生产部署,这里不是一组静态教程,而是一条可执行、可回放、可累积进度的 LLM Engineer 学习路径。

🧠
概念 + 实操结合
每个 Lab 既讲原理又有动手练习,学完就能用。
🧭
5 阶段学习路径
11 个 Lab 拆成 5 个层级,从入门到生产,路线清楚。
💬
AI 评估场景题
开放式场景题由 AI 实时评分,训练工程思维。
📖
对标 LLM Engineer 手册
内容体系对齐业界 LLM Engineer 能力模型。
你的学习概览
0%

已完成 0 / 17 个可用 Lab。 现在开始后,首页会逐步变成你的进度仪表盘。

0
进行中
15h
预计总时长
10
覆盖主题
180
练习步骤
推荐节奏

每次先做 1 个概念 Lab,再做 1 个场景题。这样能把"知道"更快变成"做过"。

2-3
每周建议 Lab
1
先从 Stage 1 开始
🧠
17
可用 LLM Labs
🪜
6
学习阶段
🔧
10
LLM 主题领域
🎯
0
已完成练习
零基础

Stage 0: 了解 AI 世界

0/2 已完成
体验

Stage 1: 动手体验 LLM

0/2 已完成
入门工程

Stage 2: 从用户到构建者

0/2 已完成
Data & RAG

Stage 3: 数据是一切的基础

0/3 已完成
Eval & RAG

Stage 4: 评估与 RAG 生产化

0/4 已完成
Fine-Tuning

Stage 5: 模型定制

0/4 已完成
Eval & RAG

Stage 4: 评估与 RAG 生产化

先学会衡量好坏,再把 RAG 系统从原型推向生产——评估框架 + RAG 推理管线。

4 个可用 Lab
5h 学习量
6 个场景题
阶段完成度0/4

这个阶段还没开始,建议按列表顺序一路往下做。

📏 Evaluation开始练习

LLM 评估体系——如何衡量模型好坏

掌握 LLM 评估的完整知识体系:从通用 Benchmark(MMLU、HellaSwag)到领域评估,从 RAG 系统评估(Ragas、ARES)到 LLM-as-Judge 自动化评估。学会为你的模型和系统选择正确的评估策略。

中级45-60 min122 个场景题
理解 ML 评估与 LLM 评估的核心差异
掌握通用 LLM Benchmark:MMLU、HellaSwag、ARC、IFEval、Chatbot Arena
EvaluationBenchmarkMMLURagas
🏭 RAG Production开始练习

RAG 推理管线——从原型到生产

掌握生产级 RAG 推理管线的核心技术:Query Expansion、Self-querying、Filtered Vector Search、Reranking,学会将实验室里的 RAG 原型变成可上线的生产系统。

高级50-65 min132 个场景题
理解 RAG Inference Pipeline 的完整架构和数据流
掌握 Query Expansion 技术:多查询生成与查询改写
RAGInferenceQuery ExpansionReranking
🏭 RAG Production开始练习

Production RAG QA Application — 从零到部署的完整项目

一个完整的 Capstone 项目:用 FastAPI + LangChain + ChromaDB 构建生产级 RAG 问答系统。涵盖文档解析、Embedding、检索链、Streamlit UI、LangSmith 监控、RAGAS 评估,最终部署上线。这不是 demo,是能交付的产品。

高级90-120 min91 个场景题
搭建完整的 RAG 项目骨架:FastAPI 后端 + Streamlit 前端 + ChromaDB 向量库
实现文档 ingestion pipeline:PDF 解析 → 分块 → Embedding → 入库
RAGLangChainChromaDBFastAPI
🏭 RAG Production开始练习

Agentic RAG — Agent 驱动的智能检索系统

传统 RAG 是条直线:检索→生成。Agentic RAG 让 Agent 自主决定何时检索、检索什么、检索几次,还能调用工具、处理错误、自我修正。从 Naive RAG 的局限性出发,用 LangChain + LangGraph 构建生产级 Agentic RAG。

高级55-70 min81 个场景题
理解 Naive RAG 在真实场景中的局限性
掌握 Agentic RAG 的核心架构:Agent 作为"大脑"协调检索和生成
RAGAgentLangChainLangGraph
Fine-Tuning

Stage 5: 模型定制

有了评估标准,才知道微调的方向——SFT、DPO 偏好对齐、推理优化。

4 个可用 Lab
4h 学习量
6 个场景题
阶段完成度0/4

这个阶段还没开始,建议按列表顺序一路往下做。

🎯 Fine-Tuning开始练习

监督微调——指令数据集与训练

掌握 Supervised Fine-Tuning (SFT) 的完整流程:从构建高质量 Instruction Dataset,到选择 LoRA/QLoRA 等参数高效微调技术,再到配置 Learning Rate、Batch Size 等训练超参数。本 Lab 带你从"用模型"进阶到"调模型"。

中级50-65 min132 个场景题
理解 SFT 的定义、目标以及它在 LLM Post-training 中的位置
掌握 Instruction Dataset 的构建流程:数据收集、过滤、去重、去污染、质量评估
SFTFine-TuningLoRAQLoRA
⚖️ Alignment开始练习

DPO 偏好对齐——让 LLM 更像你

SFT 能教 LLM 完成任务,但很难教它"什么是好答案"。偏好对齐(Preference Alignment)通过对比"好答案"和"坏答案"来微调模型的行为。本 Lab 从 RLHF 讲到 DPO,带你掌握让 LLM 输出更符合人类偏好的核心技术。

中级40-55 min112 个场景题
理解 SFT 的局限性以及为什么需要偏好对齐
掌握 Preference Dataset 的数据结构和构建方法
DPORLHFPreference AlignmentFine-Tuning
Optimization开始练习

推理优化——更快更省的 LLM 推理

深入理解 LLM 推理的性能瓶颈,掌握 KV Cache、Continuous Batching、Speculative Decoding 等核心优化技术,学会模型并行(Data/Pipeline/Tensor Parallelism)和 Quantization(GGUF、GPTQ、EXL2)的原理与实战。

高级45-60 min121 个场景题
理解 LLM 推理的三大性能指标:Latency、Throughput、Memory
掌握 KV Cache 原理及 Static KV Cache + torch.compile 优化
InferenceKV CacheQuantizationGGUF
🎯 Fine-Tuning开始练习

Fine-Tuning with QLoRA + Unsloth — 消费级 GPU 微调实战

用一张 24GB 显卡跑通完整微调流程:从合成数据生成、数据质量过滤,到 QLoRA 配置、Unsloth 加速训练,再到模型合并导出和上传 HuggingFace Hub。不需要 A100,RTX 4090 就够了。

高级70-90 min91 个场景题
用 LLM 批量生成高质量 Synthetic Data,理解 SDG pipeline 的设计思路
掌握数据质量过滤的实操方法:规则过滤 + LLM-as-a-Judge 打分
QLoRAUnslothPEFTFine-Tuning