LLM LabLearn by doing, not by memorizing

系统掌握 LLM 工程的实战训练场

从基础概念、RAG、微调，到评估优化与生产部署，这里不是一组静态教程，而是一条可执行、可回放、可累积进度的 LLM Engineer 学习路径。

从第一个 Lab 开始直接看部署阶段

🧠

概念 + 实操结合

每个 Lab 既讲原理又有动手练习，学完就能用。

🧭

5 阶段学习路径

11 个 Lab 拆成 5 个层级，从入门到生产，路线清楚。

💬

AI 评估场景题

开放式场景题由 AI 实时评分，训练工程思维。

📖

对标 LLM Engineer 手册

内容体系对齐业界 LLM Engineer 能力模型。

你的学习概览

0%

已完成 0 / 17 个可用 Lab。现在开始后，首页会逐步变成你的进度仪表盘。

0

进行中

15h

预计总时长

10

覆盖主题

180

练习步骤

推荐节奏

每次先做 1 个概念 Lab，再做 1 个场景题。这样能把"知道"更快变成"做过"。

2-3

每周建议 Lab

1

先从 Stage 1 开始

🧠

17

可用 LLM Labs

🪜

6

学习阶段

🔧

10

LLM 主题领域

🎯

0

已完成练习

Stage 0: 了解 AI 世界

Stage 1: 动手体验 LLM

Stage 2: 从用户到构建者

Stage 3: 数据是一切的基础

Stage 4: 评估与 RAG 生产化

Stage 5: 模型定制

零基础

Stage 0: 了解 AI 世界

零基础起步，理解 AI/ML/DL 的关系和 Transformer 架构——搞清楚 ChatGPT 背后到底是什么。

2 个可用 Lab

约 1h 学习量

1 个场景题

阶段完成度0/2

这个阶段还没开始，建议按列表顺序一路往下做。

🧠 LLM Fundamentals开始练习

AI、ML、DL——三者到底什么关系？

从零开始理解人工智能的三个层次：AI、机器学习、深度学习，以及它们如何一步步演进到今天的大语言模型（LLM）。完全零基础友好，用生活类比解释核心概念。

入门25-35 min8 步0 个场景题

●理解 AI、ML、DL 三者的嵌套关系和各自定义

●区分传统编程与机器学习的根本差异

AIMachine LearningDeep LearningLLM

🧠 LLM Fundamentals开始练习

Transformer——改变世界的架构

深入理解 Transformer 架构和 Attention 机制——这是 ChatGPT、Claude、Gemini 等所有现代 LLM 的核心基础。用直觉和类比代替数学公式，零基础也能看懂。

入门30-40 min11 步1 个场景题

●理解 RNN 的局限性以及 Transformer 诞生的背景

●用直觉理解 Attention 机制的核心思想

TransformerAttentionTokenizationGPT

体验

Stage 1: 动手体验 LLM

从用户角度感受 LLM 的强大和局限——用 Prompt、调 API、理解 Token 计费。

2 个可用 Lab

约 1h 学习量

3 个场景题

阶段完成度0/2

这个阶段还没开始，建议按列表顺序一路往下做。

🧠 LLM Fundamentals开始练习

第一次使用 LLM——从 Hello World 到实际应用

动手体验 LLM 的强大能力——从了解 Hugging Face 生态，到用 Python 跑你的第一个模型，再到掌握 Prompt Engineering 基础。零代码经验也能跟上。

入门30-40 min9 步1 个场景题

●了解 LLM 的主要应用场景和能力边界

●认识 Hugging Face 生态系统和模型市场

LLMHugging FacePrompt EngineeringRAG

🧠 API & Integration开始练习

LLM API 实战——从第一个请求到生产级调用

真正动手调用 LLM API——理解 Token 计费、参数调优、流式响应、错误处理。不再只是看代码示例，而是理解每个参数背后的设计决策。

入门35-45 min11 步2 个场景题

●理解 LLM API 的请求-响应结构和认证机制

●掌握 Token 计费模型和成本优化策略

APIOpenAIClaudeToken

入门工程

Stage 2: 从用户到构建者

理解为什么要自己构建 LLM 应用，学会 LLM Twin 架构设计和开发工具链。

2 个可用 Lab

约 1h 学习量

2 个场景题

阶段完成度0/2

这个阶段还没开始，建议按列表顺序一路往下做。

🧠 LLM Fundamentals开始练习

理解 LLM Twin 概念与架构

通过构建一个端到端的 LLM 产品——LLM Twin，来学习大语言模型工程。理解什么是 LLM Twin、为什么要构建它、如何用 FTI Pipeline 架构设计整个系统。

入门40-55 min11 步1 个场景题

●理解 LLM Twin 的概念——为什么要构建自己的 AI 写作分身

●掌握 MVP（最小可行产品）思维来规划 LLM 产品

LLMLLM TwinFTI PipelineArchitecture

🔧 Tooling & Setup开始练习

LLM 工具链与开发环境

认识构建 LLM 系统所需的全套工具链：从 Python 项目管理到 ML Pipeline 编排，从数据库选型到实验追踪。工欲善其事，必先利其器。

入门30-40 min11 步1 个场景题

●掌握 Python 项目管理的最佳实践：pyenv + Poetry + Poe

●理解 Hugging Face 作为 Model Registry 的角色

ToolingZenMLHugging FaceMongoDB

Data & RAG

Stage 3: 数据是一切的基础

巧妇难为无米之炊——掌握数据收集、处理、RAG Feature Pipeline 的构建。

3 个可用 Lab

约 3h 学习量

6 个场景题

阶段完成度0/3

这个阶段还没开始，建议按列表顺序一路往下做。

📊 Data Engineering开始练习

数据工程——从爬取到数据仓库

设计并构建 LLM Twin 的数据收集管线。从零实现 ETL Pipeline，使用 ZenML 编排、多种 Crawler 爬取数据，并存储到 MongoDB 数据仓库。

中级45-60 min11 步2 个场景题

●理解 ETL Pipeline 的设计思想和三个核心步骤

●掌握 ZenML Pipeline 的编排模式（Pipeline/Step/DAG）

Data EngineeringETLCrawlerMongoDB

🔍 RAG开始练习

RAG Feature Pipeline——检索增强生成

深入理解 RAG 的原理，从 Embedding 到 Vector DB，从 Vanilla RAG 到 Advanced RAG，最终实现完整的 RAG Feature Pipeline。

中级50-65 min13 步2 个场景题

●理解 RAG 解决 LLM 幻觉和过时信息的原理

●掌握 Embedding 和 Vector DB 的工作机制

RAGEmbeddingVector DBQdrant

🔍 RAG开始练习

RAG from Scratch — 纯 Python 构建检索增强生成

不用任何框架，从零用纯 Python 构建完整 RAG 系统。从文档加载到 FAISS 向量存储，从相似性搜索到 LLM 生成，每一行代码你都清楚在干什么。

中级45-60 min8 步2 个场景题

●从零实现完整 RAG 管线，不依赖 LangChain 等框架

●理解 Chunking 策略对检索质量的直接影响

RAGPythonFAISSOpenAI

Eval & RAG

Stage 4: 评估与 RAG 生产化

先学会衡量好坏，再把 RAG 系统从原型推向生产——评估框架 + RAG 推理管线。

4 个可用 Lab

约 5h 学习量

6 个场景题

阶段完成度0/4

这个阶段还没开始，建议按列表顺序一路往下做。

📏 Evaluation开始练习

LLM 评估体系——如何衡量模型好坏

掌握 LLM 评估的完整知识体系：从通用 Benchmark（MMLU、HellaSwag）到领域评估，从 RAG 系统评估（Ragas、ARES）到 LLM-as-Judge 自动化评估。学会为你的模型和系统选择正确的评估策略。

中级45-60 min12 步2 个场景题

●理解 ML 评估与 LLM 评估的核心差异

●掌握通用 LLM Benchmark：MMLU、HellaSwag、ARC、IFEval、Chatbot Arena

EvaluationBenchmarkMMLURagas

🏭 RAG Production开始练习

RAG 推理管线——从原型到生产

掌握生产级 RAG 推理管线的核心技术：Query Expansion、Self-querying、Filtered Vector Search、Reranking，学会将实验室里的 RAG 原型变成可上线的生产系统。

高级50-65 min13 步2 个场景题

●理解 RAG Inference Pipeline 的完整架构和数据流

●掌握 Query Expansion 技术：多查询生成与查询改写

RAGInferenceQuery ExpansionReranking

🏭 RAG Production开始练习

Production RAG QA Application — 从零到部署的完整项目

一个完整的 Capstone 项目：用 FastAPI + LangChain + ChromaDB 构建生产级 RAG 问答系统。涵盖文档解析、Embedding、检索链、Streamlit UI、LangSmith 监控、RAGAS 评估，最终部署上线。这不是 demo，是能交付的产品。

高级90-120 min9 步1 个场景题

●搭建完整的 RAG 项目骨架：FastAPI 后端 + Streamlit 前端 + ChromaDB 向量库

●实现文档 ingestion pipeline：PDF 解析 → 分块 → Embedding → 入库

RAGLangChainChromaDBFastAPI

🏭 RAG Production开始练习

Agentic RAG — Agent 驱动的智能检索系统

传统 RAG 是条直线：检索→生成。Agentic RAG 让 Agent 自主决定何时检索、检索什么、检索几次，还能调用工具、处理错误、自我修正。从 Naive RAG 的局限性出发，用 LangChain + LangGraph 构建生产级 Agentic RAG。

高级55-70 min8 步1 个场景题

●理解 Naive RAG 在真实场景中的局限性

●掌握 Agentic RAG 的核心架构：Agent 作为"大脑"协调检索和生成

RAGAgentLangChainLangGraph

Fine-Tuning

Stage 5: 模型定制

有了评估标准，才知道微调的方向——SFT、DPO 偏好对齐、推理优化。

4 个可用 Lab

约 4h 学习量

6 个场景题

阶段完成度0/4

这个阶段还没开始，建议按列表顺序一路往下做。

🎯 Fine-Tuning开始练习

监督微调——指令数据集与训练

掌握 Supervised Fine-Tuning (SFT) 的完整流程：从构建高质量 Instruction Dataset，到选择 LoRA/QLoRA 等参数高效微调技术，再到配置 Learning Rate、Batch Size 等训练超参数。本 Lab 带你从"用模型"进阶到"调模型"。

中级50-65 min13 步2 个场景题

●理解 SFT 的定义、目标以及它在 LLM Post-training 中的位置

●掌握 Instruction Dataset 的构建流程：数据收集、过滤、去重、去污染、质量评估

SFTFine-TuningLoRAQLoRA

⚖️ Alignment开始练习

DPO 偏好对齐——让 LLM 更像你

SFT 能教 LLM 完成任务，但很难教它"什么是好答案"。偏好对齐（Preference Alignment）通过对比"好答案"和"坏答案"来微调模型的行为。本 Lab 从 RLHF 讲到 DPO，带你掌握让 LLM 输出更符合人类偏好的核心技术。

中级40-55 min11 步2 个场景题

●理解 SFT 的局限性以及为什么需要偏好对齐

●掌握 Preference Dataset 的数据结构和构建方法

DPORLHFPreference AlignmentFine-Tuning

⚡ Optimization开始练习

推理优化——更快更省的 LLM 推理

深入理解 LLM 推理的性能瓶颈，掌握 KV Cache、Continuous Batching、Speculative Decoding 等核心优化技术，学会模型并行（Data/Pipeline/Tensor Parallelism）和 Quantization（GGUF、GPTQ、EXL2）的原理与实战。

高级45-60 min12 步1 个场景题

●理解 LLM 推理的三大性能指标：Latency、Throughput、Memory

●掌握 KV Cache 原理及 Static KV Cache + torch.compile 优化

InferenceKV CacheQuantizationGGUF

🎯 Fine-Tuning开始练习

Fine-Tuning with QLoRA + Unsloth — 消费级 GPU 微调实战

用一张 24GB 显卡跑通完整微调流程：从合成数据生成、数据质量过滤，到 QLoRA 配置、Unsloth 加速训练，再到模型合并导出和上传 HuggingFace Hub。不需要 A100，RTX 4090 就够了。

高级70-90 min9 步1 个场景题

●用 LLM 批量生成高质量 Synthetic Data，理解 SDG pipeline 的设计思路

●掌握数据质量过滤的实操方法：规则过滤 + LLM-as-a-Judge 打分

QLoRAUnslothPEFTFine-Tuning