logo
P
Prompt Master

Prompt 大师

掌握和 AI 对话的艺术

LLM evaluation

evaluation prompts(overview)

evaluation 的核心是:把评判标准写得足够清晰,让 LLM 以 judge 的角色给出可解释的比较或打分。目标不是“找一个完美答案”,而是建立稳定、可复用、可审计的评估流程


学习路径(建议顺序)

  1. 入门:固定评分维度与输出格式
  2. 进阶:引入 rubric 与权重
  3. 实战:用评估结果驱动迭代

什么是 Evaluation Prompt?

Evaluation Prompt 是一种让模型扮演评审/裁判的提示方式,用于比较输出质量、给分、并说明理由。

┌─────────────────────────────────────────────────────────────┐
│                    Evaluation Prompt 流程                   │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   候选输出   →   评估标准   →   评分/排序   →   解释与建议    │
│  (A/B/多份)     (Rubric)       (分数/排名)     (改进方向)    │
│                                                             │
└─────────────────────────────────────────────────────────────┘

为什么 Evaluation 很重要?

应用场景具体用途业务价值
Prompt 迭代选择更优版本降低试错成本
内容生产文案/摘要质量评估提升一致性
模型对比不同模型输出对比辅助选型
标准化输出自动打分与筛选提升效率

业务产出(PM 视角)

使用 Evaluation Prompt 可以交付:

  • 可量化对比结果(A/B 输出排名)
  • 评估模板(可复用 rubric)
  • 改进建议(用于 prompt 迭代)

完成标准(建议):

  • 读完本页 + 完成 1 个练习 + 自检 1 次

核心 Prompt 结构

目标:评估候选输出
标准:评分维度与权重
格式:输出结构(分数/理由/结论)
输入:候选答案

通用模板

你是严格评审,请根据以下评分标准比较输出。

评分标准(每项 1-5 分):
1) 准确性
2) 清晰度
3) 完整性

候选输出:
A: {output_a}
B: {output_b}

输出格式:
- 分数:A=?, B=?
- 赢家:
- 理由(1-3 条):

Quick Start:A/B 对比

请比较两个回答,基于“准确性、清晰度、完整性”打分(1-5)。

A:答案 1
B:答案 2

示例 1:写作质量评估

评估以下两条产品文案,标准:简洁性、打动力、信息完整度。

A:轻便耐用,适合旅行。
B:超轻设计,30L 大容量,城市与旅行双场景。

示例 2:摘要质量评估

评估两个摘要,标准:覆盖关键点、表达清晰、不引入新信息。

示例 3:结构化评分(Rubric)

评分维度:
1) 准确性(40%)
2) 可读性(30%)
3) 结构性(30%)

输出:
- 总分(0-100)
- 分项得分
- 赢家

迁移模板(替换变量即可复用)

标准:{criteria}
候选:{outputs}
输出:分数 + 赢家 + 理由

自检清单(提交前自查)

  • 评分维度是否清晰可执行?
  • 是否避免模型引入新信息?
  • 输出是否固定结构?
  • 是否支持自动化解析?

进阶技巧

  1. 权重评分:不同指标赋予权重。
  2. 先给分再解释:避免理由反向影响评分。
  3. 三轮评估:多次评估取平均,减少偏差。
  4. 对齐目标:评分标准与业务目标一致。
  5. 输出改进建议:便于直接迭代。

常见问题与解决方案

问题原因解决方案
评分不一致标准模糊明确维度描述
输出冗长无格式限制固定字段
引入新信息未限制加“只基于输入”
过度主观缺少 rubric设计评分表

动手练习

练习 1:A/B 评估

评估两条课程简介,标准:清晰度、吸引力、信息完整度。

练习 2:多候选排序

对 3 个回答进行排序,并给出理由。

练习评分标准(学生自评)

维度合格标准
标准清晰评分维度可执行
输出稳定分数与理由结构一致
可复用Rubric 可替换
可解析输出可程序处理

Index


小结

  1. Evaluation Prompt 的关键是可执行评分标准
  2. 固定输出结构便于对比与自动化。
  3. Rubric 能显著降低主观偏差。
  4. 输出建议可直接用于 prompt 迭代。
  5. 模板化提升复用效率。