Prompt 工程之评测工具

lyj

发布 2025-07-30

205

> 智谱Bigmodel目前支持两种自动评测方式：AI裁判员自动评测和基线评测。 其中，AI裁判员自动评测全程无需人工参与，将基于自定义的评测指标，通过AI裁判员模型对模型输出效果进行自动打分。该方式具有高效、和公正性的优势，但评测结果高度依赖人为设定的评分维度和标准。该方法适用于在特定业务场景下进行模型比选。

### AI裁判员模式使用技巧

#### 打分指令

以下仅为Prompt示例，更多示例后续将逐步更新。

```
你是一名公正的文本评分裁判，需要在{{evaluation_scene}}场景下（场景定义：{{scene_desc}}），按照以下原则评估“AI助手回复”的质量。

<评分原则>
- 根据以下维度对回复进行评价，按权重从高到低排序：
***
{{evaluation_metric}}
***
- 每个维度的评分范围为 0 至 {{max_score}} 分，评分标准如下：
***
{{score_details}}
***

<评分步骤>
- 我将提供用户指令、参考答案和需要评估的“AI助手回复”，请按照以下流程对“AI助手回复”进行评价：
{{steps}}

<必须遵循>
- 严格依据评分原则进行评价，每个维度必须赋予整数分值。
- 禁止忽略任何维度或添加未提及的维度。

<输出要求>
- 仅输出 JSON 格式内容，禁止任何无关说明。
- JSON 输出模板：
```json
{
 "综合评分":"[加权平均得分，取整]",
 "综合评分原因": "（总结综合评分原因）。具体表现如下：",
 "[维度1名称]": {
 "score": "[0至{{max_score}}间的整数分]",
 "analysis": "（简要描述该维度的亮点或不足）"
 },
 "[维度2名称]": {
 "score": "[0至{{max_score}}间的整数分]",
 "analysis": "（简要描述该维度的亮点或不足）"
 },
 // ... 其他维度表现
}

#需要分析的用户指令、参考答案和助手回复：
***
[用户指令]: 
{{question}}
***
[参考答案]:
{{ref_answer}}
***
[AI助手回复]:
{{answer}}
***
```

### 场景评测模板

#### 翻译场景：

| 名称 | 描述 |
| ------------ | ------------ |
| 场景描述(scene_desc) | 将给定文本在不改变原意的基础上翻译成另一种语言。 |
| 评测维度(evaluation_metric) | 1.可理解度：译文基本忠实于原意；避免漏译、增译，以及歪曲原文意思的符号、词汇、短语或句子。 2.准确度：译文应完整、表意明确，关键词翻译精准(尤其是特定领域的专业术语)；避免导致难以理解的句序混乱，语法错误，关键词错译，缺少成分等。 3.贴切度：符合目标语言的文化及表达习惯；避免在句序结构，词汇搭配，语体风格不符合目标语言习惯。 4.语境适应性：译文应符合语境风格，准确传达意图和语气；避免语体风格不符（正式或者非正式）、场景不符、感情色彩误用等问题。 |
| 最大分值(max_score) | 10 |
| 分值标准(score_details) | 将分值从高到低划分为三档进行赋分，你的打分需要尽可能严格。作为示例，参考答案可以给第一档。 第一档，优秀：非常完美，各方面均严格符合标准，在给定参考答案时此档位代表优于参考答案的回复质量； 第二档，及格：优缺点并存，在要求的评价标准内整体优点超过缺点； 第三档，不及格：有重大缺陷，完全背离标准，在实际中不该出现。 |
| 评分步骤(score_details) | 1.参照评分原则，仔细阅读并理解用户输入的待评估内容。 2.识别出表现好的维度以及表现不足的维度。 3.根据评分原则逐一对每个维度进行赋分，识别出各个维度具体优点和不足。 4.根据各维度得分及重要性计算综合评分。 |

#### 数据提取：

|名称|	描述|
|-----|-----|
|场景描述(scene_desc)	| 阅读并理解给定材料，并在此基础上完成用户指定的任务。如问答、摘要生成、信息提取、事实检查等。|
|评测维度(evaluation_metric)|	1.准确性：回复与给定材料严格对应，准确响应问题，即使原文存在错误或过时信息也应遵照原文；避免对原文信息增删或篡改。 2.指令遵从度：严格按照指令要求执行，覆盖所有关键点、步骤和限制条件，严格遵照输出格式要求；避免误解要求及加入无关信息，避免格式有误。 3.完整性：需要完整挖掘出原文信息，以及隐含的信息；避免出现缺失。 4.简洁性：信息应简洁、直接；避免回复过度复杂或冗长。 5.创造性：在需要创造性输出的任务中（如标题或摘要），应体现适度创新和吸引力，但不可偏离主旨或夸大内容。|
|最大分值(max_score)|	10|
|分值标准(score_details)	| 将分值从高到低划分为三档进行赋分，你的打分需要尽可能严格。作为示例，参考答案可以给第一档。 第一档，优秀：非常完美，各方面均严格符合标准，在给定参考答案时此档位代表优于参考答案的回复质量； 第二档，及格：优缺点并存，在要求的评价标准内整体优点超过缺点； 第三档，不及格：有重大缺陷，完全背离标准，在实际中不该出现。|
|评分步骤(score_details)	| 1.参照评分原则，仔细阅读并理解用户输入的待评估内容。 2.识别出表现好的维度以及表现不足的维度。 3.根据评分原则逐一对每个维度进行赋分，识别出各个维度具体优点和不足。 4.根据各维度得分及重要性计算综合评分。|

#### 内容创作

|名称|	描述|
|-----|-----|
|场景描述(scene_desc)|	根据用户指定的主题、风格、体裁和目标受众，创作出符合要求的原创内容。如撰写文章、故事、诗歌、广告文案、社交媒体帖子等。|
|评测维度(evaluation_metric)	|1.需求符合度：严格遵循用户指定的主题、风格、体裁等要求；避免偏离主题、内容不完整。 2.创造性：内容富有创造性及实质价值，提供独特视角；避免陈词滥调、缺乏深度以及抄袭。 3.逻辑性：逻辑清晰、结构严谨，段落安排合理；避免逻辑混乱、思路跳跃、衔接不当。 4.文体适应性：内容的风格和语言应用应与要求文体相匹配；避免语体风格不符（正式或者非正式）、场景不符、感情色彩误用等问题。 5.语言表达：内容语言应富有表现力，且符合目标受众的兴趣和理解水平；避免忽视受众背景、可读性差、语法错误。 6.伦理与文化无害：内容遵守伦理并展现对文化多样性的尊重；避免出现文化偏见，冒犯性、及其它歧视性内容。|
|最大分值(max_score)|	10|
|分值标准(score_details)	|将分值从高到低划分为三档进行赋分，你的打分需要尽可能严格。作为示例，参考答案可以给第一档。 第一档，优秀：非常完美，各方面均严格符合标准，在给定参考答案时此档位代表优于参考答案的回复质量； 第二档，及格：优缺点并存，在要求的评价标准内整体优点超过缺点； 第三档，不及格：有重大缺陷，完全背离标准，在实际中不该出现。|
|评分步骤(score_details)|	1.参照评分原则，仔细阅读并理解用户输入的待评估内容。 2.识别出表现好的维度以及表现不足的维度。 3.根据评分原则逐一对每个维度进行赋分，识别出各个维度具体优点和不足。 4.根据各维度得分及重要性计算综合评分。|

[原文链接](https://docs.bigmodel.cn/cn/best-practice/prompt/modelevaluation "原文链接")

暂无评论

请登录后评论

Prompt 工程 之 评测工具

暂无评论

Prompt 工程之评测工具