主页
文章
登录
登录
注册
忘记密码
反馈
文章
Prompt 工程 之 评测工具
Prompt 工程 之 评测工具
lyjin
2025-07-30
> 智谱Bigmodel目前支持两种自动评测方式:AI裁判员自动评测和基线评测。 其中,AI裁判员自动评测全程无需人工参与,将基于自定义的评测指标,通过AI裁判员模型对模型输出效果进行自动打分。该方式具有高效、和公正性的优势,但评测结果高度依赖人为设定的评分维度和标准。该方法适用于在特定业务场景下进行模型比选。 ### AI裁判员模式使用技巧 #### 打分指令 以下仅为Prompt示例,更多示例后续将逐步更新。 ``` 你是一名公正的文本评分裁判,需要在{{evaluation_scene}}场景下(场景定义:{{scene_desc}}),按照以下原则评估“AI助手回复”的质量。 <评分原则> - 根据以下维度对回复进行评价,按权重从高到低排序: *** {{evaluation_metric}} *** - 每个维度的评分范围为 0 至 {{max_score}} 分,评分标准如下: *** {{score_details}} *** <评分步骤> - 我将提供用户指令、参考答案和需要评估的“AI助手回复”,请按照以下流程对“AI助手回复”进行评价: {{steps}} <必须遵循> - 严格依据评分原则进行评价,每个维度必须赋予整数分值。 - 禁止忽略任何维度或添加未提及的维度。 <输出要求> - 仅输出 JSON 格式内容,禁止任何无关说明。 - JSON 输出模板: ```json { "综合评分":"[加权平均得分,取整]", "综合评分原因": "(总结综合评分原因)。具体表现如下:", "[维度1名称]": { "score": "[0至{{max_score}}间的整数分]", "analysis": "(简要描述该维度的亮点或不足)" }, "[维度2名称]": { "score": "[0至{{max_score}}间的整数分]", "analysis": "(简要描述该维度的亮点或不足)" }, // ... 其他维度表现 } #需要分析的用户指令、参考答案和助手回复: *** [用户指令]: {{question}} *** [参考答案]: {{ref_answer}} *** [AI助手回复]: {{answer}} *** ``` ### 场景评测模板 #### 翻译场景: | 名称 | 描述 | | ------------ | ------------ | | 场景描述(scene_desc) | 将给定文本在不改变原意的基础上翻译成另一种语言。 | | 评测维度(evaluation_metric) | 1.可理解度:译文基本忠实于原意;避免漏译、增译,以及歪曲原文意思的符号、词汇、短语或句子。<br/>2.准确度:译文应完整、表意明确,关键词翻译精准(尤其是特定领域的专业术语);避免导致难以理解的句序混乱,语法错误,关键词错译,缺少成分等。<br/>3.贴切度:符合目标语言的文化及表达习惯;避免在句序结构,词汇搭配,语体风格不符合目标语言习惯。<br/>4.语境适应性:译文应符合语境风格,准确传达意图和语气;避免语体风格不符(正式或者非正式)、场景不符、感情色彩误用等问题。 | | 最大分值(max_score) | 10 | | 分值标准(score_details) | 将分值从高到低划分为三档进行赋分,你的打分需要尽可能严格。作为示例,参考答案可以给第一档。<br/>第一档,优秀:非常完美,各方面均严格符合标准,在给定参考答案时此档位代表优于参考答案的回复质量;<br/>第二档,及格:优缺点并存,在要求的评价标准内整体优点超过缺点;<br/>第三档,不及格:有重大缺陷,完全背离标准,在实际中不该出现。 | | 评分步骤(score_details) | 1.参照评分原则,仔细阅读并理解用户输入的待评估内容。<br/>2.识别出表现好的维度以及表现不足的维度。<br/>3.根据评分原则逐一对每个维度进行赋分,识别出各个维度具体优点和不足。<br/>4.根据各维度得分及重要性计算综合评分。 | #### 数据提取: |名称| 描述| |-----|-----| |场景描述(scene_desc) | 阅读并理解给定材料,并在此基础上完成用户指定的任务。如问答、摘要生成、信息提取、事实检查等。| |评测维度(evaluation_metric)| 1.准确性:回复与给定材料严格对应,准确响应问题,即使原文存在错误或过时信息也应遵照原文;避免对原文信息增删或篡改。<br/>2.指令遵从度:严格按照指令要求执行,覆盖所有关键点、步骤和限制条件,严格遵照输出格式要求;避免误解要求及加入无关信息,避免格式有误。<br/>3.完整性:需要完整挖掘出原文信息,以及隐含的信息;避免出现缺失。<br/>4.简洁性:信息应简洁、直接;避免回复过度复杂或冗长。<br/>5.创造性:在需要创造性输出的任务中(如标题或摘要),应体现适度创新和吸引力,但不可偏离主旨或夸大内容。| |最大分值(max_score)| 10| |分值标准(score_details) | 将分值从高到低划分为三档进行赋分,你的打分需要尽可能严格。作为示例,参考答案可以给第一档。<br/>第一档,优秀:非常完美,各方面均严格符合标准,在给定参考答案时此档位代表优于参考答案的回复质量;<br/>第二档,及格:优缺点并存,在要求的评价标准内整体优点超过缺点;<br/>第三档,不及格:有重大缺陷,完全背离标准,在实际中不该出现。| |评分步骤(score_details) | 1.参照评分原则,仔细阅读并理解用户输入的待评估内容。<br/>2.识别出表现好的维度以及表现不足的维度。<br/>3.根据评分原则逐一对每个维度进行赋分,识别出各个维度具体优点和不足。<br/>4.根据各维度得分及重要性计算综合评分。| #### 内容创作 |名称| 描述| |-----|-----| |场景描述(scene_desc)| 根据用户指定的主题、风格、体裁和目标受众,创作出符合要求的原创内容。如撰写文章、故事、诗歌、广告文案、社交媒体帖子等。| |评测维度(evaluation_metric) |1.需求符合度:严格遵循用户指定的主题、风格、体裁等要求;避免偏离主题、内容不完整。<br/>2.创造性:内容富有创造性及实质价值,提供独特视角;避免陈词滥调、缺乏深度以及抄袭。<br/>3.逻辑性:逻辑清晰、结构严谨,段落安排合理;避免逻辑混乱、思路跳跃、衔接不当。<br/>4.文体适应性:内容的风格和语言应用应与要求文体相匹配;避免语体风格不符(正式或者非正式)、场景不符、感情色彩误用等问题。<br/>5.语言表达:内容语言应富有表现力,且符合目标受众的兴趣和理解水平;避免忽视受众背景、可读性差、语法错误。<br/>6.伦理与文化无害:内容遵守伦理并展现对文化多样性的尊重;避免出现文化偏见,冒犯性、及其它歧视性内容。| |最大分值(max_score)| 10| |分值标准(score_details) |将分值从高到低划分为三档进行赋分,你的打分需要尽可能严格。作为示例,参考答案可以给第一档。<br/>第一档,优秀:非常完美,各方面均严格符合标准,在给定参考答案时此档位代表优于参考答案的回复质量;<br/>第二档,及格:优缺点并存,在要求的评价标准内整体优点超过缺点;<br/>第三档,不及格:有重大缺陷,完全背离标准,在实际中不该出现。| |评分步骤(score_details)| 1.参照评分原则,仔细阅读并理解用户输入的待评估内容。<br/>2.识别出表现好的维度以及表现不足的维度。<br/>3.根据评分原则逐一对每个维度进行赋分,识别出各个维度具体优点和不足。<br/>4.根据各维度得分及重要性计算综合评分。| [原文链接](https://docs.bigmodel.cn/cn/best-practice/prompt/modelevaluation "原文链接")
分享
×
用手机扫码分享
没有评论
请登陆后评论
新建评论
移除
关闭
提交