208
云计算
负载均衡
产品简介
产品价格
快速入门
用户指南
实践操作
常见问题
购买指南
云服务器
产品简介
计费规则
购买指导
控制台使用指南
常见问题
云数据库
产品简介
计费规则
购买指导
快速入门
连接实例
控制台使用指南
对象存储
产品简介
控制台使用指南
程序员百科
Python
百度文心千帆大模型平台使用指南-怎么查看与管理模型评估任务?

产品推荐:

1、安全稳定的云服务器租用,2核/2G/5M仅37元,点击抢购>>>

2、高防物理服务器20核/16G/50M/200G防御仅350元,点击抢购>>>

3、百度智能建站(五合一网站)仅880元/年,点击抢购>>> 模板建站(PC+手机站)仅480元/年,点击抢购>>>



点击这里点击这里申请百度智能云特邀VIP帐号,立即体验文心千帆>>>

百度文心千帆大模型平台使用指南-怎么查看与管理模型评估任务?

对生成式大模型的输出效果、计算性能进行全方位评价,提供面向事实类或开放性问答的不同打分模式;当前支持文本类生成模型,暂不支持图像或跨模态生成模型。

登录到文心千帆大模型操作台,在左侧功能列选择模型评估,进入模型评估主任务界面。

查看模型评估任务详情

进入“模型评估 > 查看报告 > 任务详情”中查看模型评估任务详情页。

image.png

查看评估报告

进入“模型评估 > 查看报告 > 评估报告 ”中查看评估指标。

指标名称指标说明
准确率 (%)规则打分模式下,忽略停用词后,正确预测(标注与预测完全匹配)的样本数与总样本数的比例
F1分数 (%)规则打分模式下,忽略停用词后,精确率和召回率的调和平均数
ROUGE-1 (%)忽略停用词后,将模型生成的结果和标准结果按unigram拆分后,计算出的召回率
ROUGE-2 (%)忽略停用词后,将模型生成的结果和标准结果按bigram拆分后,计算出的召回率
ROUGE-L (%)忽略停用词后,衡量了模型生成的结果和标准结果的最长公共子序列,并计算出召回率
BLEU-4 (%)忽略停用词后,用于评估模型生成的句子和实际句子的差异的指标,值为unigram,bigram,trigram,4-grams的加权平均

注释
Ⅰ) unigram:指将句子或文本中的每个单词都单独作为一个基本单元,不考虑单词之间的顺序。
Ⅱ) bigram:指将句子或文本中的每个相邻的单词对都作为一个基本单元,用于描述两个单词之间的顺序关系。
Ⅲ) trigram:指将句子或文本中的每个相邻的三个单词作为一个基本单元,用于描述三个单词之间的顺序关系。
Ⅳ) 4-grams:指将句子或文本中的每个相邻的四个单词作为一个基本单元,用于描述四个单词之间的顺序关系。
Ⅴ) 最长公共子序列:指两个或多个字符串最长的子序列,这些子序列在每个字符串中都存在,且它们的顺序相同。

image.png

导出错例数据

评估报告中,错例分析 区域展示了BLUE-4指标较低的样本,以便用户针对性分析和迭代模型;为避免对页面性能造成影响,每个模型最多展示2000条错例样本。

错例支持筛选和导出。导出时点击左上角按钮,在浮窗中配置导出位置『本地』或『BOS存储』(需提前开通BOS相关服务 )。

image.png

image.png

右上角 操作记录中支持查看用户对错例导出记录,查看导出任务状态、并对错例数据进行下载、查看。

image.png

查看任务日志

平台支持查看本次模型评估任务的详细日志。选择评估的模型后,可以查看其从创建开始到任务结束的日志内容,支持下载到本地保存(txt格式)。

以下为部分日志展示:

image.png

可通过日志查看报错,调整任务配置重新发起;或在提交工单时,粘贴日志中的报错由百度技术服务团队协助排查。


这条帮助是否解决了您的问题? 已解决 未解决

提交成功!非常感谢您的反馈,我们会继续努力做到更好! 很抱歉未能解决您的疑问。我们已收到您的反馈意见,同时会及时作出反馈处理!