208
云计算
负载均衡
产品简介
产品价格
快速入门
用户指南
实践操作
常见问题
购买指南
云服务器
产品简介
计费规则
购买指导
控制台使用指南
常见问题
云数据库
产品简介
计费规则
购买指导
快速入门
连接实例
控制台使用指南
对象存储
产品简介
控制台使用指南
程序员百科
Python
百度文心千帆大模型平台使用指南-怎么创建模型评估任务?

产品推荐:

1、安全稳定的云服务器租用,2核/2G/5M仅37元,点击抢购>>>

2、高防物理服务器20核/16G/50M/200G防御仅350元,点击抢购>>>

3、百度智能建站(五合一网站)仅880元/年,点击抢购>>> 模板建站(PC+手机站)仅480元/年,点击抢购>>>



点击这里点击这里申请百度智能云特邀VIP帐号,立即体验文心千帆>>>

百度文心千帆大模型平台使用指南-怎么创建模型评估任务?

什么是评估数据集

在人工智能模型开发过程中,通常是将数据集划分为训练集、验证集和测试集三个部分。其中,训练集用来训练模型,验证集则用于调整模型的超参数和选择合适的模型,而测试集则是在模型训练完成后,用于最终评估模型的性能,这就是评估数据集(即测试集)。

评估数据集通常是在与训练数据集相似的情况下收集的,因此可以用来代表真实世界的样本数据。通过对评估数据集的评估,可以了解模型在不同场景下的表现,从而更好地优化模型。同时,评估数据集还可以用来验证模型的泛化能力,即模型在未见过的数据上的表现如何。

创建模型评估任务

登录到文心千帆大模型操作台,在左侧功能列选择模型评估,进入模型评估主任务界面。

点击“创建评估任务”按钮,进入新建评估任务页面。(若没有该按钮,请查看任务计费说明)

image.png

由用户填写评估任务所需的基本信息、评估配置、资源配置。

基本信息

填写评估任务名称、评估任务描述

image.png

评估配置

  • 待评估模型: 支持选择多个模型版本同时评估,最多选择5个。支持同时选择预置模型和用户训练模型,具体支持范围详见模型评估支持范围 。
  • 评估数据集: 支持选择平台数据集作为评估数据集,支持选择文本对话(有排序、非排序)类型的数据。数据集中的标注样本数量需大于3,否则将无法发起评估任务。
  • 评估标准:当前版本支持基于规则的评估模式:使用预置的相似度或准确率打分规则对比模型生成结果与真实标注的差异,从而计算模型指标。
  • 停用词表:为避免特殊字符及单词对模型效果评估的影响,可设置停用词表,评估时将自动过滤。下载停用词表示例(以空格或回车分隔不同停用词)。

image.png

资源配置

配置模型评估的资源环境和计算节点数后,点击“确认”按钮开始进行模型评估任务。(详细计费规则请见任务计费说明)

image.png

任务计费说明

当前模型评估功能限时免费.

模型评估支持范围

模型家族模型评估支持
ERNIE-Botx
ERNIE-Bot-turbox
BLOOMZ-7B


这条帮助是否解决了您的问题? 已解决 未解决

提交成功!非常感谢您的反馈,我们会继续努力做到更好! 很抱歉未能解决您的疑问。我们已收到您的反馈意见,同时会及时作出反馈处理!