208
云计算
负载均衡
产品简介
产品价格
快速入门
用户指南
实践操作
常见问题
购买指南
云服务器
产品简介
计费规则
购买指导
控制台使用指南
常见问题
云数据库
产品简介
计费规则
购买指导
快速入门
连接实例
控制台使用指南
对象存储
产品简介
控制台使用指南
程序员百科
Python
百度文心千帆大模型平台使用指南-数据集对应关系说明

产品推荐:

1、安全稳定的云服务器租用,2核/2G/5M仅37元,点击抢购>>>

2、高防物理服务器20核/16G/50M/500G防御仅350元,点击抢购>>>

3、百度智能建站(五合一网站)仅880元/年,点击抢购>>> 模板建站(PC+手机站)仅480元/年,点击抢购>>>

4、阿里云服务器2核2G3M仅99元/年、2核4G5M仅199元/年,新老同享,点击抢购>>> 

5、腾讯云服务器2核2G4M仅99元/年、新老同享,点击抢购>>>   



点击这里点击这里申请百度智能云特邀VIP帐号,立即体验文心千帆>>>

百度文心千帆大模型平台使用指南-数据集对应关系说明

数据集类型与模型训练的对应关系

文心千帆大模型平台支持在创建数据集时,导入不同标注类型的数据。

image.png

  1. 文本对话

    • 非排序模版:单轮或多轮的文本对话数据,单个提问和回答一一对应,作为后续SFT、 prompt tuning以及delta tuning的训练输入。
    • 含排序模版:单轮或多轮的文本对话数据,单个提问对应多个回答, 需要对多个回答进行排序,作为后续奖励模型的训练输入。
  2. query问题集:单轮或多轮的提问语料数据,作为后续RLHF的训练输入。

具体对应关系可参考:

  • 大模型调优匹配多轮对话-非排序类的数据集,操作内容可参考大模型调优的数据配置内容。
  • 奖励模型训练匹配多轮对话-排序类的数据集,操作内容可参考奖励模型训练的数据配置内容。
  • 强化学习训练匹配query问题集,操作内容可参考强化学习训练的数据配置内容。

示例样本中的单/多轮对话

文心千帆平台支持下载示例样本完成后续模型训练,不同的样本示例可在文本数据和query问题集手册文档中进行下载。

什么是单轮对话

单轮对话和多轮对话是两种不同的对话形式,它们分别指的是在一次对话中只涉及一个问题和对应的回答,以及在一次对话中涉及多个问题和对应的回答。

单轮对话中,通常只涉及一个核心问题,对话的双方只需要针对这个问题进行回答和交流,不需要对之前的回答进行进一步的追问或解释。这种对话形式通常适用于一些简单的交流场景,如咨询信息、请求服务等。

场景示例:简单问题咨询

image.png

提问:文心千帆是哪个公司的开发的大模型平台?
回答:文心千帆,是百度开发的企业级大模型生产平台。

什么是多轮对话

多轮对话中,对话的双方需要在一系列问题中进行多次交流和回答,每次回答都可能引出下一个问题。这种对话形式通常适用于一些复杂的交流场景,如咨询专家意见、解决问题等。

场景示例:关联性问题咨询

image.png

提问:北京西站到丰台科技园(地铁站)该怎么走?
回答:推荐您搭乘北京地铁9号线(郭公庄方向),7站地后丰台科技园站下车即可。您也可以使用其他交通工具,如出租车、网约车等,根据交通状况和舒适度选择适合自己的方式。
提问:这是最省钱的路线吗?
回答:您可以选择骑乘共享单车,绿色出行。路途较远,请您注意骑乘安全。
提问:今天天气适合骑车过去吗?
回答:为您查询到今日北京市丰台区未来8小时内气温均值26摄氏度,降水概率百分之3%,体感温度良好,适合骑乘出行。

单轮对话示例

平台已接入不同类型的数据样本示例。

我们以有标注的非排序文本数据示例为例,向您展示单轮对话。

image.png

示例文件上传平台后的部分显示如下:

image.png

其中抽取部分示例内容:

  • prompt: 请根据下面的新闻生成摘要, 内容如下:新华社受权于18日全文播发修改后的《中华人民共和国立法法》,修改后的立法法分为“总则”“法律”“行政法规”“地方性法规、自治条例和单行条例、规章”“适用与备案审查”“附则”等6章,共计105条。
    response: 修改后的立法法全文公布
  • prompt: 请根据下面的新闻生成摘要, 内容如下:一辆小轿车,一名女司机,竟造成9死24伤。日前,深圳市交警局对事故进行通报:从目前证据看,事故系司机超速行驶且操作不当导致。目前24名伤员已有6名治愈出院,其余正接受治疗,预计事故赔偿费或超一千万元。
    response: 深圳机场9死24伤续:司机全责赔偿或超千万
  • 以上两个对话均为一一对应的单轮对话内容,针对核心问题生成应答,不需要进行上下文进行追问和反馈,数据单轮对话样本。注意:单轮对话支持排序文本数据,详细导入操作可查看创建数据集相关内容。

多轮对话示例

我们以有标注的排序文本数据样例为例,向您展示多轮对话。

image.png

示例文件上传平台后的部分显示如下:

image.png

其中抽取部分示例内容:

  • prompt:生成一个关于人工智能的标题吧。
    response1:好的,给您生成一些标题:1) 人工智能的未来与挑战; 2) 机器学习在现代生活中的应用; 3) 从AI发展历程看未来发展趋势。
    response2:人工智能革命:如何加速AI发展并实现企业数字化转型
  • prompt:可以再给我一些具体的例子吗?
    response1:当然可以,以下是几个例子:1) 人工智能如何助力人类健康; 2) 语音识别技术大盘点; 3) 深度学习在图像处理中的应用; 4) 基于人工智能的自动程序设计; 5) 人工智能时代的工作未来。
    response2:当然可以,例如自然语言处理技术的应用、医疗领域的智能诊断、智能家居的智能化控制等等。这些都是人工智能在现实中的具体应用。
  • 以上两个对话为联系上下文的多轮对话内容,如第二个“prompt”是基于第一个“prompt”衍生的迭代问题,应答(标注)则基于上文内容,给出关联性输出回应。注意:response1和2是基于本次排序类文本数据生成的排序应答,上传排序类数据集,每个问答对的response不得少于2个。

本章节使用案例为有标注信息样本内容,如您导入未标注信息数据,response即为您个人标注,您可至在线标注完成相关操作。操作步骤参考在线标注使用说明。


这条帮助是否解决了您的问题? 已解决 未解决

提交成功!非常感谢您的反馈,我们会继续努力做到更好! 很抱歉未能解决您的疑问。我们已收到您的反馈意见,同时会及时作出反馈处理!