208
云计算
负载均衡
产品简介
产品价格
快速入门
用户指南
实践操作
常见问题
购买指南
云服务器
产品简介
计费规则
购买指导
控制台使用指南
常见问题
云数据库
产品简介
计费规则
购买指导
快速入门
连接实例
控制台使用指南
对象存储
产品简介
控制台使用指南
程序员百科
Python
百度文心千帆大模型平台使用指南-如何导入文本对话数据?

产品推荐:

1、安全稳定的云服务器租用,2核/2G/5M仅37元,点击抢购>>>

2、高防物理服务器20核/16G/50M/500G防御仅350元,点击抢购>>>

3、百度智能建站(五合一网站)仅880元/年,点击抢购>>> 模板建站(PC+手机站)仅480元/年,点击抢购>>>

4、阿里云服务器2核2G3M仅99元/年、2核4G5M仅199元/年,新老同享,点击抢购>>> 

5、腾讯云服务器2核2G4M仅99元/年、新老同享,点击抢购>>>   



点击这里点击这里申请百度智能云特邀VIP帐号,立即体验文心千帆>>>

百度文心千帆大模型平台使用指南-如何导入文本对话数据?

登录到文心千帆大模型操作台,在左侧功能列选择数据集管理,进入数据集管理主任务界面。

导入数据

创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。

image.png

您可以使用以下方案上传文本数据:

  1. 无标注信息导入:本地导入、BOS目录导入、分享链接导入、平台已有数据集
  2. 有标注信息导入:本地导入、BOS目录导入、分享链接导入、平台已有数据集

无标注信息

无标注信息-本地导入

本地导入支持五种导入格式:JSONL、TXT、CSV、XLSX、ZIP。

非排序样本数据

导入格式格式要求格式示例
Jsonl1. 文件内单条数据格式要求为[{"prompt" :“prompt内容”}], 详见数据样例。
2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过4000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练。
3.支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。
image.png
TXT1.对话生成的数据序列格式要求为"prompt",详见数据样例。
2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过4000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练。
3. 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。
image.png
CSV1. 文件内单条数据的格式参考示例图,在表格中为一列,由表头定义prompt,详见数据样例。
2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过4000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练。
3. 支持文本文件类型为xlsx,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。
image.png
XLSX1. 文件内单条数据的格式参考示例图,在表格中为一列,由表头定义prompt,详见数据样例。
2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过4000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练。
3. 支持文本文件类型为xlsx,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。
image.png
ZIP1. 上传文件要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。
2.压缩包内支持多个jsonl文件的上传,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过4000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练,详见示例压缩包。
image.png

含排序样本数据

含排序文本数据格式要求同非排序文本数据一致。

下载数据样例:JSONL、TXT、CSV 、XLSX、ZIP。

无标注信息-BOS目录导入

请确保将全部文本已通过jsonl文件保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入。

需选择Bucket地址与对应的文件夹地址。

导入方式格式要求格式示例
Bucket地址·文件夹地址导入1. 文件夹内文件类型支持jsonl,文件编码仅支持UTF-8。
2.jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过4000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练。
image.png

无标注信息-分享链接导入

请确保将全部jsonl文本文件保存至同一压缩包,压缩包仅支持zip/tar.gz格式,压缩前源文件大小限制5G以内

需输入链接地址。分享链接导入的要求如下:

  • 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
导入方式格式要求格式示例
输入链接地址导入1. 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。
2. 压缩包内支持多个jsonl文件,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过4000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练。
image.png

无标注信息-平台已有数据集

导入方式格式要求数据集要求
选择数据集仅支持选择未发布的数据集版本支持全部数据的导入,此方式导入的数据不带标注;另外也支持仅导入未标注数据。

有标注信息

有标注信息-本地导入

本地导入支持两种导入格式:JSONL和ZIP。

非排序样本数据

导入格式格式要求格式示例
Jsonl1. 文件内单条数据格式要求为[{"prompt" : "prompt内容","response": [["response内容"]]}], 详见数据样例。
2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过4000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练。
3. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,,单个文件不超过100M。
image.png
ZIP1. 上传文件要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。
2. 压缩包内支持多个jsonl文件的上传,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过4000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练,详见示例压缩包。
image.png

含排序样本数据

导入格式格式要求格式示例
Jsonl1. 文件内单条数据格式要求为{"prompt" :“prompt内容”,"response":“response内容”},即每个序列为两句话,由逗号分隔开,详见数据样例。
2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过4000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练。
3. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,,单个文件不超过100M。
image.png
ZIP1. 上传文件要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。
2. 压缩包内支持多个jsonl文件的上传,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过4000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练,详见示例压缩包。
image.png

有标注信息-BOS目录导入

请确保将全部文本已通过jsonl文件保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入。

需选择Bucket地址与对应的文件夹地址。

导入方式格式要求格式示例
Bucket地址·文件夹地址导入1. 文件夹内文件类型支持jsonl,文件编码仅支持UTF-8。
2. jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过4000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练。
image.png

有标注信息-分享链接导入

请确保将全部jsonl文本文件保存至同一压缩包,压缩包仅支持zip/tar.gz格式,压缩前源文件大小限制5G以内

需输入链接地址。分享链接导入的要求如下:

  • 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
导入方式格式要求格式示例
输入链接地址导入1. 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。
2. 压缩包内支持多个jsonl文件,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过4000Token(包括中英文、数字、符号等),超出的字符可正常保存,但可能无法参与训练。
image.png

有标注信息-平台已有数据集

导入方式格式要求数据集要求
选择数据集仅支持选择未发布的数据集版本有标注信息的数据集

以上所有步骤完成后,即可导入数据至数据集。


这条帮助是否解决了您的问题? 已解决 未解决

提交成功!非常感谢您的反馈,我们会继续努力做到更好! 很抱歉未能解决您的疑问。我们已收到您的反馈意见,同时会及时作出反馈处理!