233
云计算
负载均衡
产品简介
产品价格
快速入门
用户指南
实践操作
常见问题
购买指南
云服务器
产品简介
计费规则
购买指导
控制台使用指南
常见问题
云数据库
产品简介
计费规则
购买指导
快速入门
连接实例
控制台使用指南
对象存储
产品简介
控制台使用指南
程序员百科
Python
百度智能云全功能AI开发平台BML-文本分类数据导入与标注

产品推荐:

1、安全稳定的云服务器租用,2核/2G/5M仅37元,点击抢购>>>

2、高防物理服务器20核/16G/50M/200G防御仅350元,点击抢购>>>

3、百度智能建站(五合一网站)仅880元/年,点击抢购>>> 模板建站(PC+手机站)仅480元/年,点击抢购>>>


点击这里点击这里申请百度智能云VIP帐号,立即体验BML>>>

百度智能云全功能AI开发平台BML-文本分类数据导入与标注

1. 创建数据集

您可以在左侧目录导航栏中选择【数据总览】并点击按钮“创建数据集”,对话框中选择数据类型为“文本”,标注类型选择“文本分类”,当前的文本分类的数据标注模板默认为单文本单标签格式。

image.png

2.导入未标注文本数据

进入到新创建的文本分类数据集中,如果您手中的数据是未标注数据,可以导入“未标注”中。平台提供两种方式导入数据,一种是从本地上传,一种是已有数据集导入

image.png

通过已有数据集导入时,平台将为您筛选出类型为文本分类的数据集。

本地上传,包括三种上传方式,分别为「上传文本」、「上传压缩包」、「API上传」

通过文本上传时,需注意:

  1. 文本文件内数据格式要求为"文本内容\n"(即每行一个未标注样本,使用回车换行),每一行表示一组数据,每组数据的字符数建议不超过512个,超出将被截断
  2. 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件

相关的数据样例可在上传窗口内下载数据样例查看

通过压缩包上传时,需注意:

  1. 压缩包内的一个文本文件将作为一个样本上传
  2. 压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8

相关的数据样例可在上传窗口内下载数据样例查看

API导入时,可参考文档

文本标注

  1. 上传未标注文本后,进入到标注页面,您可以逐一查看每一篇未标注的文本,如下图:

image.png

  1. 设定分类对应的标签

  1. 创建标签后,即可以进行对文本的标注,在文本的上方标签字段处,会显示对应的分类标签,完成标注

image.png

3.导入已标注文本数据

如果您手中的数据为已经标注好的数据,可以导入到“已标注”中。平台提供两种方式导入数据,一种是从本地上传,一种是从线上已有数据集导入。

通过已有数据集导入时,平台将为您筛选出类型为文本分类的数据集。

本地上传,包括三种上传方式,分别为「上传文本」、「上传压缩包」、「API上传」

通过文本上传时,需注意:

  1. 文本分类的标注数据格式要求为"文本内容\t标注标签\n"(即每行一个未标注样本与一个标注标签,中间使用tab键间隔,每组数据使用回车换行),详见数据样例每一行表示一组数据,每组数据字符数不超过512个,超出将被截断
  2. 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文本文件

相关的数据样例可在上传窗口内下载数据样例查看

通过压缩包上传时,需注意:

  1. 上传已标注文件要求格式为zip格式压缩包,同时压缩包大小在5GB以内,文件编码仅支持UTF-8
  2. 压缩包内仅支持单个文本文件(txt)及同名的json格式标注文件的上传,可传多组样本,详细请见示例压缩包

相关的数据样例可在上传窗口内下载数据样例查看

image.png

API导入时,可参考文档进行上传


这条帮助是否解决了您的问题? 已解决 未解决

提交成功!非常感谢您的反馈,我们会继续努力做到更好! 很抱歉未能解决您的疑问。我们已收到您的反馈意见,同时会及时作出反馈处理!