233
云计算
负载均衡
产品简介
产品价格
快速入门
用户指南
实践操作
常见问题
购买指南
云服务器
产品简介
计费规则
购买指导
控制台使用指南
常见问题
云数据库
产品简介
计费规则
购买指导
快速入门
连接实例
控制台使用指南
对象存储
产品简介
控制台使用指南
程序员百科
Python
百度智能云全功能AI开发平台BML-序列标注数据去重策略

产品推荐:

1、安全稳定的云服务器租用,2核/2G/5M仅37元,点击抢购>>>

2、高防物理服务器20核/16G/50M/500G防御仅350元,点击抢购>>>

3、百度智能建站(五合一网站)仅880元/年,点击抢购>>> 模板建站(PC+手机站)仅480元/年,点击抢购>>>

4、阿里云服务器2核2G3M仅99元/年、2核4G5M仅199元/年,新老同享,点击抢购>>> 

5、腾讯云服务器2核2G4M仅99元/年、新老同享,点击抢购>>>   


点击这里点击这里申请百度智能云VIP帐号,立即体验BML>>>

百度智能云全功能AI开发平台BML-序列标注数据去重策略

重复样本的定义

一个样本包括文本内容和标签。重复样本的定义,是指您上传的数据中,存在两个样本的文本内容完全一致。则被判定为两个样本是重复样本。例如:

文本内容标签
中 韩 对 抗 赛 中 , 于 大 宝 的 进 球 帮 中 国 队 获 胜CN-B KR-B O O O O O PER-B PER-I PER-I O O O O ORG-B ORG-I ORG-I O O
中 韩 对 抗 赛 中 , 于 大 宝 的 进 球 帮 中 国 队 获 胜CN-B KR-B O O O O O PER-B PER-I PER-I O O O O ORG-B ORG-I ORG-I O O
中 韩 对 抗 赛 中 , 于 大 宝 的 进 球 帮 中 国 队 获 胜O O O O O O O O O O O O O O O O O O O

上表三个样本均为重复样本,后两个样本虽然标签不一,但文本内容一致,也为重复样本。

Tips: “如何利用好重复样本”,如果您在模型训练过程中,需要通过增加某个类别标签的预测权重,可以通过增加此标签的重复样本来达到此目标。

平台去重策略

平台提供了可去重的数据集,即对您上传的数据进行重复样本的去重。注意:当您确定了数据集为去重或非去重的属性后,便不可修改。

当您创建了一个去重的数据集时,在后续上传数据的过程中,平台可通过检验您当前上传的样本与已上传到此数据集下的样本是否相同,如果相同,则会使用新的样本替代旧的样本。此时分为几种情况,如下:

  1. 数据集中有未标注样本,上传重复的已标注样本,此时未标注样本将被覆盖
  2. 数据集中有已标注样本,上传重复的未标注样本,此时已标注样本将被覆盖
  3. 数据集中有已标注样本,上传不同标注的已标注样本,此时已有的标注样本将被覆盖


这条帮助是否解决了您的问题? 已解决 未解决

提交成功!非常感谢您的反馈,我们会继续努力做到更好! 很抱歉未能解决您的疑问。我们已收到您的反馈意见,同时会及时作出反馈处理!