208
云计算
负载均衡
产品简介
产品价格
快速入门
用户指南
实践操作
常见问题
购买指南
云服务器
产品简介
计费规则
购买指导
控制台使用指南
常见问题
云数据库
产品简介
计费规则
购买指导
快速入门
连接实例
控制台使用指南
对象存储
产品简介
控制台使用指南
程序员百科
Python
百度文心千帆大模型平台使用指南-数据增强使用说明

产品推荐:

1、安全稳定的云服务器租用,2核/2G/5M仅37元,点击抢购>>>

2、高防物理服务器20核/16G/50M/500G防御仅350元,点击抢购>>>

3、百度智能建站(五合一网站)仅880元/年,点击抢购>>> 模板建站(PC+手机站)仅480元/年,点击抢购>>>

4、阿里云服务器2核2G3M仅99元/年、2核4G5M仅199元/年,新老同享,点击抢购>>> 

5、腾讯云服务器2核2G4M仅99元/年、新老同享,点击抢购>>>   



点击这里点击这里申请百度智能云特邀VIP帐号,立即体验文心千帆>>>

百度文心千帆大模型平台使用指南-数据增强使用说明

什么是数据增强

平台支持对文本数据集进行数据增强。
当在实践中无法收集到数目庞大的高质量数据时,可以通过数据增强策略,对数据本身进行一定程度的扰动和扩充,从而产生"新"数据。在训练时会通过学习大量的"新"数据,提高模型的泛化能力。

注意文本数据增强功能仅支持增强未发布的非空数据集

登录到文心千帆大模型操作台,在左侧功能列数据处理中选择数据增强,进入数据增强的主任务界面。

创建数据增强任务

在数据处理-数据增强页面中,选择“创建任务”。

image.png

  • 处理前数据集:存放增强前的源数据。
  • 处理后数据集:存放增强后的数据。

增强配置方案

以下增强配置方案,在创建数据增强任务时,请至少选择一种:

方案类型方案描述增强示例
近义词替换加载word2vec词典对于输入的tokens进行分词,并以15%的概率进行近义词的搜索替换。处理前:AI技术可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。
处理后:AI技术可以模拟人类智能,实现机器自主学习、理解和判定和推理,能够广泛运用于医疗保健、金融管理、教育、交通、制造等各个领域。
随机删除采用SpanBert中的 span masking,对每个句子,迭代式的采样Span,直到整个句子的Masked tokens达到15%。对于满足条件的token进行删除。处理前:AI技术可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。
处理后:AI技可以模拟人类智能现机学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域
随机mask对每个句子,迭代式的采样Span,直到整个句子的Masked tokens达到15%。对于满足条件的token进行mask。处理前:AI技术可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。
处理后:AI技术可以模拟人类image.png,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域
同词性替换使用LAC分词工具,对文件中的所有数据进行分词操作,然后构建一个词性字典,字典的key为token的词性(tag),value为存放相应token的list,然后对于文件中的每一条数据,以15%的概率对文本中的token进行词性替换。处理前:AI技术可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。
处理后:AI技术可以能够人类智能,实现机器自主学习、理解、判断和推理,判断广泛应用于医疗、领域、推理、交通、教育等各个领域。
同音词替换采用同音词汇进行原文替换,达到数据增强的目的。不考虑拼音声调,可以设置是否考虑常见方言读音误读,如 zh 与 z 不分,eng 与 en 不分,f 与 h 不分,l 与 n 不分等情况;替换时,优先使用常用词汇(依据词频而定)。处理前:AI技术可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。
处理后:AI急速可以模拟人类智能,实现机器自主学习、理解、判断和推理,能够广泛应用于医疗、金融、教育、交通、制造等各个领域。

增强处理中策略

  • 串行叠加
    每段文本都按顺序经过所选算子的处理,各个算子的效果叠加在每段文本。
  • 并行遍历
    每段文本分别经过各个所选算子的处理,对应各个算子都分别产生一段新文本。

    完成以上所有配置后点击“确定”,完成数据增强任务的创建

查看数据增强任务

任务提交后,您可至“增强任务管理”页面,查看增强状态和任务详情。

image.png

任务管理界面可以删除此数据增强任务,但是已经发起的增强数据集版本不受影响,仍然会进行增强任务。


这条帮助是否解决了您的问题? 已解决 未解决

提交成功!非常感谢您的反馈,我们会继续努力做到更好! 很抱歉未能解决您的疑问。我们已收到您的反馈意见,同时会及时作出反馈处理!