233
云计算
负载均衡
产品简介
产品价格
快速入门
用户指南
实践操作
常见问题
购买指南
云服务器
产品简介
计费规则
购买指导
控制台使用指南
常见问题
云数据库
产品简介
计费规则
购买指导
快速入门
连接实例
控制台使用指南
对象存储
产品简介
控制台使用指南
程序员百科
Python
百度智能云全功能AI开发平台BML-配置专家模式表格数据预测任务

产品推荐:

1、安全稳定的云服务器租用,2核/2G/5M仅37元,点击抢购>>>

2、高防物理服务器20核/16G/50M/200G防御仅350元,点击抢购>>>

3、百度智能建站(五合一网站)仅880元/年,点击抢购>>> 模板建站(PC+手机站)仅480元/年,点击抢购>>>


点击这里点击这里申请百度智能云VIP帐号,立即体验BML>>>

百度智能云全功能AI开发平台BML-配置专家模式表格数据预测任务

表格预测任务支持AutoML和专家两种运行方式:

  • AutoML模式:全流程自动建模,用户只需设置数据集、目标列以及制定任务类型即可,而无需关注数据处理以及算法配置等过程,系统会自动完成建模过程,并从中挑选最优的模型作为训练任务的运行结果。
  • 专家模式:高度开放的建模方式,用户可以进行特征工程、算法、超参搜索等配置,具备相关技能的开发者可以在方式下获得更多的开发自由度。

创建专家建模任务

操作场景

以iris数据集为例,创建多分类模型,iris数据集示例如下:

sepal_length,sepal_width,petal_length,petal_width,species

5.1,3.5,1.4,0.2,setosa

4.9,3.0,1.4,0.2,setosa

4.7,3.2,1.3,0.2,setosa

4.6,3.1,1.5,0.2,setosa

前提条件

在创建表格预测任务前,需满足如下条件:

  • 必须已成功创建“表格”类数据,数据集导入状态为“已完成”
  • 数据集中行数必须大于0,即必须是非空数据集

操作步骤

  1. 在BML操作台的左侧导航菜单上单击“脚本调参”,进入脚本调参列表页面。
  2. 单击已创建的“iris分类”所在行的“新建任务”,进入“新建任务”页面。

    配置参数如下所示:

    • 基本信息

      • 开发方式:选择专家模式
      • 训练方式:支持单机和分布式两种模式,单击模式支持更多的算法。
      • 任务备注:请根据实际情况填写,详细的配置说明可以参考初始化脚本头部的注释内容。
    • 添加数据

      • 选择数据集:选择已创建的iris数据集
      • 选择目标列:设置为species
      • 算法类型:设置为“多分类”
      • 特征工程策略:

        • 默认配置:执行系统默认的特征工程策略
        • 手动配置:用户可以手工配置各个特征工程算子的执行参数从而控制其执行方式
        • 自动搜索:用户可以选择要使用那些特征工程算子,系统会自动搜索并完成用户选择的特征工程算子的配置。
    • 配置任务

      • 系统会根据用户选择的训练方式以及算法类型自动生成任务脚本,在不需要修改的情况下可直接启动训练。
      • 自定义脚本内容过程中有如下注意事项:

        1. 可以自定义的部分为超参配置字典conf部分,包括是否开启超参搜索,训练模型类型和模型配置,具体见脚本中的注释
        2. 训练默认开启自动超参搜索,如需关闭请手动将"hyperparameter_tune"的参数值由"True"更改为"False"
        3. BML当前表格数据预测支持模型为CAT(CatBoost), LGBM(LightGBM),RF(RandomForest), LR(Logistic Regression), XGB(Xgboost), KNN(k-NearestNeighbor)
        4. 在"hp_space"中已经预置可搜索的超参数,用户无需修改参数名称,随意设置可能会导致训练失败
        5. 在超参搜索范围内的取值方式支持:平均采样(uniform),非平均采样(quniform), 离散值(choice), 对数平均采样(loguniform),随机整数(randint)五种,超参搜索范围设置过大可能会导致训练时间过长。
        6. CAT模型支持搜索的超参数,已经预置默认搜索范围,详见脚本内容

          超参数说明
          depth决策树的深度
          iterations最大树数
          learning_rate学习率,控制机器学习网络的学习速度,学习率越低,损失函数的 变化速度就越慢,反之亦然
          l2_leaf_regL2正则项,防止模型过拟合
          border_countnumerical features的分割数
        7. LGBM模型支持搜索的超参数,已经预置默认搜索范围,详见脚本内容

          超参数说明
          num_leaves决策树的叶子数
          boosting_typeboosting参数的类型,默认包含"rf", "gbdt", "dart", "goss"
          n_estimators对原始数据集进行有放回抽样生成的子数据集个数,即决策树的个 数,n_estimators太小,容易欠拟合,n_estimators太大,计算量会太大
          max_depth决策树最大深度
          subsample每棵树随机采样的比例
          learning_rate学习率
          colsample_bytree每棵随机采样的列数的占比(每一列是一个特征)
          reg_alphaL1正则项,防止模型过拟合
          reg_lambdaL2正则项,防止模型过拟合
        8. RF模型支持搜索的超参数,已经预置默认搜索范围,详见脚本内容

          超参数说明
          n_estimators对原始数据集进行有放回抽样生成的子数据集个数,即决策树的个 数,n_estimators太小,容易欠拟合,n_estimators太大,计算量会太大
          max_features随机森林允许单个决策树使用特征的最大数量
          max_depth决策树最大深度
          min_samples_split节点可分的最小样本数,少于该数值次叶子节点不再可分
          min_samples_leaf叶子节点上应有的最少样例数,样例数量不符合则不能构成一个叶子节点
          bootstrap是否对样本集进行有放回抽样来构建树
      • 发布模型

        • 自动发布-开:即完成训练后,系统会自动将当前任务得到的模型发布到模型仓库中
        • 自动发布-关:完成训练后,用户可以根据模型精度等再决定是否将模型发布到模型仓库
      • 配置资源

        • 运行环境:请根据数据量以及期望的运行速度进行设置。根据经验值,在建模过程中,数据会在内存中膨胀为原始大小的10倍,为保证任务顺利完成,请尽量确保配置的资源的内存不小于原始数据集的10倍。
        • 选择节点数:只有选择的“分布式”的训练方式才可以设置为大于1的值。
        • 最长训练时间:该时长指算法求解阶段的最长时长,若超过该时长,算法仍未得到结果,系统会强制结束训练任务。

    配置示例如下所示:

    • 基本信息部分:

      • image.png
    • 添加数据部分:

      • image.png
  3. 单击“提交训练任务”,开始执行模型训练。

    提交任务后可以在任务列表中查看任务的执行状态。


这条帮助是否解决了您的问题? 已解决 未解决

提交成功!非常感谢您的反馈,我们会继续努力做到更好! 很抱歉未能解决您的疑问。我们已收到您的反馈意见,同时会及时作出反馈处理!