百度智能云语音识别技术-短语音识别标准版API | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
产品推荐: 1、安全稳定的云服务器租用,2核/2G/5M仅37元,点击抢购>>>; 2、高防物理服务器20核/16G/50M/500G防御仅350元,点击抢购>>> 3、百度智能建站(五合一网站)仅880元/年,点击抢购>>> 模板建站(PC+手机站)仅480元/年,点击抢购>>> 4、阿里云服务器2核2G3M仅99元/年、2核4G5M仅199元/年,新老同享,点击抢购>>> 5、腾讯云服务器2核2G4M仅99元/年、新老同享,点击抢购>>> 点击这里申请百度智能云特邀VIP帐号,立即体验语音技术产品>>> 百度智能云语音识别技术-短语音识别标准版API 在线调试您可以在 示例代码中心 中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。 调用流程
示例Demo代码示例代码见: https://github.com/Baidu-AIP/speech-demo 包含通过bash_shell,C,Java,Python,Php,Postman进行API请求的相关示例demo代码。 格式说明音频格式说明 格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)、m4a(压缩格式)。推荐pcm 采样率 :16000、8000(仅支持普通话模型) 固定值。 编码:16bit 位深的单声道。 百度服务端会将非pcm格式,转为pcm格式,因此使用wav、amr、m4a会有额外的转换耗时。 m4a 格式说明 目前普通版、极速版均支持m4a格式。主要针对微信小程序的录音。 m4a 格式(AAC 编码)
微信小程序录音设置,见 微信官方文档 微信小程序录音参数,请重点关注并 设置 以下必填字段:
请求说明语音数据上传 POST 方式有 2 种:
JSON 方式
由于使用 json 格式, header 为: Content-Type:application/json 注意 由于 base64 编码后,数据会增大 1/3。 RAW方式
由于使用 raw 方式, 采样率和文件格式需要填写在 Content-Type 中 Content-Type: audio/pcm;rate=16000 JSON方式上传音频语音数据和其他参数通过标准 JSON 格式串行化 POST 上传, JSON 里包括的参数:
上传示例 JSON 格式 POST 上传本地文件 固定头部 header Content-Type:application/json 请求示例 POST http://vop.baidu.com/server_api speech 参数填写为 文件内容 base64 后的结果: {
"format":"pcm",
"rate":16000,
"dev_pid":1537,
"channel":1,
"token":xxx,
"cuid":"baidu_workshop",
"len":4096,
"speech":"xxx", // xxx为 base64(FILE_CONTENT)
} 返回示例 {"corpus_no":"6433214037620997779","err_msg":"success.","err_no":0,"result":["北京科技馆,"],"sn":"371191073711497849365"} 注意事项 len 字段表示原始语音大小字节数,不是 base64 编码之后的长度。 RAW 方式上传音频语音数据直接放在 HTTP BODY 中,控制参数以及相关统计信息通过 header 和 url 里参数传递。 Header 参数说明
语音数据的采样率和压缩格式在 HTTP-HEADER 里的 Content-Type 表明,例: Content-Type: audio/pcm;rate=16000 url 参数说明
URL 示例: POST http://vop.baidu.com/server_api?dev_pid=1537&cuid=******&token=1.a6b7dbd428f731035f771b8d********.86400.1292922000-2346678-124328
// 或者使用自训练平台
POST http://vop.baidu.com/server_api?dev_pid=8002&lm_id=1234&cuid=******&token=1.a6b7dbd428f731035f771b8d********.86400.1292922000-2346678-124328 raw 方式测试示例 curl -i -X POST -H "Content-Type: audio/pcm;rate=16000" "http://vop.baidu.com/server_api?dev_pid=1537&cuid=xxxxx&token=1.a6b7dbd428f731035f771b8d********.86400.1292922000-2346678-124328" --data-binary "@/home/test/test.pcm" 识别模型 dev_pid 参数dev_pid 参数列表
请求地址: http://vop.baidu.com/server_api
请求地址: http://vop.baidu.com/server_api
如果您在百度云购买服务器,可以通过内网域名vop.baidubce.com替换vop.baidu.com访问。该域名可免外网流量费用,且返回识别结果速度更快 语音自训练平台语音自训练平台,可使用业务场景文本语料,自助训练语言模型,提升业务领域识别准确率。 语音自训练平台,支持上传自定义的词汇固定搭配、长段句篇来进行结果优化。可以更加直观地查看训练效果,并支持迭代训练。模型上线后需要在请求中,增加对应自定义模型 id(lm_id)字段。 具体功能及使用说明请参考文档 自训练平台手册 自定义词库 自定义词库功能,可对部分专有业务名词进行识别优化。自定义词库在您网页申请的应用内设置(具体位置参见下图)。 自定义词库适合短句,保证词库中一模一样的短句可以被识别出,词库中的分词优先级较高。 自定义词库仅对普通话 dev_pid = 1537 生效,并且原始音频的采用率为 16K 或 8k。最好在 1万 行以内。 返回说明两种上传方式都返回统一的结果,采用 JSON 格式封装,如果识别成功,识别结果放在 JSON 的 “result” 字段中,统一采用 utf-8 方式编码。
识别成功返回 case {"err_no":0,"err_msg":"success.","corpus_no":"15984125203285346378","sn":"481D633F-73BA-726F-49EF-8659ACCC2F3D","result":["北京天气"]} 识别错误返回 case {"err_no":2000,"err_msg":"data empty.","sn":"481D633F-73BA-726F-49EF-8659ACCC2F3D"} |