207
云计算
负载均衡
产品简介
产品价格
快速入门
用户指南
实践操作
常见问题
购买指南
云服务器
产品简介
计费规则
购买指导
控制台使用指南
常见问题
云数据库
产品简介
计费规则
购买指导
快速入门
连接实例
控制台使用指南
对象存储
产品简介
控制台使用指南
程序员百科
Python
百度智能云语音识别技术-短语音识别标准版API

产品推荐:

1、安全稳定的云服务器租用,2核/2G/5M仅37元,点击抢购>>>

2、高防物理服务器20核/16G/50M/500G防御仅350元,点击抢购>>>

3、百度智能建站(五合一网站)仅880元/年,点击抢购>>> 模板建站(PC+手机站)仅480元/年,点击抢购>>>

4、阿里云服务器2核2G3M仅99元/年、2核4G5M仅199元/年,新老同享,点击抢购>>> 

5、腾讯云服务器2核2G4M仅99元/年、新老同享,点击抢购>>>   



点击这里点击这里申请百度智能云特邀VIP帐号,立即体验语音技术产品>>>

百度智能云语音识别技术-短语音识别标准版API

在线调试

您可以在 示例代码中心 中调试该接口,可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

调用流程

  1. 创建账号及应用: 在 ai.baidu.com 控制台中,创建应用,勾选开通 ”语音技术“-”短语音识别、短语音识别极速版“ 能力。获取AppID、API Key、Secret Key,并通过请求鉴权接口换取 token ,详细见 “接入指南”。
  2. 创建识别请求: POST 方式,音频可通过 JSON 和 RAW 两种方式提交。JSON 方式音频数据由于 base64 编码,数据会增大1/3。其他填写具体请求参数 ,详见 ”请求说明“。
  3. 短语音识别请求地址: https://vop.baidu.com/server_api
  4. 返回识别结果:识别结果会即刻返回,采用 JSON 格式封装,如果识别成功,识别结果放在 JSON 的 “result” 字段中,统一采用 utf-8 方式编码。详见 ”返回说明“。

示例Demo代码

示例代码见: https://github.com/Baidu-AIP/speech-demo

包含通过bash_shell,C,Java,Python,Php,Postman进行API请求的相关示例demo代码。

格式说明

音频格式说明

格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)、m4a(压缩格式)。推荐pcm 采样率 :16000、8000(仅支持普通话模型) 固定值。 编码:16bit 位深的单声道。

百度服务端会将非pcm格式,转为pcm格式,因此使用wav、amr、m4a会有额外的转换耗时。

m4a 格式说明

目前普通版、极速版均支持m4a格式。主要针对微信小程序的录音。

m4a 格式(AAC 编码)

  1. 仅支持单声道
  2. 采样率支持 16000、8000(仅支持普通话模型)
  3. CBR bitrates 24000-96000,推荐 48000
  4. 仅支持 AAC-LC, 不支持 例如 HE-AAC ,LD,ELD 等
  5. brand 仅支持 mp42:0, mini Version 0, 不支持 M4A

微信小程序录音设置,见 微信官方文档

微信小程序录音参数,请重点关注并 设置 以下必填字段:

属性类型默认值必填说明
durationnumber60000百度语音restapi最大支持 60s,即这个值不能超过60000
sampleRatenumber16000可设为16000或8000
numberOfChannelsnumber1比如设为1,单声道
encodeBitRatenumber48000默认值即可,建议48000,可设为24000-96000。该值越大的话,生成文件越大
formatstringaac默认值即可,只支持aac,不支持mp3


请求说明

语音数据上传 POST 方式有 2 种:

  1. JSON 格式 POST 上传本地音频文件。
  2. RAW 格式 POST 上传本地音频文件。

JSON 方式

  • 音频文件,读取二进制内容后,进行 base64 编码后放在 speech 参数内。
  • 音频文件的原始大小, 即二进制内容的字节数,填写 “len” 字段

由于使用 json 格式, header 为:

Content-Type:application/json

注意 由于 base64 编码后,数据会增大 1/3。

RAW方式

  • 音频文件,读取二进制内容后,直接放在 body 中。
  • Content-Length 的值即为音频文件的大小。(一般代码会自动生成)。

由于使用 raw 方式, 采样率和文件格式需要填写在 Content-Type 中

Content-Type: audio/pcm;rate=16000


JSON方式上传音频

语音数据和其他参数通过标准 JSON 格式串行化 POST 上传, JSON 里包括的参数:

字段名类型可需描述
formatstring必填语音文件的格式,pcm/wav/amr/m4a。不区分大小写。推荐pcm文件
rateint必填采样率,16000、8000,固定值
channelint必填声道数,仅支持单声道,请填写固定值 1
cuidstring必填用户唯一标识,用来区分用户,计算UV值。建议填写能区分用户的机器 MAC 地址或 IMEI 码,长度为60字符以内。
tokenstring必填开放平台获取到的开发者[access_token]获取 Access Token "access_token")
dev_pidint选填不填写lan参数生效,都不填写,默认1537(普通话 输入法模型),见本节识别模型dev_pid参数
lm_idint选填自训练平台模型id,填dev_pid = 1537生效
lanstring选填,废弃参数历史兼容参数,已不再使用
speechstring必填本地语音文件的二进制语音数据 ,需要进行base64 编码。与len参数连一起使用。
lenint必填本地语音文件的的字节数,单位字节

上传示例

JSON 格式 POST 上传本地文件

固定头部 header

Content-Type:application/json

请求示例

POST http://vop.baidu.com/server_api

speech 参数填写为 文件内容 base64 后的结果:

{
    "format":"pcm",
    "rate":16000,
    "dev_pid":1537,
    "channel":1,
    "token":xxx,
    "cuid":"baidu_workshop",
    "len":4096,
    "speech":"xxx", // xxx为 base64(FILE_CONTENT)
}

返回示例

{"corpus_no":"6433214037620997779","err_msg":"success.","err_no":0,"result":["北京科技馆,"],"sn":"371191073711497849365"}

注意事项

len 字段表示原始语音大小字节数,不是 base64 编码之后的长度。


RAW 方式上传音频

语音数据直接放在 HTTP BODY 中,控制参数以及相关统计信息通过 header 和 url 里参数传递。

Header 参数说明

字段名数据类型可需描述
formatstring(格式见下面示例)必填语音格式,pcm/wav/amr/(m4a仅支持极速版)。不区分大小写,推荐使用pcm文件
rateint(格式见下面示例)必填采样率 16000、8000, 固定值

语音数据的采样率和压缩格式在 HTTP-HEADER 里的 Content-Type 表明,例:

Content-Type: audio/pcm;rate=16000

url 参数说明

字段名可需描述
cuid必填用户唯一标识,用来区分用户,计算 UV 值。建议填写能区分用户的机器 MAC 地址或 IMEI 码,长度为 60 字符以内。
token必填开放平台获取到的开发者 [access_token] 获取 Access Token "access_token")
dev_pid选填不填写 lan 参数生效,都不填写,默认 1537(普通话 输入法模型),见本节识别模型dev_pid参数
lm_idint选填
lan选填,废弃参数历史兼容参数,已不再使用。

URL 示例:

POST http://vop.baidu.com/server_api?dev_pid=1537&cuid=******&token=1.a6b7dbd428f731035f771b8d********.86400.1292922000-2346678-124328

// 或者使用自训练平台

POST http://vop.baidu.com/server_api?dev_pid=8002&lm_id=1234&cuid=******&token=1.a6b7dbd428f731035f771b8d********.86400.1292922000-2346678-124328

raw 方式测试示例

curl -i -X POST -H "Content-Type: audio/pcm;rate=16000" "http://vop.baidu.com/server_api?dev_pid=1537&cuid=xxxxx&token=1.a6b7dbd428f731035f771b8d********.86400.1292922000-2346678-124328" --data-binary "@/home/test/test.pcm"

识别模型 dev_pid 参数

dev_pid 参数列表

  • 短语音识别

请求地址: http://vop.baidu.com/server_api

dev_pid语言模型是否有标点备注
1537普通话(纯中文识别)语音近场识别模型有标点支持自定义词库
1737英语英语模型无标点不支持自定义词库
1637粤语粤语模型有标点不支持自定义词库
1837四川话四川话模型有标点不支持自定义词库
1936普通话远场远场模型有标点不支持自定义词库
  • 自训练平台

请求地址: http://vop.baidu.com/server_api

dev_pid语言模型是否有标点备注
自训练平台获取中文普通话输入法模型有逗号使用自训练平台训练,不需要自定义词库

如果您在百度云购买服务器,可以通过内网域名vop.baidubce.com替换vop.baidu.com访问。该域名可免外网流量费用,且返回识别结果速度更快


语音自训练平台

语音自训练平台,可使用业务场景文本语料,自助训练语言模型,提升业务领域识别准确率。

语音自训练平台,支持上传自定义的词汇固定搭配、长段句篇来进行结果优化。可以更加直观地查看训练效果,并支持迭代训练。模型上线后需要在请求中,增加对应自定义模型 id(lm_id)字段。

具体功能及使用说明请参考文档 自训练平台手册

自定义词库

自定义词库功能,可对部分专有业务名词进行识别优化。自定义词库在您网页申请的应用内设置(具体位置参见下图)。

自定义词库适合短句,保证词库中一模一样的短句可以被识别出,词库中的分词优先级较高。 自定义词库仅对普通话 dev_pid = 1537 生效,并且原始音频的采用率为 16K 或 8k。最好在 1万 行以内。


返回说明

两种上传方式都返回统一的结果,采用 JSON 格式封装,如果识别成功,识别结果放在 JSON 的 “result” 字段中,统一采用 utf-8 方式编码。

字段名数据类型可需描述
err_noint必填错误码
err_msgstring必填错误码描述
snstring必填语音数据唯一标识,系统内部产生。如果反馈及 debug 请提供 sn。

识别成功返回 case

{"err_no":0,"err_msg":"success.","corpus_no":"15984125203285346378","sn":"481D633F-73BA-726F-49EF-8659ACCC2F3D","result":["北京天气"]}

识别错误返回 case

{"err_no":2000,"err_msg":"data empty.","sn":"481D633F-73BA-726F-49EF-8659ACCC2F3D"}


这条帮助是否解决了您的问题? 已解决 未解决

提交成功!非常感谢您的反馈,我们会继续努力做到更好! 很抱歉未能解决您的疑问。我们已收到您的反馈意见,同时会及时作出反馈处理!