百度智能云语音识别技术API文档简介 |
产品推荐: 1、安全稳定的云服务器租用,2核/2G/5M仅37元,点击抢购>>>; 2、高防物理服务器20核/16G/50M/500G防御仅350元,点击抢购>>> 3、百度智能建站(五合一网站)仅880元/年,点击抢购>>> 模板建站(PC+手机站)仅480元/年,点击抢购>>> 4、阿里云服务器2核2G3M仅99元/年、2核4G5M仅199元/年,新老同享,点击抢购>>> 5、腾讯云服务器2核2G4M仅99元/年、新老同享,点击抢购>>> 点击这里申请百度智能云特邀VIP帐号,立即体验语音技术产品>>> 百度智能云语音识别技术API文档简介 短语音识别标准版-产品概述百度短语音识别可以将 60 秒以下的音频识别为文字。适用于语音对话、语音控制、语音输入等场景。
产品价格短语音识别标准版支持按调用量后付费及次数包。按用量后付费按每月累计调用量阶梯计价。次数包为预付费,一年内有效,价格更优惠。详情见产品定价文档 语言及模型支持支持中文普通话(能识别简单的常用英语)、英语、粤语、四川话识别。通过在请求时配置不同的pid参数,选择对应模型,详见 请求说明dev-pid参数表格 语音识别模型自训练如果您在应用语音识别能力时,有行业专有名词,如金融、医疗、餐饮、地产、制造等行业术语,无法准确识别。推荐使用语音自训练平台,可以上传词汇和长文本进行模型训练,以及根据业务发展迭代不断训练。 平台使用手册 调用短语音识别标准版版API,添加训练模型ID即可生效。 短语音识别极速版-产品概述将60秒以内的完整音频文件识别为文字,专有GPU服务集群,识别响应速度较标准版API提升2倍及识别准确率提升15%。适用于近场短语音交互,如手机语音搜索、聊天输入等场景。 支持上传完整的录音文件,录音文件时长不超过60秒。实时返回识别结果 产品价格短语音识别极速版支持按调用量后付费及次数包。按用量后付费按每月累计调用量阶梯计价。次数包为预付费,一年内有效,价格更优惠。详情见产品定价文档 语言及模型支持百度短语音识别极速版提供极速版模型1个模型(仅支持中文普通话,暂时不支持其他方言及英语)。识别速度更快,识别效果更好。支持智能标点,可以识别简单的常用英语语句。 可通过设置dev_pid参数选择模型。点击查看详细参数 语音识别模型自训练如果您在应用语音识别能力时,有行业专有名词,如金融、医疗、餐饮、地产、制造等行业术语,无法准确识别。推荐使用语音自训练平台,可以上传词汇和长文本进行模型训练,以及根据业务发展迭代不断训练。 平台使用手册 调用短语音识别极速版API,添加训练模型ID即可生效。 实时语音识别websocket-产品概述实时语音识别接口采用websocket协议的连接方式,边上传音频边获取识别结果。可以将音频流实时识别为文字,也可以上传音频文件进行识别;返回结果包含每句话的开始和结束时间,适用于长句语音输入、音视频字幕、直播质检、会议记录等场景。 两种输入格式
调用不限编程语言,只要能发送websocket请求即可,推荐在服务器上调用。 接入步骤如下: 接入步骤1-创建账号:参考文档 接入步骤2-进行接口调用:实时语音识别支持websocket协议,API方式调用。具体调用流程查看 参考文档 产品价格实时语音识别支持按调用时长后付费及时长包。按用量后付费按固定时长单价计价。时长包为预付费,一年内有效,价格更优惠。详情见产品定价文档 语言及模型支持支持中文普通话、音视频字幕(中文)识别模型;支持英语识别模型 音频格式目前只支持pcm格式的原始音频数据, 16000采样率, 单声道,16bits,小端序。 目前api限制一次音频时长不超过1小时。 音频内容为:清晰的真人发音,无背景音或其它噪音,日常用语。 录音环境百度语音识别要求安静的环境,真人的正常语速的日常用语,并且不能多个人同时发音。 以下场景讲会导致识别效果变差,错误,甚至没有结果:
以下场景的录音可能没有正确的识别结果:
建议先收集一定数量的真实环境测试集,按照测试集评估及反馈。 支持语音自训练平台模型训练实时语音识别接口支持在语音自训练平台上对中文普通话模型进行训练,可以调用训练后模型。立即训练 调用说明 优势 -与RestApi对比实时识别api相比RestApi, 具有客户端边上传,服务端边识别的优势。 但需要使用Webscoket库,相比http库而言,略微复杂, 如果是小于60s的录音文件,请选择rest api
如果是实时录音,请选择实时语音识别api 如果录音都是10s,两种api的大致流程如下 restapi http协议: 0.0s:--> 开始发起请求-->0.3s 发送完整录音文件到百度服务器 --> 3.0s: 接收返回结果 实时语音识别api WebSocket协议:
0.0s: 【连接】发起WebSocket请求
0.1s: 【连接】连接建立
0.1s: 【发送开始参数帧】发送鉴权及识别参数
0.1s-0.2s: 【本地】录制100ms的录音
0.2s: 【发送音频数据帧】发送上面100ms的录音数据到百度服务器
0.2s-0.3s: 【本地】录制100ms的录音
0.3s: 【发送音频数据帧】发送上面100ms的录音数据到百度服务器
.....
1.2s-1.3s: 【本地】录制100ms的录音
1.3s: 【发送音频数据帧】发送上面100ms的录音数据到百度服务器
1.31s:【接收结果】收到0s-1s这段语音的一句话临时识别结果
...
4.2-4.3s: 【本地】录制100ms的录音
4.3s: 【发送音频数据帧】发送上面100ms的录音数据到百度服务器
4.39s:【接收结果】收到0s-4.1s这段语音的一句话最终识别结果
...
9.9s-10.0s: 【本地】录制100ms的录音
10.0s: 【发送音频数据帧】发送上面100ms的录音数据到百度服务器
10.0s: 【发送结束帧】 告知服务端音频结束
10.3s:【接收结果】收到7.1-10.0 这段语音的一句话最终识别结果 以100ms作为录音片段举例,实际建议160ms 其他呼叫中心及客服场景,语音识别模型不同(音频采样率为8000),可使用在该场景识别率更高的商用产品呼叫中心语音解决方案(点击使用)。 音频文件转写-产品概述音频文件转写接口可以将大批量的音频文件异步转写为文字。适合音视频字幕生产、批量录音质检、会议内容总结、录音内容分析等场景,一般12小时内返回识别接口。接入步骤如下:
产品价格实时语音识别支持按调用时长后付费及时长包。按用量后付费按固定时长单价计价。时长包为预付费,一年内有效,价格更优惠。详情见产品定价文档 语言及模型支持支持中文普通话、音视频字幕(中文)识别模型;支持英语识别模型 语音字幕服务-产品概述AI助力音视频字幕智能生产,基于海量数据和先进算法,打造音视频场景专属模型,识别准确率高达98%,并支持智能分析标点、断句,准确匹配时间轴,助力字幕生产降本增效。接入步骤如下:
产品价格实时语音识别支持按调用时长后付费及时长包。按用量后付费按固定时长单价计价。时长包为预付费,一年内有效,价格更优惠。详情见产品定价文档 语言及模型支持支持包含简单英文的中文普通话,音视频字幕(中文)模型 |