实时语音转写_实时语音识别服务-讯飞开放平台

星火API星火API正式开放商用，最高1000万tokens免费领！有奖调研诚邀您参与用户调研，填写问卷即有机会获取定制精品礼包，期待您的意见！

产品优势

快速响应，毫秒级返回

对于音频流实现毫秒级识别，并返回带有时间戳的文字流，便于二次开发

实时翻译，覆盖更多场景

支持中文与英、日、俄、韩、法、西、越、等多语种互译，覆盖国际常用语种，广泛用于国际赛事直播、跨语种会议等场景

多方言，多语种

支持8大语种、12种方言和2个民族语言的实时转写，同时支持中文与多个小语种之间的互译，可满足复杂语言环境的场景需求

语义理解，智能纠错

针对上下文进行语义理解，将中间结果进行智能纠错，确保识别的高准确率

个性热词，效果优化

无需算法开发，简单上传常用词句。优化识别效果，提高专业用语识别准确率

格式转化，标点智能预测

对数字、日期、时间等返回格式化文本，根据对话语境，智能断句并匹配标点符号

应用场景

视频直播字幕

将视频、国际赛事直播等场景中的音频实时转换成文字，用于实时字幕展示，提升直播效果

实时会议记录

将视频、电话会议场景中每个人的语音实时记录并翻译，防止错过重要内容，准确高效输出多语种会议记录素材

跨国交流

在各种国际交流场景中，实时展示各角色发言内容并翻译，打破语言交流障碍，让跨国沟通变得更轻松更简单

智能外呼&客服

将客服通话记录实时转成文字，用于电话质检和客户信息同步，也为数据挖掘提供原料

产品价格

新用户礼包

个人开发者和企业开发者免费使用

时长

最高50小时

有效期

一年

方言/语种

中英文

套餐一

按时长套餐计费

时长

20小时

有效期

一年

方言/语种

中英文

套餐二

按时长套餐计费

时长

200小时

有效期

一年

方言/语种

中英文

套餐三

按时长套餐计费，赠送3个方言/语种

时长

1000小时

有效期

一年

方言/语种

额外赠送3个

套餐四

按时长套餐计费，赠送5个方言/语种

时长

3000小时

有效期

一年

方言/语种

额外赠送5个

套餐五

按时长套餐计费，赠送5个方言/语种

时长

1万小时

有效期

一年

方言/语种

额外赠送5个

实时翻译

实时语音识别时，同时给出翻译语种文本结果

有效期

一年

试用

免费试用15天

使用方式

更改接口传参，详见开发文档

商务定制

有特殊环境或功能需求的客户

私有化部署

个性化功能

专属并发

定制方言/语种

大量采购

商务优惠

温馨提示：

1、默认支持中文、英文、中英混合识别；购买套餐三可领取3个方言/语种，购买套餐四、五可领取5个方言/语种；购买套餐后，可在控制台领取所需方言/语种；购买多个套餐的情况下，赠送的方言/语种数量不叠加；

2、购买实时翻译套餐包后，可实现中文与英语、日语、韩语、俄语、法语、西班牙语、越南语以及粤语方言的互译；

3、购买时长套餐，默认支持50路并发，若需要更多并发或者一次性购买量较大，可进行商务合作申请；

4、后台计量系统将根据使用情况，以秒为单位向上取整，进行使用量扣除；

5、如您是无编程基础的个人用户，可前往讯飞听见官网使用

实时语音转写方言语种

方言

语种

民族语言

语种	价格	购买

广东话	5000元20000元	立即购买
河南话	5000元20000元	立即购买
西南官话（云贵川渝）	5000元20000元	立即购买

语种	价格	购买

广东话	5000元20000元	立即购买
河南话	5000元20000元	立即购买
西南官话（云贵川渝）	5000元20000元	立即购买

语种	价格	购买

广东话	5000元20000元	立即购买
河南话	5000元20000元	立即购买
西南官话（云贵川渝）	5000元20000元	立即购买

类型

温馨提示：

1、默认支持中文（普通话、天津话、河北话、东北话、甘肃话、山东话、太原话）、英文、中英混合识别；

2、西南官话包含云南话、贵州话、重庆话、四川话；

3、购买时长套餐，可在控制台领取方言/语种；藏语和维语不参与套餐赠送。

技术规格

输入

接口输入规格

形式：

已录制音频

声道：

单声道

支持格式：

pcm

采样率：

16KHz

采样精度：

16bit

输出

接口输出规格

形式：

JSON格式字符串

编码：

UTF-8

结果：

分词形式&完整句子形式，词&句置信息度词&句时间戳，词属性，多候选词，文法格式智能转换，多发音人分离

注：

1、文法格式智能转换包括电话号码、车牌、日期、时间以及量词的规整，如“五点三十”引擎会识别规整为“5:30”。

2、词属性包括：普通词；语气犹豫词，如“嗯”、“啊”、“呃”或者无意义的重复词等；标点符号，如“，”等。

开发者资源

WebAPI

可直接调用的WebAPI接口，具备流式传输能力，具备轻量、跨平台的特点

常见问题

1、“已录制音频转写”和“实时音频流转写”的区别是？

已录制音频（recorded audio）转写：将预先录制完毕的完整音频文件传输至云端，转写服务处理完成后将输出此音频对应的完整文字结果。该流程为异步&非实时；

实时音频流（real-time streaming）转写：在采集音频的同时，连续上传音频流至云端，转写服务将实时返回文字结果，实现文字和声音的同步展现。

2、实时语音转写支持什么语言？

答：默认支持中文（包括普通话、天津话、河北话、东北话、甘肃话、山东话、太原话）、英文、中英混合识别；其他方言/语种需购买套餐或语种授权。目前可支持：

l 方言：广东话、河南话、西南官话（云南话、贵州话、重庆话、四川话）

l 语种：英语、日语、韩语、法语、俄语、越南语、西班牙语

l 民族语言：藏语、维语

3、购买翻译套餐后，支持哪些语种相互翻译？

开通翻译功能后，可实现中文与日语、韩语、俄语、韩语、法语、西班牙语、越南语之间的互译，同时支持中文普通话与粤语方言互译

4、实时语音转写支持的音频时长有什么限制？

实时语音转写可以实时识别持续的音频流，结果是实时返回，音频流长度理论上不做限制，典型的应用场景是要求展示实时字幕的会议或直播。

5、实时语音转写的分片时长40ms是什么意思？

可以理解为上传的间隔为40ms，建议音频流每40ms向服务器发送1280字节，发送过快可能导致引擎出错，音频发送间隔超时时间为15s，超时服务端报错并主动断开连接。

售前在线咨询

技术支持

专属客服

论坛交流

;

专属技术支持

搜索

在线

咨询

建议

反馈

体验

中心

加入官方社群

意见反馈

产品推荐

星火认知大模型

手写文字识别

人脸识别

智能翻译

AI招聘

讯飞飞签

企业数字化

机器人客服

体验中心

热门AI技术，扫码体验