# 语音评测suntone API 文档

# 接口说明

• 语音评测suntone是基于智能语音分析技术，自动对发音水平、发音错误、缺陷定位和问题分析的能力接口。

• 部分开发语言demo如下，其他开发语言请参照文档进行开发，也欢迎热心的开发者到讯飞开放平台社区 (opens new window) 分享你们的demo。
语音评测suntone demo java语言 (opens new window)
语音评测suntone demo python语言 (opens new window)

• 集成语音评测suntoneAPI时，需按照以下要求：

内容	说明
请求协议	ws[s]（为提高安全性，强烈推荐wss）
请求地址	中文评测：ws(s): //cn-east-1.ws-api.xf-yun.com/v1/private/s8e098720 其他语种评测：ws(s): //cn-east-1.ws-api.xf-yun.com/v1/private/sffc17cdb
请求行	中文评测：GET /v1/private/s8e098720 HTTP/1.1 其他语种评测：GET /v1/private/sffc17cdb HTTP/1.1
接口鉴权	签名机制，详情请参照下方鉴权说明
字符编码	UTF-8
响应格式	统一采用JSON格式
音频属性	采样率16/8k、位长16/8bit、单声道
音频格式	mp3、speex、speex-wb
音频大小	base64编码后不得超过10M
语言种类	中文、日语、韩语、法语、德语、俄语、西班牙语

# 鉴权说明

在调用业务接口时，请求方需要对请求进行签名，服务端通过签名来校验请求的合法性。通过在请求地址后面加上鉴权相关参数的方式，参数具体如下：示例url：

wss://cn-east-1.ws-api.xf-yun.com/v1/private/s8e098720?host=cn-east-1.ws-api.xf-yun.com&date=Tue%2C+16+Aug+2022+08%3A28%3A38+GMT&authorization=YXBpX2tleT0iYXBpa2V5WFhYWFhYWFhYWFhYWFhYWFhYWFhYWFhYWFgiLCBhbGdvcml0aG09ImhtYWMtc2hhMjU2IiwgaGVhZGVycz0iaG9zdCBkYXRlIHJlcXVlc3QtbGluZSIsIHNpZ25hdHVyZT0iS3NIa2xFWWJ2Y0hiYldLSnpDQ1J2aEZnSXl1VkowTEcxczVNQ04vMDJzWT0i

鉴权参数：

参数	类型	必须	说明	示例
host	string	是	请求主机	cn-east-1.ws-api.xf-yun.com
date	string	是	当前时间戳，RFC1123格式("EEE, dd MMM yyyy HH:mm:ss z")	Tue, 16 Aug 2022 08:28:38 GMT
authorization	string	是	使用base64编码的签名相关信息(签名基于hamc-sha256计算)	参考下方详细生成规则

• date参数生成规则：

date必须是UTC+0或GMT时区，RFC1123格式(Tue, 16 Aug 2022 08:28:38 GMT)。
服务端会对date进行时钟偏移检查，最大允许300秒的偏差，超出偏差的请求都将被拒绝。

• authorization参数生成格式：

1）获取接口密钥APIKey 和 APISecret。
在讯飞开放平台控制台，创建一个应用后打开语音评测页面可以获取，均为32位字符串。
2）参数authorization base64编码前（authorization_origin）的格式如下。

api_key="$api_key",algorithm="hmac-sha256",headers="host date request-line",signature="$signature"

其中 api_key 是在控制台获取的APIKey，algorithm 是加密算法（仅支持hmac-sha256），headers 是参与签名的参数（见下方注释）。
signature 是使用加密算法对参与签名的参数签名后并使用base64编码的字符串，详见下方。

注： headers是参与签名的参数，请注意是固定的参数名（"host date request-line"），而非这些参数的值。

3）signature的原始字段(signature_origin)规则如下。

signature原始字段由 host，date，request-line三个参数按照格式拼接成，
拼接的格式为(\n为换行符,’:’后面有一个空格)：

host: $host\ndate: $date\n$request-line

假设

请求url =  wss://cn-east-1.ws-api.xf-yun.com/v1/private/s8e098720
date = "Tue, 16 Aug 2022 08:28:38 GMT"

那么 signature原始字段(signature_origin)则为：

host: cn-east-1.ws-api.xf-yun.com
date: Tue, 16 Aug 2022 08:28:38 GMT
GET /v1/private/s8e098720 HTTP/1.1

4）使用hmac-sha256算法结合apiSecret对signature_origin签名，获得签名后的摘要signature_sha。

signature_sha=hmac-sha256(signature_origin,$apiSecret)

其中 apiSecret 是在控制台获取的APISecret

5）使用base64编码对signature_sha进行编码获得最终的signature。

signature=base64(signature_sha)

假设

APISecret = "apisecretXXXXXXXXXXXXXXXXXXXXXXX"	
date = "Tue, 16 Aug 2022 08:28:38 GMT"

则signature为

signature="KsHklEYbvcHbbWKJzCCRvhFgIyuVJ0LG1s5MCN/02sY="

6）根据以上信息拼接authorization base64编码前（authorization_origin）的字符串，示例如下。

api_key="apikeyXXXXXXXXXXXXXXXXXXXXXXXXXX", algorithm="hmac-sha256", headers="host date request-line", signature="KsHklEYbvcHbbWKJzCCRvhFgIyuVJ0LG1s5MCN/02sY="

注： headers是参与签名的参数，请注意是固定的参数名（"host date request-line"），而非这些参数的值。

7）最后再对authorization_origin进行base64编码获得最终的authorization参数。

authorization = base64(authorization_origin)
示例结果为：
authorization=YXBpX2tleT0iYXBpa2V5WFhYWFhYWFhYWFhYWFhYWFhYWFhYWFhYWFgiLCBhbGdvcml0aG09ImhtYWMtc2hhMjU2IiwgaGVhZGVycz0iaG9zdCBkYXRlIHJlcXVlc3QtbGluZSIsIHNpZ25hdHVyZT0iS3NIa2xFWWJ2Y0hiYldLSnpDQ1J2aEZnSXl1VkowTEcxczVNQ04vMDJzWT0i

# 鉴权结果

如果鉴权失败，则根据不同错误类型返回不同HTTP Code状态码，同时携带错误描述信息，详细错误说明如下：

HTTP Code	说明	错误描述信息	解决方法
401	缺少authorization参数	{"message":"Unauthorized"}	检查是否有authorization参数，详情见authorization参数详细生成规则
401	签名参数解析失败	{“message”:”HMAC signature cannot be verified”}	检查签名的各个参数是否有缺失是否正确，特别确认下复制的api_key是否正确
401	签名校验失败	{“message”:”HMAC signature does not match”}	签名验证失败，可能原因有很多。 1. 检查api_key,api_secret 是否正确。 2.检查计算签名的参数host，date，request-line是否按照协议要求拼接。 3. 检查signature签名的base64长度是否正常(正常44个字节) 。
403	时钟偏移校验失败	{“message”:”HMAC signature cannot be verified, a valid date or x-date header is required for HMAC Authentication”}	检查服务器时间是否标准，相差5分钟以上会报此错误

时钟偏移校验失败示例：

HTTP/1.1 403 Forbidden
Date: Mon, 30 Nov 2020 02:34:33 GMT
Content-Length: 116
Content-Type: text/plain; charset=utf-8
{
    "message": "HMAC signature does not match, a valid date or x-date header is required for HMAC Authentication"
}

# 请求参数

在调用业务接口时，都需要配置以下参数，请求数据均为json字符串。
请求参数示例：

{
	"header": {
		"app_id": "123456",
		"status": 0
	},
	"parameter": {
		"st": {
			"lang": "cn",
			"core": "para",
			"refText": "您好，欢迎来到科大讯飞。",
			"result": {
				"encoding": "utf8",
				"compress": "raw",
				"format": "plain"
			}
		}
	},
	"payload": {
		"data": {
			"encoding": "lame",
			"sample_rate": 16000,
			"channels": 1,
			"bit_depth": 16,
			"status": 0,
			"seq": 0,
			"audio": "O8L/5LpzMJAMg......",
			"frame_size": 0
		}
	}
}

请求参数说明：

参数名	类型	必传	描述
header	Object	是	协议头部，用于描述平台特性的参数
header.app_id	string	是	在平台申请的app id信息
header.status	int	是	请求状态，可选值为： 0-开始 1-继续 2-结束
parameter	Object	是	AI 特性参数，用于控制 AI 引擎特性的开关
parameter.st	Object	是	服务别名
parameter.st.lang	string	是	评测语种 cn:中文 kr:韩语 fr:法语 de:德语 ru:俄语 sp:西班牙语 jp:日语注：中文评测与其他语种评测请求地址不一样，使用其他语种评测时需要更改请求地址
parameter.st.core	string	是	评测类型 word:字 sent:句子 para:段落
parameter.st.refText	string	是	参考文本，最小长度:1，最大长度:4096。可以传指定发音，如： "我们的会{kuai4}计会{hui4}给你的" 注： 1、使用这种方式传拼音的时候拼音必须紧跟着中文，拼音左侧不能是非中文，如不能传“会&{kuai4}” 2、指定发音不能和refPinyin 一起使用，优先级reftext>customized_lexicon）
parameter.st.getParam	int	否	返回结果是否含请求参数，可选值： 0-不返回 1-返回
parameter.st.dict_type	string	否	自定义音标显示 (仅日语评测的单词、句子评测支持该参数)，origin以原始音素显示，hiragana以片假名显示(默认)
parameter.st.attachAudioUrl	int	否	返回结果是否含音频下载地址，可选值： 0-不包含 1-包含
parameter.st.vad	int	否	是否启用VAD，可选值： 0-关闭 1-开启
parameter.st.seek	int	否	仅支持vad的sdk，设置后防止没声音立即返回结束说话的状态，单位 10ms，最小值:0，最大值:120 注意：仅在开启vad的时候有效。
parameter.st.ref_length	int	否	仅支持vad的sdk，设置后防止seek检测到停止说话提前返回停止录音的状态，单位 10ms，最小值:0，最大值:120 注意：仅在开启vad的时候有效
parameter.st.phoneme_output	int	否	返回结果是否含音素维度(段落模式不支持)，可选值： 0-关闭 1-打开
parameter.st.slack	float	否	打分松紧度，最小值: -1，最大值: 1
parameter.st.scale	int	否	分制，最小值: 0，最大值: 100
parameter.st.precision	float	否	得分精度，最小值: 0，最大值: 1
parameter.st.customized_lexicon	string	否	指定特定字的期望发音，支持直接用声调显示或者数字显示声调，可选值： 1：第一声 2：第二声 3：第三声 4：第四声 5：轻声如： "customized_lexicon":"{\"会\":[\"hui3\"]}" “customized_lexicon":{\"会\": [\"huì\"]} “customized_lexicon":{\ "会@1\": [\"hui4\"], "\ 会@2 \": [\ "kuai4 \"]} （@后面跟数字表示文本中的第几个“会”字，这几种写法优先级有@的高）注：refPinyin和customized_lexicon不能同时使用
parameter.st.refPinyin	string	否	参考拼音，reftext (不指定发音) 和refPinyin可以同时传入，或只传refText，或只传refPinyin，且reftext不能传空值。同时传入需要reftext和refPinyin一一对应，如：（1）只传refPinyin，支持数字写法和声调写法两种：如 "refPinyin":"ni3 hao3"或者"refPinyin":"nǐ hǎo" （2）同时传refText跟refPinyin，只支持数字写法：如 "refPinyin":"ni3 hao3"，"refText":"你好" 注：同时传入reftext和refPinyin时，refPinyin只支持拼音+数字的写法，不支持加声调
parameter.st.output_rawtext	int	否	保留标点符号(句子和段落模式下可用)，可选值： 0-关闭 1-打开
parameter.st.realtime_feedback	int	否	支持评测结果实时反馈(仅支持句子模式下可用)，可选值： 0-关闭 1-打开
parameter.st.paragraph_need_word_score	int	否	返回结果是否含单词维度(仅段落模式下可用)，可选值:1、0 (默认)
parameter.st.result	Object	是	响应数据
parameter.st.result.encoding	string	否	文本编码，可选值： utf8 (默认)、gb2312
parameter.st.result.compress	string	否	文本压缩格式，可选值：raw、gzip
parameter.st.result.format	string	否	文本格式，可选值：plain、json、 xml
payload	Object	是	输入数据段，携带请求的数据
payload.data	Object	是	输入数据
payload.data.encoding	string	否	音频编码，可选值： lame、speex、speex-wb (默认) 注：speex格式仅支持标准开源的speex，不支持讯飞定制的speex
payload.data.sample_rate	int	否	采样率，可选值： 16000、8000
payload.data.channels	int	否	声道数，可选值： 1
payload.data.bit_depth	int	否	位深，可选值： 16 (默认)、8
payload.data.status	int	是	数据状态，可选值： 0-开始 1-开始 2-结束
payload.data.seq	int	否	数据序号，最小值:0，最大值:9999999
payload.data.audio	string	是	音频数据，base64编码后不得超过10M
payload.data.frame_size	int	否	帧大小，最小值:0 (默认)，最大值:1024

# 返回结果

如出现错误码，可到这里 (opens new window) 查询。
返回参数示例：

{
	"header": {
		"code": 0,
		"message": "success",
		"sid": "ase000f44d2@hu1809374610f05c2882",
		"status": 2
	},
	"payload": {
		"result": {
			"text": "eyJkdExhc3RS......",
			"seq": 1,
			"format": "plain",
			"encoding": "utf8",
			"compress": "raw",
			"status": 2
		}
	}
}

返回参数说明：

参数名	类型	描述
header	Object	协议头部，用于描述平台特性的参数
header.code	int	返回码，0表示成功，其它表示异常
header.message	string	错误描述
header.sid	string	本次会话的id
header.status	int	响应状态
payload	Object	数据段，携带响应的数据
payload.result	Object	输出数据
payload.result.text	string	响应结果，采用base64编码
payload.result.seq	int	数据序号
payload.result.format	string	文本格式
payload.result.encoding	string	文本编码
payload.result.compress	string	文本压缩格式
payload.result.status	int	数据状态

text字段base64解码示例（core = sent）：

{
	"refText": "您好，欢迎来到科大讯飞。",
	"tokenId": "xfst",
	"result": {
		"words": [{
			"span": {
				"end": 23,
				"start": 0
			},
			"charType": 0,
			"word": "您",
			"phonemes": [{
				"span": {
					"end": 17,
					"start": 0
				},
				"tone_index": "0",
				"phone": "n",
				"pronunciation": 94,
				"phoneme": "N"
			}, {
				"span": {
					"end": 23,
					"start": 17
				},
				"tone_index": "1",
				"phone": "in",
				"pronunciation": 100,
				"phoneme": "IN"
			}],
			"pinyin": "nin",
			"tone": "tone2",
			"readType": 2,
			"pause": {
				"duration": 0,
				"type": 0
			},
			"scores": {
				"tone": 100,
				"pronunciation": 97,
				"prominence": 1,
				"overall": 97
			}
		}, {
			"span": {
				"end": 52,
				"start": 23
			},
			"charType": 0,
			"word": "好",
			"phonemes": [{
				"span": {
					"end": 33,
					"start": 23
				},
				"tone_index": "0",
				"phone": "h",
				"pronunciation": 100,
				"phoneme": "H"
			}, {
				"span": {
					"end": 52,
					"start": 33
				},
				"tone_index": "1",
				"phone": "ao",
				"pronunciation": 100,
				"phoneme": "AO"
			}],
			"pinyin": "hao",
			"tone": "tone3",
			"readType": 0,
			"pause": {
				"duration": 0,
				"type": 0
			},
			"scores": {
				"tone": 100,
				"pronunciation": 100,
				"prominence": 0,
				"overall": 100
			}
		}, {
			"span": {
				"end": 84,
				"start": 64
			},
			"charType": 0,
			"word": "欢",
			"phonemes": [{
				"span": {
					"end": 78,
					"start": 64
				},
				"tone_index": "0",
				"phone": "h",
				"pronunciation": 98,
				"phoneme": "H"
			}, {
				"span": {
					"end": 84,
					"start": 78
				},
				"tone_index": "2",
				"phone": "uan",
				"pronunciation": 100,
				"phoneme": "UAN"
			}],
			"pinyin": "huan",
			"tone": "tone1",
			"readType": 0,
			"pause": {
				"duration": 12,
				"type": 1
			},
			"scores": {
				"tone": 100,
				"pronunciation": 99,
				"prominence": 1,
				"overall": 99
			}
		}, {
			"span": {
				"end": 94,
				"start": 84
			},
			"charType": 0,
			"word": "迎",
			"phonemes": [{
				"span": {
					"end": 89,
					"start": 84
				},
				"tone_index": "0",
				"phone": "y",
				"pronunciation": 100,
				"phoneme": "II"
			}, {
				"span": {
					"end": 94,
					"start": 89
				},
				"tone_index": "1",
				"phone": "ing",
				"pronunciation": 97,
				"phoneme": "ING"
			}],
			"pinyin": "ying",
			"tone": "tone2",
			"readType": 0,
			"pause": {
				"duration": 0,
				"type": 0
			},
			"scores": {
				"tone": 69,
				"pronunciation": 99,
				"prominence": 1,
				"overall": 99
			}
		}, {
			"span": {
				"end": 112,
				"start": 94
			},
			"charType": 0,
			"word": "来",
			"phonemes": [{
				"span": {
					"end": 101,
					"start": 94
				},
				"tone_index": "0",
				"phone": "l",
				"pronunciation": 100,
				"phoneme": "L"
			}, {
				"span": {
					"end": 112,
					"start": 101
				},
				"tone_index": "1",
				"phone": "ai",
				"pronunciation": 100,
				"phoneme": "AI"
			}],
			"pinyin": "lai",
			"tone": "tone2",
			"readType": 0,
			"pause": {
				"duration": 0,
				"type": 0
			},
			"scores": {
				"tone": 100,
				"pronunciation": 100,
				"prominence": 1,
				"overall": 100
			}
		}, {
			"span": {
				"end": 130,
				"start": 112
			},
			"charType": 0,
			"word": "到",
			"phonemes": [{
				"span": {
					"end": 119,
					"start": 112
				},
				"tone_index": "0",
				"phone": "d",
				"pronunciation": 100,
				"phoneme": "D"
			}, {
				"span": {
					"end": 130,
					"start": 119
				},
				"tone_index": "1",
				"phone": "ao",
				"pronunciation": 100,
				"phoneme": "AO"
			}],
			"pinyin": "dao",
			"tone": "tone4",
			"readType": 0,
			"pause": {
				"duration": 0,
				"type": 0
			},
			"scores": {
				"tone": 100,
				"pronunciation": 100,
				"prominence": 1,
				"overall": 100
			}
		}, {
			"span": {
				"end": 149,
				"start": 130
			},
			"charType": 0,
			"word": "科",
			"phonemes": [{
				"span": {
					"end": 145,
					"start": 130
				},
				"tone_index": "0",
				"phone": "k",
				"pronunciation": 100,
				"phoneme": "K"
			}, {
				"span": {
					"end": 149,
					"start": 145
				},
				"tone_index": "1",
				"phone": "e",
				"pronunciation": 100,
				"phoneme": "E"
			}],
			"pinyin": "ke",
			"tone": "tone1",
			"readType": 1,
			"pause": {
				"duration": 0,
				"type": 0
			},
			"scores": {
				"tone": 100,
				"pronunciation": 100,
				"prominence": 1,
				"overall": 100
			}
		}, {
			"span": {
				"end": 163,
				"start": 149
			},
			"charType": 0,
			"word": "大",
			"phonemes": [{
				"span": {
					"end": 155,
					"start": 149
				},
				"tone_index": "0",
				"phone": "d",
				"pronunciation": 100,
				"phoneme": "D"
			}, {
				"span": {
					"end": 163,
					"start": 155
				},
				"tone_index": "1",
				"phone": "a",
				"pronunciation": 100,
				"phoneme": "A"
			}],
			"pinyin": "da",
			"tone": "tone4",
			"readType": 1,
			"pause": {
				"duration": 0,
				"type": 0
			},
			"scores": {
				"tone": 67,
				"pronunciation": 100,
				"prominence": 1,
				"overall": 100
			}
		}, {
			"span": {
				"end": 184,
				"start": 163
			},
			"charType": 0,
			"word": "讯",
			"phonemes": [{
				"span": {
					"end": 177,
					"start": 163
				},
				"tone_index": "0",
				"phone": "x",
				"pronunciation": 100,
				"phoneme": "X"
			}, {
				"span": {
					"end": 184,
					"start": 177
				},
				"tone_index": "1",
				"phone": "un",
				"pronunciation": 100,
				"phoneme": "VN"
			}],
			"pinyin": "xun",
			"tone": "tone4",
			"readType": 0,
			"pause": {
				"duration": 0,
				"type": 0
			},
			"scores": {
				"tone": 100,
				"pronunciation": 100,
				"prominence": 1,
				"overall": 100
			}
		}, {
			"span": {
				"end": 221,
				"start": 184
			},
			"charType": 0,
			"word": "飞",
			"phonemes": [{
				"span": {
					"end": 194,
					"start": 184
				},
				"tone_index": "0",
				"phone": "f",
				"pronunciation": 100,
				"phoneme": "F"
			}, {
				"span": {
					"end": 221,
					"start": 194
				},
				"tone_index": "1",
				"phone": "ei",
				"pronunciation": 100,
				"phoneme": "EI"
			}],
			"pinyin": "fei",
			"tone": "tone1",
			"readType": 0,
			"pause": {
				"duration": 0,
				"type": 0
			},
			"scores": {
				"tone": 100,
				"pronunciation": 100,
				"prominence": 0,
				"overall": 100
			}
		}],
		"tone": 94,
		"pronunciation": 100,
		"kernel_version": "1.8.2",
		"overall": 89,
		"integrity": 100,
		"rhythm": 53,
		"rear_tone": "rise",
		"speed": 271,
		"resource_version": "1.4.3",
		"fluency": 95,
		"duration": "10.260",
		"warning": [{
			"message": "Audio noisy!",
			"code": 1004
		}]
	},
	"applicationId": "16357353960000ba",
	"dtLastResponse": "2022-05-11 15:16:58:875",
	"eof": 1,
	"recordId": "627b62ea4aa5c2200001566d"
}

text字段参数说明：

参数名	类型	描述
eof	int	结果标识，0：中间结果，1：最终结果
tokenId	string	终端用户请求id
applicationId	string	appKey
refText	string	参考信息
recordId	string	评分唯一id
audioUrl	string	音频文件地址注：需开启attachAudioUrl
params	Object	请求参数注：需开启getParam
params.app.timestamp	string	当前时间戳
params.app.applicationId	string	appkey
params.app.userId	string	用户标识
params.app.sig	string	评分校验码
params.audio.audioType	string	音频格式
params.audio.sampleRate	int	音频的采样率
params.audio.sampleByte	int	音频的采样字节
params.audio.channel	int	音频声道
result	Object	评分结果

result字段参数说明：
1、单词评测 core = word

参数名	类型	描述
tone	int / float	声调得分
warning	array	忽略
overall	int / float	总分
duration	string	音频时长
pronunciation	int / float	发音得分若 precision(精度)设置为浮点型时，该值显示为浮点型(若该值小数点后为 0，则显示成整型) 若scale(分制)设置为(0,1)，该值显示为浮点型，否则为整型
kernel_version	string	内核版本
resource_version	string	资源版本
words	array	汉字
words.charType	int	0：非标点符号，1：标点符号
words.word	string	汉字
words.tone	string	发音声调 tone1：第一声 tone2：第二声 tone3：第三声 tone4：第四声 tone5：轻声
words.scores	object	汉字拆分成音标得分详情
words.scores.overall	int / float	汉字总分若 precision(精度)设置为浮点型时，该值显示为浮点型(若该值小数点后为 0，则显示成整型) 若scale(分制)设置为(0,1)，该值显示为浮点型，否则为整型
words.scores.pronunciation	int / float	发音得分若 precision(精度)设置为浮点型时，该值显示为浮点型(若该值小数点后为 0，则显示成整型) 若scale(分制)设置为(0,1)，该值显示为浮点型，否则为整型
words.scores.tone	int / float	声调得分
words.readType	int	0:正常读，1:增读，3:重复读，4:错读
words.pinyin	string	拼音
words.span	object	汉字在音轨上的时间范围
words.span.end	int	汉字在音轨上的结束时间，单位10ms
words.span.start	int	汉字在音轨上的开始时间，单位10ms
words.phonemes	array	音素信息注：需要开启 phoneme_output
words.phonemes.pronunciation	int / float	音素发音得分若 precision(精度)设置为浮点型时，该值显示为浮点型(若该值小数点后为 0，则显示成整型) 若scale(分制)设置为(0,1)，该值显示为浮点型，否则为整型
words.phonemes.phoneme	string	音素的发音
words.phonemes.span	int	音素在音轨上的时间
words.phonemes.span.end	int	音素在音轨上的结束时间，单位10ms
words.phonemes.span.start	int	音素在音轨上的开始时间，单位10ms
words.phonemes.phone	string	用于对应原始音标的中文音标
words.phonemes.tone_index	string	用于标注声调的位置，0:无声音，起始位置为1

2、句子评测 core = sent

参数名	类型	描述
fluency	int / float	流利度若 precision(精度)设置为浮点型时，该值显示为浮点型(若该值小数点后为 0，则显示成整型) 若scale(分制)设置为(0,1)，该值显示为浮点型，否则为整型
duration	string	音频时长
kernel_version	string	内核版本
rear_tone	string	句末语调 rise：升调，fall：降调
speed	int	语速
integrity	int / float	完整度若 precision(精度)设置为浮点型时，该值显示为浮点型(若该值小数点后为 0，则显示成整型) 若scale(分制)设置为(0,1)，该值显示为浮点型，否则为整型
pronunciation	int / float	发音得分若 precision(精度)设置为浮点型时，该值显示为浮点型(若该值小数点后为 0，则显示成整型) 若scale(分制)设置为(0,1)，该值显示为浮点型，否则为整型
overall	int / float	总分若 precision(精度)设置为浮点型时，该值显示为浮点型(若该值小数点后为 0，则显示成整型) 若scale(分制)设置为(0,1)，该值显示为浮点型，否则为整型
resource_version	string	资源版本
rhythm	int / float	韵律度得分若 precision(精度)设置为浮点型时，该值显示为浮点型(若该值小数点后为 0，则显示成整型) 若scale(分制)设置为(0,1)，该值显示为浮点型，否则为整型
warning	array	可忽略
tone	int / float	声调得分
words	Object	各汉字得分
words.scores	Object	句子中的汉字得分情况若 precision(精度)设置为浮点型时，该值显示为浮点型(若该值小数点后为 0，则显示成整型) 若scale(分制)设置为(0,1)，该值显示为浮点型，否则为整型
words.scores.prominence	int	汉字重读，0 ：非重读，1：重读
words.scores.overall	int / float	总分若 precision(精度)设置为浮点型时，该值显示为浮点型(若该值小数点后为 0，则显示成整型) 若scale(分制)设置为(0,1)，该值显示为浮点型，否则为整型
words.scores.pronunciation	int / float	句子中的汉字发音得分若 precision(精度)设置为浮点型时，该值显示为浮点型(若该值小数点后为 0，则显示成整型) 若scale(分制)设置为(0,1)，该值显示为浮点型，否则为整型
words.scores.tone	int / float	句子中汉字的声调得分
words.span	Object	汉字在音轨上的时间范围
words.span.span	int	音素在音轨上的时间
words.span.phoneme	string	音素在音轨上的时间
words.span.pronunciation	int / float	音素发音得分若 precision(精度)设置为浮点型时，该值显示为浮点型(若该值小数点后为 0，则显示成整型) 若scale(分制)设置为(0,1)，该值显示为浮点型，否则为整型
words.word	string	汉字或者标点符号（output_rawtext 开启的时候会显示标点符号）
words.charType	int	0：非标点符号，1：标点符号
words.phonemes	array	音素信息，需要开启 phoneme_output
words.phonemes.span	int	音素在音轨上的时间
words.phonemes.span.end	int	音素在音轨上的结束时间，单位10ms
words.phonemes.span.start	int	音素在音轨上的开始时间，单位10ms
words.phonemes.phoneme	string	音素的发音
words.phonemes.pronunciation	int / float	音素发音得分若 precision(精度)设置为浮点型时，该值显示为浮点型(若该值小数点后为 0，则显示成整型) 若scale(分制)设置为(0,1)，该值显示为浮点型，否则为整型
words.phonemes.tone_index	string	用于标注声调的位置，0: 无声音，起始位置为1
words.phonemes.phone	string	用于对应原始音标的中文音标
words.tone	string	发音声调 tone1：第一声 tone2：第二声 tone3：第三声 tone4：第四声 tone5：轻声
words.readType	int	0: 正常读，1: 当前字前面有插入情况，2: 漏读
words.pinyin	string	拼音
words.pause	Object	停顿检测
words.pause.type	int	1: 停顿，0: 未停顿
words.pause.duration	int	停顿时间，单位10ms

3、段落评测 core = para

参数名	类型	描述
fluency	int / float	流利度若 precision (精度) 设置为浮点型时，该值显示为浮点型 (若该值小数点后为 0，则显示成整型) 若scale (分制) 设置为 (0,1) ，该值显示为浮点型，否则为整型
duration	string	音频时长
kernel_version	string	内核版本
speed	int	语速
integrity	int / float	完整度若 precision (精度) 设置为浮点型时，该值显示为浮点型 (若该值小数点后为 0，则显示成整型) 若scale (分制) 设置为 (0,1) ，该值显示为浮点型，否则为整型
overall	int / float	总分若 precision (精度) 设置为浮点型时，该值显示为浮点型 (若该值小数点后为 0，则显示成整型) 若scale (分制) 设置为 (0,1) ，该值显示为浮点型，否则为整型
resource_version	string	资源版本
rhythm	int / float	韵律度得分若 precision (精度) 设置为浮点型时，该值显示为浮点型 (若该值小数点后为 0，则显示成整型) 若scale (分制) 设置为 (0,1) ，该值显示为浮点型，否则为整型
warning	array	可忽略
tone	int / float	声调得分
sentences	array	段落信息
sentences.prominence	int	句子中单词重读，0: 非重读，1: 重读
sentences.charType	int	0：非标点符号，1：标点符号
sentences.overall	int / float	句子单词的总分若 precision (精度) 设置为浮点型时，该值显示为浮点型 (若该值小数点后为 0，则显示成整型) 若scale (分制) 设置为 (0,1) ，该值显示为浮点型，否则为整型
sentences.word	string	句子中的单词
sentences.start	int	句子中单词开始在音轨上的时间
sentences.end	int	句子中单词结束在音轨上的时间
sentences.tone	int / float	声调得分若 precision (精度) 设置为浮点型时，该值显示为浮点型 (若该值小数点后为 0，则显示成整型) 若scale (分制) 设置为 (0,1) ，该值显示为浮点型，否则为整型
sentences.readType	int	0：正常读，1：当前字前面有插入情况，2：漏读
sentences.pinyin	string	句子汉字的拼音
pronunciation	int / float	发音得分若 precision (精度) 设置为浮点型时，该值显示为浮点型 (若该值小数点后为 0，则显示成整型) 若scale (分制) 设置为 (0,1) ，该值显示为浮点型，否则为整型

# 常见问题

# 语音评测的主要功能是什么？

答：通过智能语音技术自动对发音水平进行评价、发音错误、缺陷定位和问题分析的能力接口。

# 语音评测支持生成什么音频格式？

答：目前支持采样率16/8k、位长16/8bit、单声道的mp3或speex格式的音频。

# 语音评测支持什么应用平台？

答：目前支持WebAPI应用平台。

在这篇文章中：