# Token 概念

模型服务用量的一个重要概念是 token。在调用模型推理服务时，会将输入内容进行分词（tokenize），转化为模型可以理解的 token ，经过模型处理后，同样输出 token，并转化为您需要的文本或者其他内容载体。而模型处理（包括输入、输出）的 token 数量会被作为模型推理服务用量的一个重要计量单位。
如语言大模型推理服务费用的一种较为常见的计算方式如下：
费用 = token 使用数量 * token 单价

由于不同模型采用的分词策略不同，同一段文本可能会被转化为不同数量的 token。

# 模型价格

请以 https://training.xfyun.cn/account 以及实际购买页价格为准。

# 在线推理

# 按 token 使用量付费（后付费）

出账时间：每小时出账。
付款类型：按量后付费。
推理服务（输出）：包含模型输出的内容，包括模型返回信息里输出（content字段）以及深度模型的思维链（reasoning_content字段）内容。

# 按模型单元付费

算力资源：独占的算力资源。
售卖方式：按小时售。

# 模型精调

按 token 使用量（训练文本＊训练迭代次数）计费，训练完成后出账，按量后付费。
参考 https://training.xfyun.cn/account ，实际购买价格以下单页面为准。

# 余额不足提醒与欠费处理

# 余额不足提醒

根据实际的输入及输出总和tokens数量，系统每1小时扣费一次，针对4个节点（您的余额小于等于之前3小时的消费金额、您开始欠费、您欠费时长达到1小时、您欠费时长超出2小时缓冲期）给您发送短信提示，请您收到短信后及时前往平台确认余额并充值。

# 欠费处理

欠费后您开通付费的产品将进入欠费状态，平台给您2小时缓冲期，过期后，请求系统将不再响应。

# 其它说明

# 速率限制

用户Tokens用量付费受到接口调用速率限制。速率限制包含QPS和并发路数的形式，旨在限制单位时间段内用户访问推理API的次数和消耗的tokens数。目前统一支持并发20路。

在这篇文章中：