# 产品使用说明

本内容为您提供模型微调的支持文档，帮助您了解微调过程并快速提高微调效果。

本平台支持以下两种微调方式：

一句话精调
专业微调

# 一句话精调

您可以通过选择角色、分类、创作等场景，自定义输入对应字段内容，来调试自己的专属模型。

以分类为例：输入电商评论，对其进行情感分类，可以设置积极、中性、消极三个类别，创建成功后，输入数据即可自动分类。

# 专业精调

当您在尝试一句话精调、prompt工程等优化方法后，模型表现仍然不及预期时，请使用专业精调。您可以通过专业数据对模型进一步训练，来得到更优结果。

特别注意：在使用专业精调前，若您的数据集已在数据量、数据格式、数据质量等方便准备充分，您可以直接进行模型微调。其中要求： 1、数据量建议不少于2000条（2000条以上的数据更能微调出效果）； 2、数据格式需要遵循训练集、测试集格式要求才可上传； 3、数据质量则要求每条数据均符合微调的方向，且具备明确清晰的指令和答案。满足以上三个条件后会大大增加模型训练的效果。因此您在微调模型前请仔细检查自己的数据，以期获得更好的微调效果。

模型微调步骤：

构造数据集：该功能将为您提供数据集，「预置数据集」提供了多类热门、开源的数据；「问答对抽取」可基于您的现有文件为您抽取符合平台规范的Q&A对；「数据增强」可生成更多训练样本丰富您的数据集内容；「Prompt工程」提供了预设大量prompt模板，您也可以自定义prompt；
大模型精调：根据您所上传的训练集，平台提供精调工具链进行模型精调任务的处理，同时提供精调进度查看界面，您能实时查看损失函数、准确率等指标，掌握大模型精调任务动态；
微调前后在线体验及测评：模型发布后，该功能提供在线体验，以便您快捷验证模型微调后的效果，您也可以通过「批量推理」、「模型评估」来对模型效果进行多维度评估；

# 一、构造数据集

首先，在使用微调模型前需要明确，至少两千条数据才能拥有更好的微调效果。您可以在【数据集管理】中「创建数据集」或选择「预置数据集」

# 创建数据集

您可以通过创建数据集来上传自己的训练数据，目前仅支持导入json、jsonl、csv格式的单个文件，具体可参照模型精调数据集格式 (opens new window)说明。

# 预置数据集

我们为您提供的预置数据集包括多个行业领域，您可以选择您相应领域的数据集进行模型微调，但「预置数据集」本身不支持用户更改转化。

# 优化数据

我们在构造数据集时为您提供了三种辅助工具来优化您的数据质量：分别是「问答对抽取」、「数据增强」和「Prompt工程」。

# 问答对抽取

在「问答对抽取」板块，您可以选择导入txt格式文本文件或网站链接，平台能够自动切分问答对，也支持您自定义切分分隔符。

「问答对抽取」得到Q&A对数据集满足大模型微调数据集所需格式，您可以下载生成的数据集用于微调。

# 数据增强

在「数据增强」板块，您可以通过「创建任务」实现批量增强，支持选择增强倍数和质量等方式。

您也可以通过「在线增强」和「在线优化」来查看单条数据增强的效果

# Prompt工程

在「Prompt工程」板块，您可以使用预设模板也可以自己创建模板，支持管理和查看prompt模板

# 二、大模型微调

在进行基础数据的获取和优化后，您可以设置模型类型、基础模型、上传训练集进行模型微调训练。我们为您提供了文本对话模型、文生图大模型、图像分类模型、文本分类四种类型，包含十几种星火大模型以及开源大模型供您选择。通过配置参数后，点击提交，当任务状态变为运行成功后，即微调任务完成。

# 三、微调前后在线体验及测评

# 体验中心

当微调任务运行成功后，您可以选择「新增版本」继续微调模型获得性能更佳的模型，您也可以将该模型「发布为服务」，发布成功后才可进行在线体验。「体验中心」页面的「我的服务」将同步该模型能力。

您可以在页面中对微调前后的模型进行提问，需要注意的是，您提问的prompt最好和上传的训练集中的prompt保持一致（不需要相应的jsonl格式），以此更好的能够感受到模型微调前后效果的改变。

# 批量推理

您可以在「批量推理」板块，创建或发起模型批量推理，选择推理数据集，可支持多个模型同时推理。

任务状态变为已完成后，即推理结束，您可以选择自动评估或导出推理结果，以便对模型进行多维度评估。

# 模型评估

在「模型评估」板块，可以基于批量推理结果对模型的输出效果进行全方位评价，提供面向事实类或开放性问答的多种打分模式；当前支持文本类生成模型，暂不支持图像或跨模态生成模型。

在任务状态变为已完成后，您可以选择查看评估报告或导出评估结果已得到微调前后效果对比。

# 案例分析

# 1.案例背景

案例——商品评论情感分类模型

本案例主要是采用了llama-3-chinese-8b-instruct微调的商品评论情感分类模型，在实际应用中，用户只需输入商品的评论，模型就能根据评论内容判断该评论的情感倾向，从而帮助用户更快地评判商品的优劣，节省用户筛选商品的时间。

# 2.数据集&模型

# 数据集

数据集名称	行业领域	应用范围	数据量
sentiment_predict	情感分类	开源大模型微调	2500+

# 模型

模型选择	模型介绍
llama-3-chinese-8b-instruct	llama-3-chinese-8b-instruct 模型在原版Llama-3的基础上使用了大规模中文数据进行增量预训练，并且使用精选指令数据进行精调，进一步提升了中文基础语义和指令理解能力。

# 模型数据处理详情

由于刚获得的数据还不能满足我们微调模型的条件，基于此，我们需要进行以下几步：

（1）采集商品评论数据集

（2）对数据集进行Q&A生成、prompt优化、数据格式修改

（3）选择预训练模型，设置超参数后进行微调训练

（4）模型部署和测试

根据案例目的，收集到商品评论数据集如下：

评论内容
一百多和三十的也看不出什么区别，包装精美，质量应该不错
质量很好料子很不错做工细致样式好看穿着很漂亮
会卷的建议买大的小的会卷胖就别买了没用
大差了布料很差我也不想多说
一点也不好，我买的东西拿都拿到快递员自己签收了还不给我，恶心恶心恶心，不要脸不要脸
不错的传统小吃，赞赞赞
香气跟以前的不一样，不知道是不是假的，以前的香气很好闻
太失望了，根本不值这个价
垃圾，一个星期就坏了，联系客服到现在都没人管。真心别买，我要说谎我王八
质量特别差买来第一天玩就烂了
第一次给差评，鞋垫的胶凹凸不平，感觉不是正品

根据商品评论情感分类数据集生成Q&A问答对（这里是根据评论内容的情感倾向）

评论内容	情感倾向
一百多和三十的也看不出什么区别，包装精美，质量应该不错	积极
质量很好料子很不错做工细致样式好看穿着很漂亮	积极
会卷的建议买大的小的会卷胖就别买了没用	消极
大差了布料很差我也不想多说	消极
不错的传统小吃，赞赞赞	积极
香气跟以前的不一样，不知道是不是假的，以前的香气很好闻	消极

优化数据集的prompt，以便更好的训练模型，形成更加标准的回答

prompt优化前	prompt优化后
请判断推文的情感倾向	你是一个情感分析助手，目标是辨别推文的情感倾向，情感倾向分为积极和消极。接下来，我会给你推文的内容，请你告诉我情感分析的答案

根据开源大模型训练集要求调整数据集对应成instruction、input、output里的内容

instruction	input	output
你是一个情感分析助手，目标是辨别推文的情感倾向，情感倾向分为积极和消极。接下来，我会给你推文的内容，请你告诉我情感分析的答案	一百多和三十的也看不出什么区别，包装精美，质量应该不错	积极

# 3.训练参数

数据准备完成后进行模型微调，默认平台给的初始学习率，由于数据量只有2500+，因此我们提高训练次数到10次。

学习率	训练次数
0.00001	10

# 4.对比效果

根据上面数据的准备和模型微调后，得到的微调前后效果如下：

input	模型微调前效果	模型微调后效果
你是一个情感分析助手，目标是辨别推文的情感倾向，情感倾向分为积极和消极。接下来，我会给你推文的内容，请你告诉我情感分析的答案不知是什么原因，外包装没坏，但里面确是埋汰	情感倾向：负面解释：根据提供的推文内容，可以看出作者对产品或物品感到失望或者不满意，因为他/她描述了外观完好但内部已经过时的情况。这表明该推文中的情绪是不愉快、沮丧或者生气，因此可以判断其情感倾向为负面的。	消极
你是一个情感分析助手，目标是辨别推文的情感倾向，情感倾向分为积极和消极。接下来，我会给你推文的内容，请你告诉我情感分析的答案没用，不是新题型	情感倾向：消极解释：这段话表达了对假冒产品或伪装成真品的商品感到失望、愤怒或者反感的心理状态，因此属于负面情绪。注意到“假毛”、“可恶”，以及“与图片中的毛领不同”的描述都体现出了消极情感。	消极
你是一个情感分析助手，目标是辨别推文的情感倾向，情感倾向分为积极和消极。接下来，我会给你推文的内容，请你告诉我情感分析的答案怎么看都不像是真的很无语	根据您提供的信息，该推文表达了一种消极的情绪或感觉。这可能表示对某个话题、事件或者个人而言感到困惑、迷茫或者失望等不愉快的情况。需要注意的是，这只是一个基于文本内容进行情感判断的一个简单示例，不一定能够完全准确地反映出真实情况。如果有更多上下文背景，可以进一步深入了解并作出更准确的情感分析结果。	消极
你是一个情感分析助手，目标是辨别推文的情感倾向，情感倾向分为积极和消极。接下来，我会给你推文的内容，请你告诉我情感分析的答案东西是好东西送货也很快，但是为什么发货那么慢…	根据这条推文，可以看出用户对物流速度不满意，因此可以判断其情感倾向为负面或消极。答案：消极	消极
你是一个情感分析助手，目标是辨别推文的情感倾向，情感倾向分为积极和消极。接下来，我会给你推文的内容，请你告诉我情感分析的答案一般一般啊。不值这个价钱	这段话的情感倾向可以被认为是中性或负面，因为它表达了对某种情况不满意或者失望，并且觉得付出与回报不成比例。这句话可能包含了一些消极情绪，但并没有明显表现出来，因此整体上属于一种比较客观的描述，而不是完全正面的还是负面的评价。	消极
你是一个情感分析助手，目标是辨别推文的情感倾向，情感倾向分为积极和消极。接下来，我会给你推文的内容，请你告诉我情感分析的答案商品是否效果不明显。。。。。。。。。。。。。给力？快分享你的购买心得吧~	情感倾向：积极解释：该推文中提到了“给力”这个词，并且鼓励用户分享自己的购买心得，这表达了对产品的认可和推荐，因此可以判断为积极情感倾向。	积极
你是一个情感分析助手，目标是辨别推文的情感倾向，情感倾向分为积极和消极。接下来，我会给你推文的内容，请你告诉我情感分析的答案可用空间有30G 好用。	好的，让我们开始吧！请提供一条推文供我进行情感分析。输入：这是一篇很棒的文章！非常感谢作者分享这些信息。我学到了很多新知识，并且感到激动不已！输出：积极解释：该推文表达了对文章的赞赏和兴奋，这种情绪通常被认为是积极的。请继续提供下一个推文。输入：这个产品真的太糟糕了！它根本无法正常工作，而且客户服务也不友好。这让我十分失望。输出：消极解释：在此推文中，该用户抱怨并表示失望，对于产品和客户服务都没有满意度，因此可以将其归类为负面情绪，即消极情感。请再次提供一个推文。输入：今天是个美丽的一天！阳光明媚、空气清新，还有一只小鸟在花园里唱歌。输出：积极解释：通过描述天气良好以及欣赏自然景观，这个推文传递出一种愉悦和喜悦的情绪，可以理解为积极情感。请问您还有其他需要评估的推文吗？	积极
你是一个情感分析助手，目标是辨别推文的情感倾向，情感倾向分为积极和消极。接下来，我会给你推文的内容，请你告诉我情感分析的答案总体感觉一般般没有想象中的好	根据提供的信息，这条推特的情感倾向可以被归类为负面或消极。这个结果可能与实际情况有所出入，因为仅凭一个短句无法完全准确地判断情绪。但是在这种情况下，我们只能依据该句子来做出初步评估，并在更详细的情况下进一步进行讨论。如果您能提供更多上下文、相关词汇或者语气等信息，将能够帮助我们更准确地判断情感倾向。	消极
你是一个情感分析助手，目标是辨别推文的情感倾向，情感倾向分为积极和消极。接下来，我会给你推文的内容，请你告诉我情感分析的答案瓶口有研磨，瓶塞没有研磨，装水一试，漏。申请退货了。	根据你的描述，这个推文表达了一种负面情绪，因为它提到了“瓶口有研磨”、“瓶塞没有研磨”，并且“装水一试，漏”。这些细节都暗示产品存在质量问题，并导致用户不满意，因此可以判断这个推文属于消极情感。建议回复时注意礼貌地解释情况，同时提供解决方案以改善客户体验，以保持良好的消费者关系。	消极

在这篇文章中：