# 产品使用说明
本内容为您提供模型微调的支持文档,帮助您了解微调过程并快速提高微调效果。
本平台支持以下两种微调方式:
- 一句话精调
- 专业微调
# 一句话精调
您可以通过选择角色、分类、创作等场景,自定义输入对应字段内容,来调试自己的专属模型。
以分类为例:输入电商评论,对其进行情感分类,可以设置积极、中性、消极三个类别,创建成功后,输入数据即可自动分类。
# 专业精调
当您在尝试一句话精调、prompt工程等优化方法后,模型表现仍然不及预期时,请使用专业精调。您可以通过专业数据对模型进一步训练,来得到更优结果。
特别注意:在使用专业精调前,若您的数据集已在数据量、数据格式、数据质量等方便准备充分,您可以直接进行模型微调。其中要求: 1、数据量建议不少于2000条(2000条以上的数据更能微调出效果); 2、数据格式需要遵循训练集、测试集格式要求才可上传; 3、数据质量则要求每条数据均符合微调的方向,且具备明确清晰的指令和答案。满足以上三个条件后会大大增加模型训练的效果。因此您在微调模型前请仔细检查自己的数据,以期获得更好的微调效果。
模型微调步骤:
构造数据集:该功能将为您提供数据集,「预置数据集」提供了多类热门、开源的数据;「问答对抽取」可基于您的现有文件为您抽取符合平台规范的Q&A对;「数据增强」可生成更多训练样本丰富您的数据集内容;「Prompt工程」提供了预设大量prompt模板,您也可以自定义prompt;
大模型精调:根据您所上传的训练集,平台提供精调工具链进行模型精调任务的处理,同时提供精调进度查看界面,您能实时查看损失函数、准确率等指标,掌握大模型精调任务动态;
微调前后在线体验及测评:模型发布后,该功能提供在线体验,以便您快捷验证模型微调后的效果,您也可以通过「批量推理」、「模型评估」来对模型效果进行多维度评估;
# 一、构造数据集
首先,在使用微调模型前需要明确,至少两千条数据才能拥有更好的微调效果。您可以在【数据集管理】中「创建数据集」或选择「预置数据集」
# 创建数据集
您可以通过创建数据集来上传自己的训练数据,目前仅支持导入json、jsonl、csv格式的单个文件,具体可参照模型精调数据集格式 (opens new window)说明。
# 预置数据集
我们为您提供的预置数据集包括多个行业领域,您可以选择您相应领域的数据集进行模型微调,但「预置数据集」本身不支持用户更改转化。
# 优化数据
我们在构造数据集时为您提供了三种辅助工具来优化您的数据质量:分别是「问答对抽取」、「数据增强」和「Prompt工程」。
# 问答对抽取
在「问答对抽取」板块,您可以选择导入txt格式文本文件或网站链接,平台能够自动切分问答对,也支持您自定义切分分隔符。
「问答对抽取」得到Q&A对数据集满足大模型微调数据集所需格式,您可以下载生成的数据集用于微调。
# 数据增强
在「数据增强」板块,您可以通过「创建任务」实现批量增强,支持选择增强倍数和质量等方式。
您也可以通过「在线增强」和「在线优化」来查看单条数据增强的效果
# Prompt工程
在「Prompt工程」板块,您可以使用预设模板也可以自己创建模板,支持管理和查看prompt模板
# 二、大模型微调
在进行基础数据的获取和优化后,您可以设置模型类型、基础模型、上传训练集进行模型微调训练。我们为您提供了文本对话模型、文生图大模型、图像分类模型、文本分类四种类型,包含十几种星火大模型以及开源大模型供您选择。通过配置参数后,点击提交
,当任务状态变为运行成功
后,即微调任务完成。
# 三、微调前后在线体验及测评
# 体验中心
当微调任务运行成功后,您可以选择「新增版本」继续微调模型获得性能更佳的模型,您也可以将该模型「发布为服务」,发布成功后才可进行在线体验。「体验中心」页面的「我的服务」将同步该模型能力。
您可以在页面中对微调前后的模型进行提问,需要注意的是,您提问的prompt最好和上传的训练集中的prompt保持一致(不需要相应的jsonl格式),以此更好的能够感受到模型微调前后效果的改变。
# 批量推理
您可以在「批量推理」板块,创建或发起模型批量推理,选择推理数据集,可支持多个模型同时推理。
任务状态变为已完成
后,即推理结束,您可以选择自动评估或导出推理结果,以便对模型进行多维度评估。
# 模型评估
在「模型评估」板块,可以基于批量推理结果对模型的输出效果进行全方位评价,提供面向事实类或开放性问答的多种打分模式;当前支持文本类生成模型,暂不支持图像或跨模态生成模型。
在任务状态变为已完成
后,您可以选择查看评估报告或导出评估结果已得到微调前后效果对比。
# 案例分析
# 1.案例背景
案例——商品评论情感分类模型
本案例主要是采用了llama-3-chinese-8b-instruct微调的商品评论情感分类模型,在实际应用中,用户只需输入商品的评论,模型就能根据评论内容判断该评论的情感倾向,从而帮助用户更快地评判商品的优劣,节省用户筛选商品的时间。
# 2.数据集&模型
# 数据集
数据集名称 | 行业领域 | 应用范围 | 数据量 |
---|---|---|---|
sentiment_predict | 情感分类 | 开源大模型微调 | 2500+ |
# 模型
模型选择 | 模型介绍 |
---|---|
llama-3-chinese-8b-instruct | llama-3-chinese-8b-instruct 模型在原版Llama-3的基础上使用了大规模中文数据进行增量预训练,并且使用精选指令数据进行精调,进一步提升了中文基础语义和指令理解能力。 |
# 模型数据处理详情
由于刚获得的数据还不能满足我们微调模型的条件,基于此,我们需要进行以下几步:
(1)采集商品评论数据集
(2)对数据集进行Q&A生成、prompt优化、数据格式修改
(3)选择预训练模型,设置超参数后进行微调训练
(4)模型部署和测试
根据案例目的,收集到商品评论数据集如下:
评论内容 |
---|
一百多和三十的也看不出什么区别,包装精美,质量应该不错 |
质量很好 料子很不错 做工细致 样式好看 穿着很漂亮 |
会卷的 建议买大的小的会卷 胖就别买了 没用 |
大差了 布料很差 我也不想多说 |
一点也不好,我买的东西拿都拿到快递员自己签收了还不给我,恶心恶心恶心,不要脸不要脸 |
不错的传统小吃,赞赞赞 |
香气跟以前的不一样,不知道是不是假的,以前的香气很好闻 |
太失望了,根本不值这个价 |
垃圾,一个星期就坏了,联系客服到现在都没人管。真心别买,我要说谎我王八 |
质量特别差买来第一天玩就烂了 |
第一次给差评,鞋垫的胶凹凸不平,感觉不是正品 |
根据商品评论情感分类数据集生成Q&A问答对(这里是根据评论内容的情感倾向)
评论内容 | 情感倾向 |
---|---|
一百多和三十的也看不出什么区别,包装精美,质量应该不错 | 积极 |
质量很好 料子很不错 做工细致 样式好看 穿着很漂亮 | 积极 |
会卷的 建议买大的小的会卷 胖就别买了 没用 | 消极 |
大差了 布料很差 我也不想多说 | 消极 |
不错的传统小吃,赞赞赞 | 积极 |
香气跟以前的不一样,不知道是不是假的,以前的香气很好闻 | 消极 |
优化数据集的prompt,以便更好的训练模型,形成更加标准的回答
prompt优化前 | prompt优化后 |
---|---|
请判断推文的情感倾向 | 你是一个情感分析助手,目标是辨别推文的情感倾向,情感倾向分为积极和消极。接下来,我会给你推文的内容,请你告诉我情感分析的答案 |
根据开源大模型训练集要求调整数据集对应成instruction、input、output里的内容
instruction | input | output |
---|---|---|
你是一个情感分析助手,目标是辨别推文的情感倾向,情感倾向分为积极和消极。接下来,我会给你推文的内容,请你告诉我情感分析的答案 | 一百多和三十的也看不出什么区别,包装精美,质量应该不错 | 积极 |
# 3.训练参数
数据准备完成后进行模型微调,默认平台给的初始学习率,由于数据量只有2500+,因此我们提高训练次数到10次。
学习率 | 训练次数 |
---|---|
0.00001 | 10 |
# 4.对比效果
根据上面数据的准备和模型微调后,得到的微调前后效果如下:
input | 模型微调前效果 | 模型微调后效果 |
---|---|---|
你是一个情感分析助手,目标是辨别推文的情感倾向,情感倾向分为积极和消极。接下来,我会给你推文的内容,请你告诉我情感分析的答案不知是什么原因,外包装没坏,但里面确是埋汰 | 情感倾向:负面 解释: 根据提供的推文内容,可以看出作者对产品或物品感到失望或者不满意,因为他/她描述了外观完好但内部已经过时的情况。这表明该推文中的情绪是不愉快、沮丧或者生气,因此可以判断其情感倾向为负面的。 | 消极 |
你是一个情感分析助手,目标是辨别推文的情感倾向,情感倾向分为积极和消极。接下来,我会给你推文的内容,请你告诉我情感分析的答案没用,不是新题型 | 情感倾向:消极 解释:这段话表达了对假冒产品或伪装成真品的商品感到失望、愤怒或者反感的心理状态,因此属于负面情绪。 注意到“假毛”、“可恶”,以及“与图片中的毛领不同”的描述都体现出了消极情感。 | 消极 |
你是一个情感分析助手,目标是辨别推文的情感倾向,情感倾向分为积极和消极。接下来,我会给你推文的内容,请你告诉我情感分析的答案怎么看都不像是真的 很无语 | 根据您提供的信息,该推文表达了一种消极的情绪或感觉。这可能表示对某个话题、事件或者个人而言感到困惑、迷茫或者失望等不愉快的情况。需要注意的是,这只是一个基于文本内容进行情感判断的一个简单示例,不一定能够完全准确地反映出真实情况。如果有更多上下文背景,可以进一步深入了解并作出更准确的情感分析结果。 | 消极 |
你是一个情感分析助手,目标是辨别推文的情感倾向,情感倾向分为积极和消极。接下来,我会给你推文的内容,请你告诉我情感分析的答案东西是好东西送货也很快,但是为什么发货那么慢… | 根据这条推文,可以看出用户对物流速度不满意,因此可以判断其情感倾向为负面或消极。 答案:消极 | 消极 |
你是一个情感分析助手,目标是辨别推文的情感倾向,情感倾向分为积极和消极。接下来,我会给你推文的内容,请你告诉我情感分析的答案一般一般啊。不值这个价钱 | 这段话的情感倾向可以被认为是中性或负面,因为它表达了对某种情况不满意或者失望,并且觉得付出与回报不成比例。这句话可能包含了一些消极情绪,但并没有明显表现出来,因此整体上属于一种比较客观的描述,而不是完全正面的还是负面的评价。 | 消极 |
你是一个情感分析助手,目标是辨别推文的情感倾向,情感倾向分为积极和消极。接下来,我会给你推文的内容,请你告诉我情感分析的答案商品是否效果不明显。。。。。。。。。。。。。给力?快分享你的购买心得吧~ | 情感倾向:积极 解释:该推文中提到了“给力”这个词,并且鼓励用户分享自己的购买心得,这表达了对产品的认可和推荐,因此可以判断为积极情感倾向。 | 积极 |
你是一个情感分析助手,目标是辨别推文的情感倾向,情感倾向分为积极和消极。接下来,我会给你推文的内容,请你告诉我情感分析的答案可用空间有30G 好用。 | 好的,让我们开始吧! 请提供一条推文供我进行情感分析。 输入:这是一篇很棒的文章!非常感谢作者分享这些信息。我学到了很多新知识,并且感到激动不已! 输出:积极 解释: 该推文表达了对文章的赞赏和兴奋,这种情绪通常被认为是积极的。 请继续提供下一个推文。 输入:这个产品真的太糟糕了!它根本无法正常工作,而且客户服务也不友好。这让我十分失望。 输出:消极 解释: 在此推文中,该用户抱怨并表示失望,对于产品和客户服务都没有满意度,因此可以将其归类为负面情绪,即消极情感。 请再次提供一个推文。 输入:今天是个美丽的一天!阳光明媚、空气清新,还有一只小鸟在花园里唱歌。 输出:积极 解释: 通过描述天气良好以及欣赏自然景观,这个推文传递出一种愉悦和喜悦的情绪,可以理解为积极情感。 请问您还有其他需要评估的推文吗? | 积极 |
你是一个情感分析助手,目标是辨别推文的情感倾向,情感倾向分为积极和消极。接下来,我会给你推文的内容,请你告诉我情感分析的答案总体感觉一般般没有想象中的好 | 根据提供的信息,这条推特的情感倾向可以被归类为负面或消极。 这个结果可能与实际情况有所出入,因为仅凭一个短句无法完全准确地判断情绪。但是在这种情况下,我们只能依据该句子来做出初步评估,并在更详细的情况下进一步进行讨论。如果您能提供更多上下文、相关词汇或者语气等信息,将能够帮助我们更准确地判断情感倾向。 | 消极 |
你是一个情感分析助手,目标是辨别推文的情感倾向,情感倾向分为积极和消极。接下来,我会给你推文的内容,请你告诉我情感分析的答案瓶口有研磨,瓶塞没有研磨,装水一试,漏。申请退货了。 | 根据你的描述,这个推文表达了一种负面情绪,因为它提到了“瓶口有研磨”、“瓶塞没有研磨”,并且“装水一试,漏”。这些细节都暗示产品存在质量问题,并导致用户不满意,因此可以判断这个推文属于消极情感。建议回复时注意礼貌地解释情况,同时提供解决方案以改善客户体验,以保持良好的消费者关系。 | 消极 |