Skip to content

企商大模型训练推理平台使用手册

一、 概述

企商大模型训练推理平台对于低代码大模型训练和推理而专门提供的一整套功能组件支持,包含数据集管理、数据标注、模型训练、模型推理、数据反馈等功能模块。

二、 设计理念

● 企商大模型训练推理平台 的设计理念是按 GPT 的论文中 RLHF 步骤来实现的,全流程支持模型的 SFT、Reward Model 训练、PPO 训练。
● 数据集按统一格式来整理,需要有 "prompt", "response", "chosen", "reject" 这些字段
● 为保证 PPO 的质量,反馈的数据,需要经过管理员审核才可以使用。 管理员可以修改对应的反馈
● 训练部分基于 deepspeed 框架来实现,默认用多机多卡模式
● 为方便测试,集成了模型推理测试功能,可以方便地测试模型的效果
● 另提供了通用的模型评估模块,用来评估模型的性能

三、 快速上手

企商大模型训练推理平台主要包括四大功能模块:

利用企商大模型训练推理平台进行大模型微调,核心流程步骤为:

其中,数据集上传和数据预处理,在企商大模型训练推理平台"数据集管理"模块中完成。

创建模型微调任务、训练指标和日志监控、模型评估、模型推理在企商大模型训练推理平台"数据集管理"功能模块中完成。

四、 具体使用说明

1. 数据上传

1)上传方式
如果要进行模型训练,需要先上传数据集。目前支持本地上传、通过连接上传的上传方式。

2)数据集格式
数据集支持多种文件格式(.xlsx .xls .csv .txt 文件)。但请注意,一定要包含所需要的字段:需要有 "prompt", "response", "chosen", "rejected" 四个字段。

其中"prompt"为提示词/问题,"response"为对应提示词的回答,"chosen"为被选中的优质回答(如同一个 prompt 有多个 response, "chosen"是对应 prompt 最好好的答案,需要模型学习的回答),"rejected"是未被选择的不好的答案。

"prompt"和"chosen"为必填字段。


.csv 数据格式要求:
csv 文件以 \t 分割
.txt 数据格式模型处理方式:
.txt 数据,纯文本形式即可。在训练过程中,每行数据作为一个整体数据块输入模型进行处理。
注意:.txt 格式的数据集仅可用于"无监督微调"。

2. 数据预处理

2.1 数据清洗与增强
我们内置了对于数据集的一些操作的支持,包含数据预览、数据清洗、数据增强和数据标注等。

数据预览可以查看数据抽样。

数据清洗:集成了一些常用操作,如去重、去除 emoji 等。【勾选】所需的数据清洗操作,点击"清洗",即可创建数据清洗任务。

数据增强则为"造数据"提供了工具。"增强"后的数据集将保存为新的数据集版本。
【勾选】所需的数据增强操作,填写新数据集名称,点击"增强"按钮,即可创建数据增强任务。

2.2 数据标注
对于大语言模型的训练,通常文本语料可以满足训练需求,如果有复杂的数据标注需求,我们内置了数据标注工具,提供"撰写答案""答案质量评分"等典型标注模板。标注后的数据可在模型训练中直接使用。
按照格式要求上传数据集后,可点击"标注"操作,创建数据标注任务,选择响应的标注模板。

标注任务创建成功,点击"标注中",进入数据标注页面。

Label Studio 数据标注具体操作流程 - 以补充答案为例
1)点击"标注所有任务"或通过 ID 选择数据,进入具体数据标注页面。

2) 逐条进行数据标注

3) 标注修改
如需修改已标注的答案,点击已填写答案处的"铅笔"icon,可进行再次编辑。编辑完成后,点击右上角的"更新",更新标注的答案。

4) 完成标注
全部标注完成后,返回数据集管理界面。在"数据集管理"中相应的数据条目中,点击"标注完成",标注数据即保存为新的数据集版本,可在后续模型微调中使用。点击标注完成后,"数据量"处将展示已标注的数据条数。

2.3 自动生成问答对答案
支持利用大模型,根据问题(即 prompt),自动生成答案,构建问答对。
1)在数据集管理界面上传规定格式的数据集。
数据集格式与 1-1)中数据集格式的差别在于,仅提供 prompt 一列即可。
如:


2)上传数据集后,等待数据转化完成(需手动刷新),点击"自动标注答案",创建自动标注答案任务。
自动生成答案后的数据集保存为新的数据集,需要设置数据集名称,选择生成答案所利用的大模型。

3. 模型微调训练

文本类数据集,可以直接用来做训练。点击"训练模型"可创建新的模型微调任务。

模型微调训练任务,可以以表单形式对训练任务、基础模型、数据集进行设置。
1)训练任务:训练任务类型支持 4 中,包括无监督微调、监督微调(SFT)、奖励模型训练和强化学习。监督微调(SFT)是最常用的微调方式。

2)基础模型:选定任务类型后可以选择基础模型,平台支持常用的基础模型,包括 baichun,Llama, ChatGLM,Qwen 等。

3)数据集:选择训练所需的数据集,"数据集管理"列表中的数据集均可选择进行训练。

4)微调提示词模板:对于常用的一些模型,内置了提示词的模板。注意:由于不同模型的提示词不完全相同,如果提示词模板呢模型不匹配,可能导致推理时模型不响应。

设置好对应参数,就可以开始训练了。如果需要更细粒度的参数控制,可以切换到命令模型。

4. 训练指标监测

训练过程中的日志查看、训练指标、训练任务详情及所用资源查看,都可以在模型管理界面操作。

1)训练指标:提供训练指标看板,包括 train loss、loss scale、learning rate 等,帮助用户实时跟踪模型训练效果。

2) 训练日志:实时展示模型训练过程中的日志信息,方便用户了解任务详细状态。

3) 训练任务详情:可以查看训练任务的详细信息,包括训练参数、所用数据集、训练使用的机器节点等。

5. 模型评估

对于训练好的模型,通过"模型管理"页面,点击"未评估",可进行模型评估。

模型评估方式,支持规则评估(机器打分)、GPT 评估和人工评估三种方式。

以规则评估为例,评估结果示例如下图。

对于规则评估,对准确度、稳定性等各指标,点击各指标柱状图,可查看评估详情。以下为准确度打分详情实例。

6. 模型推理测试\

训练好的模型,可部署在线测试服务,点击"进入推理页面",与模型进行对话。

7. 反馈数据审核
如果要做 RLHF 中的第 3 步 PPO 训练,需要用到反馈数据的管理,对回流的反馈数据进行审核,选择优质数据作为再训练数据集。

审核员对各用户反馈数据进行评分审核,4 和 5 分的问答对可回流,作为数据集回流至模型进行在训练。如果对于用户反馈的问答对不满意,审核员也可以自行添加答案,供模型训练所用。