使用RWKV-Runner进行模型训练(二)数据集准备
使用RWKV-Runner进行模型训练(二)数据集准备
InsectMk数据格式
RWKV-Runner的微调功能是基于RWKV-LM-LoRA
需要将数据集转化为RWKV-LoRA支持的格式,目前支持的格式如下:
单论问答(JSONL格式):{“text”: “Q: 问题\n\nA: 答案”}
多轮对话(JSONL格式):{“text”: “Q: 问一\n\nA: 答一\n\nQ: 问二\n\nA: 答二”}
单轮问答(TEXT格式):
1
2
3Question:
Answer:材料问答(TEXT格式)
1
2
3
4
5Instruction:
Input:
Response:多轮对话(TEXT格式)
1
2
3
4
5
6
7User:
Assistant:
User:
Assistant:
需要注意的事项如下:
JSONL格式必须为单个.jsonl后缀的文件,如有很多训练数据需要在.jsonl文件中另起一行写入,如:
1
2
3{"text": "Q: 问一\n\nA: 答一\n\nQ: 问二\n\nA: 答二"}
{"text": "Q: 问题\n\nA: 答案"}
{"text": "Q: 问一\n\nA: 答一\n\nQ: 问二\n\nA: 答二\n\nQ: 问三\n\nA: 答三"}TEXT格式为多个.txt后缀的文件,RWKV-LoRA转换数据时会读取该文件夹下所有的.txt文件,并将其中的内容作为训练数据。需要注意的是,一个.txt文件只能有一种格式的数据,文件结构如下所示。
1
2
3
4- dataset
- 数据1.txt
- 数据2.txt
- 数据3.txt
参考文档
RWKV语言模型从入门到放弃,保姆级Training、Fine-tuning、Lora入坑教程
评论
匿名评论隐私政策