使用RWKV-Runner进行模型训练(二)数据集准备

数据格式

RWKV-Runner的微调功能是基于RWKV-LM-LoRA

需要将数据集转化为RWKV-LoRA支持的格式,目前支持的格式如下:

  1. 单论问答(JSONL格式):{“text”: “Q: 问题\n\nA: 答案”}

  2. 多轮对话(JSONL格式):{“text”: “Q: 问一\n\nA: 答一\n\nQ: 问二\n\nA: 答二”}

  3. 单轮问答(TEXT格式):

    1
    2
    3
    Question: 

    Answer:
  4. 材料问答(TEXT格式)

    1
    2
    3
    4
    5
    Instruction: 

    Input:

    Response:
  5. 多轮对话(TEXT格式)

    1
    2
    3
    4
    5
    6
    7
    User: 

    Assistant:

    User:

    Assistant:

需要注意的事项如下:

  1. JSONL格式必须为单个.jsonl后缀的文件,如有很多训练数据需要在.jsonl文件中另起一行写入,如:

    1
    2
    3
    {"text": "Q: 问一\n\nA: 答一\n\nQ: 问二\n\nA: 答二"}
    {"text": "Q: 问题\n\nA: 答案"}
    {"text": "Q: 问一\n\nA: 答一\n\nQ: 问二\n\nA: 答二\n\nQ: 问三\n\nA: 答三"}
  2. TEXT格式为多个.txt后缀的文件,RWKV-LoRA转换数据时会读取该文件夹下所有的.txt文件,并将其中的内容作为训练数据。需要注意的是,一个.txt文件只能有一种格式的数据,文件结构如下所示。

    1
    2
    3
    4
    - dataset
    - 数据1.txt
    - 数据2.txt
    - 数据3.txt

参考文档

RWKV语言模型从入门到放弃,保姆级Training、Fine-tuning、Lora入坑教程

RWKV系列2-RWKV-LM

RWKV的微调教学,以及RWKV World:支持世界所有语言的生成+对话+任务+代码

大模型训练数据集介绍