LLama Factory 实操记录（一）

发布时间：2023年12月20日
1. api端口参数说明： src/api

-h, --help ? ? ? ? ? ?显示帮助信息并退出
--model_name_or_path MODEL_NAME_OR_PATH
? ? ? ? ? ? ? ? ? ? ? 模型权重的路径或标识符，来自 huggingface.co/models 或 modelscope.cn/models。 (默认: None)
--adapter_name_or_path ADAPTER_NAME_OR_PATH
? ? ? ? ? ? ? ? ? ? ? 适配器权重的路径或标识符，来自 huggingface.co/models。 (默认: None)
--cache_dir CACHE_DIR
? ? ? ? ? ? ? ? ? ? ? 存储从 huggingface.co 或 modelscope.cn 下载的预训练模型的位置。 (默认: None)
--use_fast_tokenizer [USE_FAST_TOKENIZER]
? ? ? ? ? ? ? ? ? ? ? 是否使用基于 tokenizers 库支持的快速分词器。 (默认: True)
--no_use_fast_tokenizer
? ? ? ? ? ? ? ? ? ? ? 是否使用基于 tokenizers 库支持的快速分词器。 (默认: False)
--split_special_tokens [SPLIT_SPECIAL_TOKENS]
? ? ? ? ? ? ? ? ? ? ? 是否在标记化过程中拆分特殊标记。 (默认: False)
--model_revision MODEL_REVISION
? ? ? ? ? ? ? ? ? ? ? 要使用的特定模型版本（可以是分支名称、标签名称或提交 ID）。 (默认: main)
--quantization_bit QUANTIZATION_BIT
? ? ? ? ? ? ? ? ? ? ? 量化模型所需的位数。 (默认: None)
--quantization_type {fp4,nf4}
? ? ? ? ? ? ? ? ? ? ? 在 int4 训练中使用的量化数据类型。 (默认: nf4)
--double_quantization [DOUBLE_QUANTIZATION]
? ? ? ? ? ? ? ? ? ? ? 是否在 int4 训练中使用双重量化。 (默认: True)
--no_double_quantization
? ? ? ? ? ? ? ? ? ? ? 是否在 int4 训练中使用双重量化。 (默认: False)
--rope_scaling {linear,dynamic}
? ? ? ? ? ? ? ? ? ? ? 采用缩放的旋转位置嵌入。 (默认: None)
--flash_attn [FLASH_ATTN]
? ? ? ? ? ? ? ? ? ? ? 启用 FlashAttention-2 以加速训练。 (默认: False)
--shift_attn [SHIFT_ATTN]
? ? ? ? ? ? ? ? ? ? ? 启用由 LongLoRA 提出的 Shift Short Attention（S^2-Attn）。 (默认: False)
--hf_hub_token HF_HUB_TOKEN
? ? ? ? ? ? ? ? ? ? ? 用于登录 Hugging Face Hub 的身份验证令牌。 (默认: None)
--ms_hub_token MS_HUB_TOKEN
? ? ? ? ? ? ? ? ? ? ? 用于登录 ModelScope Hub 的身份验证令牌。 (默认: None)
--template TEMPLATE ? 用于构建训练和推断提示的模板。 (默认: None)
--dataset DATASET ? ? 要使用的提供的数据集名称。使用逗号分隔多个数据集。 (默认: None)
--dataset_dir DATASET_DIR
? ? ? ? ? ? ? ? ? ? ? 包含数据集的文件夹路径。 (默认: data)
--split SPLIT ? ? ? ? 用于训练和评估的数据集拆分。 (默认: train)
--cutoff_len CUTOFF_LEN
? ? ? ? ? ? ? ? ? ? ? 标记化后模型输入的最大长度。 (默认: 1024)
--reserved_label_len RESERVED_LABEL_LEN
? ? ? ? ? ? ? ? ? ? ? 标记化后为标签保留的最大长度。 (默认: 1)
--train_on_prompt [TRAIN_ON_PROMPT]
? ? ? ? ? ? ? ? ? ? ? 是否在提示上禁用掩码。 (默认: False)
--streaming [STREAMING]
? ? ? ? ? ? ? ? ? ? ? 启用数据集流式处理。 (默认: False)
--buffer_size BUFFER_SIZE
? ? ? ? ? ? ? ? ? ? ? 在数据集流式处理中用于随机抽样的缓冲区大小。 (默认: 16384)
--mix_strategy {concat,interleave_under,interleave_over}
? ? ? ? ? ? ? ? ? ? ? 数据集混合策略（连接/交错）（欠采样/过采样）。 (默认: concat)
--interleave_probs INTERLEAVE_PROBS
? ? ? ? ? ? ? ? ? ? ? 从数据集中抽样数据的概率。使用逗号分隔多个数据集。 (默认: None)
--overwrite_cache [OVERWRITE_CACHE]
? ? ? ? ? ? ? ? ? ? ? 覆盖缓存的训练和评估集。 (默认: False)
--preprocessing_num_workers PREPROCESSING_NUM_WORKERS
? ? ? ? ? ? ? ? ? ? ? 用于预处理的进程数。 (默认: None)
--max_samples MAX_SAMPLES
? ? ? ? ? ? ? ? ? ? ? 用于调试目的，截断每个数据集的示例数。 (默认: None)
--eval_num_beams EVAL_NUM_BEAMS
? ? ? ? ? ? ? ? ? ? ??

?用于评估的束搜索数。该参数将传递给 `model.generate`。 (默认: None)
--ignore_pad_token_for_loss [IGNORE_PAD_TOKEN_FOR_LOSS]
? ? ? ? ? ? ? ? ? ? ? 是否在损失计算中忽略与填充标签相对应的标记。 (默认: True)
--no_ignore_pad_token_for_loss
? ? ? ? ? ? ? ? ? ? ? 是否在损失计算中忽略与填充标签相对应的标记。 (默认: False)
--val_size VAL_SIZE ? 开发集的大小，应为整数或范围为 `[0,1)` 的浮点数。 (默认: 0)
--sft_packing [SFT_PACKING]
? ? ? ? ? ? ? ? ? ? ? 在监督微调阶段对问题和答案进行打包。 (默认: False)
--cache_path CACHE_PATH
? ? ? ? ? ? ? ? ? ? ? 保存或加载预处理数据集的路径。 (默认: None)
--export_dir EXPORT_DIR
? ? ? ? ? ? ? ? ? ? ? 保存导出模型的目录路径。 (默认: None)
--export_size EXPORT_SIZE
? ? ? ? ? ? ? ? ? ? ? 导出模型的文件分片大小（以 GB 为单位）。 (默认: 1)
--export_quantization_bit EXPORT_QUANTIZATION_BIT
? ? ? ? ? ? ? ? ? ? ? 用于量化导出模型的位数。 (默认: None)
--export_quantization_dataset EXPORT_QUANTIZATION_DATASET
? ? ? ? ? ? ? ? ? ? ? 用于量化导出模型的数据集路径或数据集名称。 (默认: None)
--export_quantization_nsamples EXPORT_QUANTIZATION_NSAMPLES
? ? ? ? ? ? ? ? ? ? ? 用于量化的样本数。 (默认: 128)
--export_quantization_maxlen EXPORT_QUANTIZATION_MAXLEN
? ? ? ? ? ? ? ? ? ? ? 用于量化的模型输入的最大长度。 (默认: 1024)
--dpo_beta DPO_BETA ? DPO 损失的 beta 参数。 (默认: 0.1)
--dpo_loss {sigmoid,hinge}
? ? ? ? ? ? ? ? ? ? ? 要使用的 DPO 损失类型。 (默认: sigmoid)
--dpo_ftx DPO_FTX ? ? DPO 训练中的监督微调损失系数。 (默认: 0)
--ppo_buffer_size PPO_BUFFER_SIZE
? ? ? ? ? ? ? ? ? ? ? 在 PPO 优化步骤中创建经验缓冲区的小批次数。 (默认: 1)
--ppo_epochs PPO_EPOCHS
? ? ? ? ? ? ? ? ? ? ? 在 PPO 优化步骤中执行的周期数。 (默认: 4)
--ppo_logger PPO_LOGGER
? ? ? ? ? ? ? ? ? ? ? 在 PPO 训练中记录日志，使用 "wandb" 或 "tensorboard"。 (默认: None)
--ppo_score_norm [PPO_SCORE_NORM]
? ? ? ? ? ? ? ? ? ? ? 在 PPO 训练中使用分数归一化。 (默认: False)
--ppo_target PPO_TARGET
? ? ? ? ? ? ? ? ? ? ? 用于自适应 KL 控制的目标 KL 值，在 PPO 训练中。 (默认: 6.0)
--ppo_whiten_rewards [PPO_WHITEN_REWARDS]
? ? ? ? ? ? ? ? ? ? ? 在 PPO 训练中计算优势之前是否漂白奖励。 (默认: False)
--ref_model REF_MODEL
? ? ? ? ? ? ? ? ? ? ? 用于 PPO 或 DPO 训练的参考模型路径。 (默认: None)
--ref_model_adapters REF_MODEL_ADAPTERS
? ? ? ? ? ? ? ? ? ? ? 参考模型的适配器路径。 (默认: None)
--ref_model_quantization_bit REF_MODEL_QUANTIZATION_BIT
? ? ? ? ? ? ? ? ? ? ? 用于量化参考模型的位数。 (默认: None)
--reward_model REWARD_MODEL
? ? ? ? ? ? ? ? ? ? ? 用于 PPO 训练的奖励模型路径。 (默认: None)
--reward_model_adapters REWARD_MODEL_ADAPTERS
? ? ? ? ? ? ? ? ? ? ? 奖励模型的适配器路径。 (默认: None)
--reward_model_quantization_bit REWARD_MODEL_QUANTIZATION_BIT
? ? ? ? ? ? ? ? ? ? ? 用于量化奖励模型的位数。 (默认: None)
--reward_model_type {lora,full,api}
? ? ? ? ? ? ? ? ? ? ? 在 PPO 训练中使用的奖励模型类型。LoRA 模型仅支持 LoRA 训练。 (默认: lora)
--additional_target ADDITIONAL_TARGET
? ? ? ? ? ? ? ? ? ? ? 除 LoRA 层之外要设置为可训练并保存在最终检查点中的模块的名称。 (默认: None)
--lora_alpha LORA_ALPHA
? ? ? ? ? ? ? ? ? ? ? LoRA 微调的比例因子（默认为 lora_rank * 2）。 (默认: None)
--lora_dropout LORA_DROPOUT
? ? ? ? ? ? ? ? ? ? ? LoRA 微调的 dropout 率。 (默认: 0.1)
--lora_rank LORA_RANK
? ? ? ? ? ? ? ? ? ? ? LoRA 微调的内在维度。 (默认: 8)
--lora_target LORA_TARGET
? ? ? ? ? ? ? ? ? ? ? 要应用 LoRA 的目标模块的名称。使用逗号分隔多个模块。 (默认: None)
--create_new_adapter [CREATE_NEW_ADAPTER]
? ? ? ? ? ? ? ? ? ? ? 是否创建具有随机初始化权重的新适配器。 (默认: False)
--name_module_trainable NAME_MODULE_TRAINABLE
? ? ? ? ? ? ? ? ? ? ? 部分参数（冻结）微调的可训练模块的名称。使用逗号分隔多个模块。 (默认: mlp)
--num_layer_trainable NUM_LAYER_TRAINABLE
? ? ? ? ? ? ? ? ? ? ? 部分参数（冻结）微调的可训练层数。 (默认: 3)
--stage {pt,sft,rm,ppo,dpo}
? ? ? ? ? ? ? ? ? ? ? 训练中将执行哪个阶段。 (默认: sft)
--finetuning_type {lora,freeze,full}
? ? ? ? ? ? ? ? ? ? ? 使用哪种微调方法。 (默认: lora)
--upcast_layernorm [UPCAST_LAYERNORM]
? ? ? ? ? ? ? ? ? ? ? 是否在 fp32 中上升 layernorm 权重。 (默认: False)
--plot_loss [PLOT_LOSS]
? ? ? ? ? ? ? ? ? ? ? 是否在微调后绘制训练损失。 (默认: False)
--do_sample [DO_SAMPLE]
? ? ? ? ? ? ? ? ? ? ? 是否使用抽样，否则使用贪婪解码。 (默认: True)
--no_do_sample ? ? ? ?是否使用抽样，否则使用贪婪解码。 (默认: False)
--temperature TEMPERATURE
? ? ? ? ? ? ? ? ? ? ? 用于调整下一个标记概率的值。 (默认: 0.95)
--top_p TOP_P ? ? ? ? 保留的最概然令牌集，其概率加起来达到 top_p 或更高。 (默认: 0.7)


? --top_k TOP_K ? ? ? ? 保留的最高概率词汇令牌数量，用于 top-k 过滤。 (默认: 50)
? --num_beams NUM_BEAMS
? ? ? ? ? ? ? ? ? ? ? ? 用于波束搜索的波束数量。1 表示不进行波束搜索。 (默认: 1)
? --max_length MAX_LENGTH
? ? ? ? ? ? ? ? ? ? ? ? 生成令牌的最大长度。可以被 max_new_tokens 覆盖。 (默认: 512)
? --max_new_tokens MAX_NEW_TOKENS
? ? ? ? ? ? ? ? ? ? ? ? 生成的令牌的最大数量，忽略提示中的令牌数量。 (默认: 512)
? --repetition_penalty REPETITION_PENALTY
? ? ? ? ? ? ? ? ? ? ? ? 重复惩罚的参数。1.0 表示无惩罚。 (默认: 1.0)
? --length_penalty LENGTH_PENALTY
? ? ? ? ? ? ? ? ? ? ? ? 用于基于波束的生成的长度的指数惩罚。 (默认: 1.0)
文章来源:https://blog.csdn.net/ckq707718837/article/details/135106348
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！