
LLaMA Factory:大语言模型高效微调的统一框架
LLaMA Factory 是一个开源、高效且统一的微调框架,旨在帮助开发者和研究人员轻松地对超过100种大型语言模型(LLMs)和视觉语言模型(VLMs)进行微调。该项目由 hiyouga 团队开发,并在 ACL 2024 上发表,因其强大的功能和易用性,已被 Amazon、NVIDIA、阿里云 等众多知名企业和机构广泛采用。
核心特性
1. 广泛的模型支持
LLaMA Factory 支持包括 LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen3、Qwen3-VL、DeepSeek、Gemma、GLM、Phi 等在内的主流模型系列。从轻量级模型到千亿级参数的大模型,均可通过该框架进行微调。项目团队承诺对前沿模型提供“Day-N”级别的即时支持,例如 Qwen3、Gemma 3 等模型在发布当天即可获得支持。
2. 多样化的训练方法
框架集成了多种训练策略,包括:
– 全参数微调(Full-tuning)
– 冻结微调(Freeze-tuning)
– LoRA 及其变体(如 QLoRA、DoRA、PiSSA、OFT 等)
– 量化训练:支持 2/3/4/5/6/8-bit QLoRA,通过 AQLM、AWQ、GPTQ 等量化技术大幅降低显存需求。
– 强化学习对齐:PPO、DPO、KTO、ORPO、SimPO 等偏好学习算法一应俱全。
3. 先进算法与实用技巧
框架内置了众多前沿优化算法,包括 GaLore、BAdam、APOLLO、Adam-mini、Muon 等高效优化器,以及 FlashAttention-2、Unsloth、Liger Kernel 等加速技术。此外,还支持 RoPE 缩放、NEFTune、rsLoRA 等实用技巧,帮助用户在有限资源下实现更高效的训练。
4. 广泛的任务覆盖
LLaMA Factory 支持多轮对话、工具调用、图像理解、视觉定位、视频识别、音频理解等多种任务,覆盖了从纯文本到多模态的广泛场景。
5. 实验监控与可视化
集成了 LlamaBoard(基于 Gradio 的 Web UI)、TensorBoard、Wandb、MLflow、SwanLab 等多种实验监控工具,方便用户实时跟踪训练进度和指标。
6. 快速推理部署
支持 OpenAI 风格 API 部署,并集成了 vLLM 和 SGLang 作为推理后端,可实现比传统推理快 270% 的并发推理速度。
支持的训练方法概览
LLaMA Factory 支持以下训练方法,并兼容全量微调、冻结微调、LoRA、QLoRA、OFT 等多种参数高效微调方式:
– 预训练(Pre-Training)
– 监督微调(Supervised Fine-Tuning)
– 奖励建模(Reward Modeling)
– PPO 训练
– DPO 训练
– KTO 训练
– ORPO 训练
– SimPO 训练
硬件需求
LLaMA Factory 通过量化技术和参数高效微调方法,显著降低了硬件门槛。例如,使用 QLoRA 4-bit 量化时,仅需约 6GB 显存即可微调 7B 模型,而 70B 模型也仅需约 48GB 显存。这使得在消费级 GPU(如 RTX 4090)上微调大模型成为可能。
快速开始
安装
用户可通过源码安装:git clone --depth 1 https://github.com/hiyouga/LlamaFactory.gitcd LlamaFactorypip install -e .
也支持通过 Docker 镜像一键启动,镜像已预装 CUDA 12.4、PyTorch 2.6.0 和 Flash-attn 2.7.4。
数据准备
框架内置了丰富的预训练、监督微调和偏好数据集,用户只需在 data/dataset_info.json 中注册即可使用。同时支持从 HuggingFace、ModelScope、Modelers Hub 等平台加载数据集。
微调示例
只需三个命令即可完成 LoRA 微调、推理和模型合并:llamafactory-cli train examples/train_lora/qwen3_lora_sft.yamlllamafactory-cli chat examples/inference/qwen3_lora_sft.yamlllamafactory-cli export examples/merge_lora/qwen3_lora_sft.yaml
Web UI 操作
对于零代码用户,LLaMA Factory 提供了基于 Gradio 的图形化界面:llamafactory-cli webui
部署 API
微调后的模型可通过 OpenAI 兼容的 API 进行部署:API_PORT=8000 llamafactory-cli api examples/inference/qwen3.yaml infer_backend=vllm
生态与社区
LLaMA Factory 拥有活跃的社区和丰富的生态,包括 WeChat、Discord 等用户群。项目还提供了官方博客、在线课程和 Colab 免费教程,帮助用户快速上手。此外,框架已被广泛应用于学术研究和工业实践中,涵盖心理健康、法律、医疗、金融、自动驾驶等多个领域。
总结
LLaMA Factory 以其统一的架构、广泛的模型支持、丰富的训练方法和极低的硬件门槛,成为当前最受欢迎的大模型微调工具之一。无论是学术研究者还是工业开发者,都能通过该框架快速实现模型的定制化微调与部署,极大降低了大模型应用的门槛。
相关导航

puaai
阿里研究院
WebChatGPT
perplexity ai-免费限时领取会员
BoltAI
ZipWP


