百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

在Ubuntu上安装部署LLaMA-Factory,及微调大模型测试

nanshan 2025-02-08 12:11 11 浏览 0 评论

LLaMA-Factory是一个非常好用的开源微调大模型工具。

GitHub:https://github.com/hiyouga/LLaMA-Factory

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

LLaMA-Factory介绍

项目特色

  • 多种模型:LLaMA、Mistral、Mixtral-MoE、Qwen、Yi、Gemma、Baichuan、ChatGLM、Phi 等等。
  • 集成方法:(增量)预训练、指令监督微调、奖励模型训练、PPO 训练、DPO 训练和 ORPO 训练。
  • 多种精度:32 比特全参数微调、16 比特冻结微调、16 比特 LoRA 微调和基于 AQLM/AWQ/GPTQ/LLM.int8 的 2/4/8 比特 QLoRA 微调。
  • 先进算法:GaLore、DoRA、LongLoRA、LLaMA Pro、LoRA+、LoftQ 和 Agent 微调。
  • 实用技巧:FlashAttention-2、Unsloth、RoPE scaling、NEFTune 和 rsLoRA。
  • 实验监控:LlamaBoard、TensorBoard、Wandb、MLflow 等等。
  • 极速推理:基于 vLLM 的 OpenAI 风格 API、浏览器界面和命令行接口。

性能指标

与 ChatGLM 官方的 P-Tuning 微调相比,LLaMA Factory 的 LoRA 微调提供了 3.7 倍的加速比,同时在广告文案生成任务上取得了更高的 Rouge 分数。结合 4 比特量化技术,LLaMA Factory 的 QLoRA 微调进一步降低了 GPU 显存消耗。


添加图片注释,不超过 140 字(可选)



支持的模型

模型名

模型大小

默认模块

Template

Baichuan2

7B/13B

W_pack

baichuan2

BLOOM

560M/1.1B/1.7B/3B/7.1B/176B

query_key_value

-

BLOOMZ

560M/1.1B/1.7B/3B/7.1B/176B

query_key_value

-

ChatGLM3

6B

query_key_value

chatglm3

DeepSeek (MoE)

7B/16B/67B

q_proj,v_proj

deepseek

Falcon

7B/40B/180B

query_key_value

falcon

Gemma

2B/7B

q_proj,v_proj

gemma

InternLM2

7B/20B

wqkv

intern2

LLaMA

7B/13B/33B/65B

q_proj,v_proj

-

LLaMA-2

7B/13B/70B

q_proj,v_proj

llama2

Mistral/Mixtral

7B/8x7B

q_proj,v_proj

mistral

OLMo

1B/7B

att_proj

olmo

Phi-1.5/2

1.3B/2.7B

q_proj,v_proj

-

Qwen

1.8B/7B/14B/72B

c_attn

qwen

Qwen1.5 (MoE)

0.5B/1.8B/4B/7B/14B/32B/72B

q_proj,v_proj

qwen

StarCoder2

3B/7B/15B

q_proj,v_proj

-

XVERSE

7B/13B/65B

q_proj,v_proj

xverse

Yi

6B/9B/34B

q_proj,v_proj

yi

Yuan

2B/51B/102B

q_proj,v_proj

yuan

Note 默认模块应作为 --lora_target 参数的默认值,可使用 --lora_target all 参数指定全部模块。 对于所有“基座”(Base)模型,--template 参数可以是 default, alpaca, vicuna 等任意值。但“对话”(Chat)模型请务必使用对应的模板

项目所支持模型的完整列表请参阅 constants.py。

您也可以在 template.py 中添加自己的对话模板。

训练方法

方法

全参数训练

部分参数训练

LoRA

QLoRA

预训练

?

?

?

?

指令监督微调

?

?

?

?

奖励模型训练

?

?

?

?

PPO 训练

?

?

?

?

DPO 训练

?

?

?

?

ORPO 训练

?

?

?

?

数据集

预训练数据集指令微调数据集偏好数据集

部分数据集的使用需要确认,我们推荐使用下述命令登录您的 Hugging Face 账户。

pip install --upgrade huggingface_hub
huggingface-cli login

软硬件依赖

必需项

至少

推荐

python

3.8

3.10

torch

1.13.1

2.2.0

transformers

4.37.2

4.39.3

datasets

2.14.3

2.18.0

accelerate

0.27.2

0.28.0

peft

0.9.0

0.10.0

trl

0.8.1

0.8.1

可选项

至少

推荐

CUDA

11.6

12.2

deepspeed

0.10.0

0.14.0

bitsandbytes

0.39.0

0.43.0

flash-attn

2.3.0

2.5.6

硬件依赖

* 估算值

训练方法

精度

7B

13B

30B

70B

8x7B

全参数

AMP

120GB

240GB

600GB

1200GB

900GB

全参数

16

60GB

120GB

300GB

600GB

400GB

GaLore

16

16GB

32GB

64GB

160GB

120GB

部分参数

16

20GB

40GB

80GB

200GB

160GB

LoRA

16

16GB

32GB

64GB

160GB

120GB

QLoRA

8

10GB

20GB

40GB

80GB

60GB

QLoRA

4

6GB

12GB

24GB

48GB

30GB

QLoRA

2

4GB

8GB

16GB

24GB

18GB

安装过程

安装依赖

按照GitHub上介绍的过程安装即可,为了加快速度,增加了国内的pip 源。

git clone https://github.com/hiyouga/LLaMA-Factory.git
conda create -n llama_factory python=3.10
conda activate llama_factory
cd LLaMA-Factory
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .[metrics]

可选的额外依赖项:deepspeed、metrics、unsloth、galore、vllm、bitsandbytes、gptq、awq、aqlm、qwen、quality

LLaMA Board 可视化界面

注意:LLaMA Board 可视化界面目前仅支持单 GPU 训练,请使用命令行接口来进行分布式训练。

使用本地环境:

export CUDA_VISIBLE_DEVICES=0 # Windows 使用 `set CUDA_VISIBLE_DEVICES=0`

python src/train_web.py # 或 python -m llmtuner.webui.interface

执行后:

添加图片注释,不超过 140 字(可选)

然后就可以访问web界面了:

添加图片注释,不超过 140 字(可选)

数据准备

可以使用 HuggingFace / ModelScope 上的数据集或加载本地数据集。使用自定义数据集时,请更新 data/dataset_info.json 文件。


效果测试(持续更新)

准备训练几个QWen1.5的模型试一下,从0.5B的开始。

QWen1.5-0.5B + Example

速度非常快。看了一下数据,就2条,怪不得快

添加图片注释,不超过 140 字(可选)

QWen1.5-0.5B + alpach_gpt4_zh训练Lora

这个有48818条记录,数据格式如下:

添加图片注释,不超过 140 字(可选)

训练设置如下:

添加图片注释,不超过 140 字(可选)

看后端提示,在对数据处理后就开始训练了:

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

前端可以看见训练进度:

添加图片注释,不超过 140 字(可选)

0.5B的模型,可是训练起来需要的时间也不少。

添加图片注释,不超过 140 字(可选)

在T4 GPU上训练了4个小时结束

添加图片注释,不超过 140 字(可选)

训练结果在:LLaMA-Factory/saves目录下。

QWen1.5-0.5B + alpach_gpt4_zh全量

添加图片注释,不超过 140 字(可选)

预估时间8小时多,是Lora模式的一倍:

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

QWen1.5-0.5B + alpach_gpt4_zh freeze

添加图片注释,不超过 140 字(可选)

预估时间也是4个多小时:

添加图片注释,不超过 140 字(可选)

添加图片注释,不超过 140 字(可选)

内存占用:

添加图片注释,不超过 140 字(可选)

比全量的少一些。

相关推荐

0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)

文档编写目的在前面的文档中,介绍了在有CM和无CM两种情况下使用rpm方式安装CDH5.10.0,本文档将介绍如何在无CM的情况下使用rpm方式安装CDH6.2.0,与之前安装C5进行对比。环境介绍:...

ARM64 平台基于 openEuler + iSula 环境部署 Kubernetes

为什么要在arm64平台上部署Kubernetes,而且还是鲲鹏920的架构。说来话长。。。此处省略5000字。介绍下系统信息;o架构:鲲鹏920(Kunpeng920)oOS:ope...

生产环境starrocks 3.1存算一体集群部署

集群规划FE:节点主要负责元数据管理、客户端连接管理、查询计划和查询调度。>3节点。BE:节点负责数据存储和SQL执行。>3节点。CN:无存储功能能的BE。环境准备CPU检查JDK...

在CentOS上添加swap虚拟内存并设置优先级

现如今很多云服务器都会自己配置好虚拟内存,当然也有很多没有配置虚拟内存的,虚拟内存可以让我们的低配服务器使用更多的内存,可以减少很多硬件成本,比如我们运行很多服务的时候,内存常常会满,当配置了虚拟内存...

国产深度(deepin)操作系统优化指南

1.升级内核随着deepin版本的更新,会自动升级系统内核,但是我们依旧可以通过命令行手动升级内核,以获取更好的性能和更多的硬件支持。具体操作:-添加PPAs使用以下命令添加PPAs:```...

postgresql-15.4 多节点主从(读写分离)

1、下载软件[root@TX-CN-PostgreSQL01-252software]#wgethttps://ftp.postgresql.org/pub/source/v15.4/postg...

Docker 容器 Java 服务内存与 GC 优化实施方案

一、设置Docker容器内存限制(生产环境建议)1.查看宿主机可用内存bashfree-h#示例输出(假设宿主机剩余16GB可用内存)#Mem:64G...

虚拟内存设置、解决linux内存不够问题

虚拟内存设置(解决linux内存不够情况)背景介绍  Memory指机器物理内存,读写速度低于CPU一个量级,但是高于磁盘不止一个量级。所以,程序和数据如果在内存的话,会有非常快的读写速度。但是,内存...

Elasticsearch性能调优(5):服务器配置选择

在选择elasticsearch服务器时,要尽可能地选择与当前业务量相匹配的服务器。如果服务器配置太低,则意味着需要更多的节点来满足需求,一个集群的节点太多时会增加集群管理的成本。如果服务器配置太高,...

Es如何落地

一、配置准备节点类型CPU内存硬盘网络机器数操作系统data节点16C64G2000G本地SSD所有es同一可用区3(ecs)Centos7master节点2C8G200G云SSD所有es同一可用区...

针对Linux内存管理知识学习总结

现在的服务器大部分都是运行在Linux上面的,所以,作为一个程序员有必要简单地了解一下系统是如何运行的。对于内存部分需要知道:地址映射内存管理的方式缺页异常先来看一些基本的知识,在进程看来,内存分为内...

MySQL进阶之性能优化

概述MySQL的性能优化,包括了服务器硬件优化、操作系统的优化、MySQL数据库配置优化、数据库表设计的优化、SQL语句优化等5个方面的优化。在进行优化之前,需要先掌握性能分析的思路和方法,找出问题,...

Linux Cgroups(Control Groups)原理

LinuxCgroups(ControlGroups)是内核提供的资源分配、限制和监控机制,通过层级化进程分组实现资源的精细化控制。以下从核心原理、操作示例和版本演进三方面详细分析:一、核心原理与...

linux 常用性能优化参数及理解

1.优化内核相关参数配置文件/etc/sysctl.conf配置方法直接将参数添加进文件每条一行.sysctl-a可以查看默认配置sysctl-p执行并检测是否有错误例如设置错了参数:[roo...

如何在 Linux 中使用 Sysctl 命令?

sysctl是一个用于配置和查询Linux内核参数的命令行工具。它通过与/proc/sys虚拟文件系统交互,允许用户在运行时动态修改内核参数。这些参数控制着系统的各种行为,包括网络设置、文件...

取消回复欢迎 发表评论: