bitsandbytes 量化库

1. 库简介与在 LLM 开发中的作用

1.1 什么是 bitsandbytes

bitsandbytes 是由 Tim Dettmers 开发的轻量级量化库，专为在有限 GPU 显存下训练和推理大语言模型（LLM）而设计。它是 QLoRA 论文的核心实现组件，也是 Hugging Face Transformers 生态中量化功能的标准后端。

1.2 在 LLM 开发中的核心价值

大语言模型的参数量通常从数十亿到数千亿不等，显存消耗极大。bitsandbytes 通过量化（Quantization）技术，将模型权重从 16/32 位浮点数压缩为 8 位甚至 4 位表示，从而：

降低显存占用：将 7B 模型的显存需求从 ~14GB（fp16）降至 ~4GB（4-bit）
保持模型性能：8-bit 量化几乎无损，4-bit NF4 量化在 QLoRA 微调中可保持 99%+ 的原始性能
支持消费级硬件：使单张 RTX 3090/4090 即可微调 7B~13B 模型
与 Transformers 无缝集成：通过 BitsAndBytesConfig 一行配置即可加载量化模型

2. 安装方式

2.1 基础安装

# PyPI 安装（推荐，支持 CUDA 11.x - 12.x）
pip install bitsandbytes

# 验证安装
python -c "import bitsandbytes as bnb; print(bnb.__version__)"

2.2 依赖要求

# bitsandbytes 需要 CUDA 支持的 PyTorch
pip install torch --index-url https://download.pytorch.org/whl/cu121

# 与 transformers 配合使用
pip install transformers accelerate

2.3 常见安装问题

CUDA 版本不匹配：确保 PyTorch 的 CUDA 版本与系统 CUDA 驱动兼容
Windows 支持：从 0.41.0 起官方支持 Windows，建议使用最新版本
编译安装（可选）：pip install bitsandbytes --no-cache-dir 强制重新编译

3. 核心类/函数/工具详细说明

3.1 Linear8bitLt — 8-bit 线性层（LLM.int8() 方法）

Linear8bitLt 是 LLM.int8() 论文的实现，将 nn.Linear 层的权重存储为 8-bit 整数，在计算时动态反量化为 fp16。

import bitsandbytes as bnb

# 创建 8-bit 线性层
linear_8bit = bnb.nn.Linear8bitLt(
    input_features=4096,      # 输入维度
    output_features=4096,     # 输出维度
    bias=True,                # 是否包含偏置
    has_fp16_weights=False,   # 是否保留fp16权重（False表示纯8-bit存储）
    threshold=6.0,            # 离群值检测阈值
    index=None,               # 内部索引（通常不需设置）
)

关键参数说明：

参数	类型	说明
`has_fp16_weights`	bool	`False` 时权重以 int8 存储，`True` 时保留 fp16（用于延迟量化）
`threshold`	float	离群值检测阈值，默认 6.0。超过此阈值的特征维度将被单独处理

返回值：与标准 nn.Linear 相同，输出形状为 (batch, output_features) 的 fp16 张量。

使用方式：

import torch
import bitsandbytes as bnb

# 先创建 fp16 线性层，再替换为 8-bit
fp16_linear = torch.nn.Linear(4096, 4096)
# 替换关键参数
int8_linear = bnb.nn.Linear8bitLt(
    fp16_linear.in_features,
    fp16_linear.out_features,
    fp16_linear.bias is not None,
    has_fp16_weights=False,
    threshold=6.0,
)
# 将 fp16 权重量化为 int8
int8_linear.weight = bnb.nn.Int8Params(
    fp16_linear.weight.data.cpu(),
    has_fp16_weights=False,
    requires_grad=False,
).to(fp16_linear.weight.dtype)

# 前向传播（自动处理混合精度分解）
x = torch.randn(2, 4096, dtype=torch.float16, device='cuda')
out = int8_linear(x.cuda())  # 输出为 fp16

3.2 Linear4bit — 4-bit 线性层（QLoRA 的 NF4 量化）

Linear4bit 实现了 QLoRA 论文中的 4-bit NormalFloat（NF4）量化，是目前 LLM 微调中最流行的量化方案。

import bitsandbytes as bnb

# 创建 4-bit 线性层
linear_4bit = bnb.nn.Linear4bit(
    input_features=4096,          # 输入维度
    output_features=4096,         # 输出维度
    bias=True,                    # 是否包含偏置
    compute_dtype=torch.bfloat16, # 计算时反量化的数据类型
    compress_statistics=True,     # 是否使用双重量化（Double Quantization）
    quant_type='nf4',             # 量化类型：'nf4' 或 'fp4'
    quant_storage=torch.uint8,    # 量化存储类型
)

关键参数说明：

参数	类型	说明
`compute_dtype`	torch.dtype	计算时的数据类型，推荐 `torch.bfloat16` 或 `torch.float16`
`compress_statistics`	bool	是否启用双重量化，对量化常数再量化以节省显存
`quant_type`	str	`'nf4'`（正态分布优化的 4-bit 格式）或 `'fp4'`（浮点 4-bit 格式）
`quant_storage`	torch.dtype	量化权重的存储类型，默认 `uint8`（两个 4-bit 值打包在一个字节中）

使用方式：

import torch
import bitsandbytes as bnb

# 替换模型中的 Linear 层为 4-bit
def replace_with_4bit(model):
    for name, module in model.named_modules():
        if isinstance(module, torch.nn.Linear):
            # 创建对应的 4-bit 层
            new_module = bnb.nn.Linear4bit(
                module.in_features,
                module.out_features,
                module.bias is not None,
                compute_dtype=torch.bfloat16,
                compress_statistics=True,
                quant_type='nf4',
            )
            # 设置名称以便后续访问
            setattr(model, name.split('.')[-1], new_module)
    return model

3.3 prepare_model_for_kbit_training() — 准备量化模型用于训练

此函数对量化模型进行必要的预处理，使其支持 QLoRA 微调。

from bitsandbytes import prepare_model_for_kbit_training

model = prepare_model_for_kbit_training(
    model,                          # 已量化的模型
    use_gradient_checkpointing=True, # 是否启用梯度检查点
    gradient_checkpointing_kwargs=None,  # 梯度检查点额外参数
)

该函数执行的关键操作：

冻结基础模型参数：将所有参数的 requires_grad 设为 False，防止在微调中更新量化权重
转换嵌入层：将嵌入层（Embedding）转为 fp32，确保训练稳定性
启用梯度检查点：减少激活值缓存占用的显存，以计算换显存
转换 LayerNorm：将 LayerNorm 层转为 fp32

from transformers import AutoModelForCausalLM
from bitsandbytes import prepare_model_for_kbit_training

# 加载 4-bit 量化模型
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-2-7b-hf",
    quantization_config=BitsAndBytesConfig(load_in_4bit=True),
    device_map="auto",
)

# 准备训练
model = prepare_model_for_kbit_training(model)

# 添加 LoRA 适配器
from peft import LoraConfig, get_peft_model
lora_config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# 输出: trainable params: 13,107,200 || all params: 6,738,415,616 || trainable%: 0.1944

3.4 BitsAndBytesConfig — 与 Transformers 集成

BitsAndBytesConfig 是 bitsandbytes 与 Hugging Face Transformers 的桥梁，通过配置对象控制量化行为。

from transformers import BitsAndBytesConfig

# 4-bit NF4 量化配置（QLoRA 推荐配置）
bnb_config_4bit = BitsAndBytesConfig(
    load_in_4bit=True,                          # 启用 4-bit 量化
    bnb_4bit_quant_type="nf4",                  # 量化类型："nf4" 或 "fp4"
    bnb_4bit_compute_dtype=torch.bfloat16,      # 计算精度
    bnb_4bit_use_double_quantization=True,       # 启用双重量化
)

# 8-bit 量化配置
bnb_config_8bit = BitsAndBytesConfig(
    load_in_8bit=True,              # 启用 8-bit 量化
    llm_int8_threshold=6.0,         # 离群值阈值
    llm_int8_skip_modules=None,     # 跳过量化的模块列表
    llm_int8_enable_fp32_cpu_offload=False,  # CPU 卸载
)

关键参数详细说明：

参数	默认值	说明
`load_in_4bit`	False	是否以 4-bit 加载模型
`load_in_8bit`	False	是否以 8-bit 加载模型
`bnb_4bit_quant_type`	“fp4”	4-bit 量化格式，”nf4” 专为正态分布权重优化
`bnb_4bit_compute_dtype`	torch.float32	反量化后的计算数据类型
`bnb_4bit_use_double_quantization`	False	对量化常数再量化，节省约 0.37 bit/param
`llm_int8_threshold`	6.0	8-bit 量化的离群值检测阈值
`llm_int8_skip_modules`	None	指定不进行 8-bit 量化的模块名列表

3.5 8-bit 优化器

bitsandbytes 提供了 8-bit 版本的常用优化器，将优化器状态从 fp32 压缩为 int8，大幅减少显存占用。

import bitsandbytes as bnb

# 8-bit AdamW 优化器
optimizer = bnb.optim.AdamW8bit(
    model.parameters(),
    lr=2e-5,
    betas=(0.9, 0.999),
    eps=1e-8,
    weight_decay=0.01,
    optim_bits=8,      # 优化器状态的位数：8 或 32
    is_paged=True,     # 是否启用分页优化器
)

# 8-bit Adam 优化器
optimizer = bnb.optim.Adam8bit(
    model.parameters(),
    lr=2e-5,
)

# PagedOptimizer — 自动将优化器状态分页到 CPU 内存
optimizer = bnb.optim.PagedAdamW8bit(
    model.parameters(),
    lr=2e-5,
)

优化器状态显存对比（7B 模型）：

优化器	优化器状态显存
AdamW (fp32)	~28 GB
AdamW8bit	~7 GB
PagedAdamW8bit	~7 GB（自动溢出到 CPU）

3.6 替换模型中的 nn.Linear 为量化版本

import torch
import bitsandbytes as bnb

def replace_linear_with_8bit(model, threshold=6.0):
    """将模型中所有 nn.Linear 替换为 Linear8bitLt"""
    for name, module in model.named_children():
        if isinstance(module, torch.nn.Linear):
            # 创建 8-bit 替代层
            new_module = bnb.nn.Linear8bitLt(
                module.in_features,
                module.out_features,
                module.bias is not None,
                has_fp16_weights=False,
                threshold=threshold,
            )
            # 量化和替换
            new_module.weight = bnb.nn.Int8Params(
                module.weight.data.cpu(),
                has_fp16_weights=False,
                requires_grad=False,
            ).to(module.weight.dtype)
            if module.bias is not None:
                new_module.bias = module.bias
            setattr(model, name, new_module)
        else:
            # 递归处理子模块
            replace_linear_with_8bit(module, threshold)
    return model

def replace_linear_with_4bit(model, compute_dtype=torch.bfloat16,
                              quant_type='nf4', double_quant=True):
    """将模型中所有 nn.Linear 替换为 Linear4bit"""
    for name, module in model.named_children():
        if isinstance(module, torch.nn.Linear):
            new_module = bnb.nn.Linear4bit(
                module.in_features,
                module.out_features,
                module.bias is not None,
                compute_dtype=compute_dtype,
                compress_statistics=double_quant,
                quant_type=quant_type,
            )
            new_module.weight = bnb.nn.Params4bit(
                module.weight.data.cpu(),
                requires_grad=False,
                compress_statistics=double_quant,
                quant_type=quant_type,
            ).to(module.weight.dtype)
            if module.bias is not None:
                new_module.bias = module.bias
            setattr(model, name, new_module)
        else:
            replace_linear_with_4bit(module, compute_dtype, quant_type, double_quant)
    return model

4. 在 LLM 开发中的典型使用场景和代码示例

4.1 场景一：使用 4-bit QLoRA 微调 LLM（最常用）

import torch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
    Trainer,
)
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from datasets import load_dataset

# ========== 1. 配置 4-bit 量化 ==========
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,                              # 启用 4-bit 加载
    bnb_4bit_quant_type="nf4",                      # NF4 量化格式
    bnb_4bit_compute_dtype=torch.bfloat16,          # 计算精度
    bnb_4bit_use_double_quantization=True,           # 双重量化
)

# ========== 2. 加载量化模型 ==========
model_name = "meta-llama/Llama-2-7b-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,                 # 量化配置
    device_map="auto",                              # 自动分配设备
    torch_dtype=torch.bfloat16,
)

# ========== 3. 准备训练 ==========
model = prepare_model_for_kbit_training(
    model,
    use_gradient_checkpointing=True,                # 减少激活值显存
)

# ========== 4. 配置 LoRA ==========
lora_config = LoraConfig(
    r=16,                   # LoRA 秩
    lora_alpha=32,          # LoRA 缩放因子
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],  # 目标层
    lora_dropout=0.05,      # Dropout 概率
    bias="none",
    task_type="CAUSAL_LM",
)
model = get_peft_model(model, lora_config)

# ========== 5. 准备数据 ==========
dataset = load_dataset("tatsu-lab/alpaca", split="train[:1000]")

def tokenize_function(examples):
    return tokenizer(
        examples["instruction"],
        truncation=True,
        max_length=512,
        padding="max_length",
    )

tokenized_dataset = dataset.map(tokenize_function, batched=True)

# ========== 6. 训练 ==========
training_args = TrainingArguments(
    output_dir="./qlora-output",
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=2e-4,
    num_train_epochs=3,
    logging_steps=10,
    save_strategy="epoch",
    bf16=True,                     # 使用 bf16 混合精度
    optim="paged_adamw_8bit",      # 使用 8-bit 分页优化器
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
)
trainer.train()

4.2 场景二：使用 8-bit 量化加载模型进行推理

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

# 配置 8-bit 量化
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,
    llm_int8_threshold=6.0,        # 离群值阈值
)

# 加载模型
model_name = "meta-llama/Llama-2-7b-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto",
)

# 推理
prompt = "Explain quantum computing in simple terms:"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
    **inputs,
    max_new_tokens=200,
    temperature=0.7,
    do_sample=True,
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

4.3 场景三：4-bit 推理（最大化显存节省）

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
)

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-2-7b-hf",
    quantization_config=bnb_config,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-hf")

# 推理
inputs = tokenizer("Hello, how are you?", return_tensors="pt").to(model.device)
with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

4.4 场景四：使用 8-bit 优化器训练全量模型

import torch
import bitsandbytes as bnb
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("gpt2-medium").cuda()
tokenizer = AutoTokenizer.from_pretrained("gpt2-medium")

# 使用 8-bit AdamW 优化器，节省优化器状态显存
optimizer = bnb.optim.PagedAdamW8bit(
    model.parameters(),
    lr=5e-5,
    weight_decay=0.01,
)

# 标准训练循环
model.train()
for batch in dataloader:
    inputs = tokenizer(batch["text"], return_tensors="pt", padding=True, truncation=True)
    inputs = {k: v.cuda() for k, v in inputs.items()}
    outputs = model(**inputs, labels=inputs["input_ids"])
    loss = outputs.loss
    loss.backward()
    optimizer.step()
    optimizer.zero_grad()

5. 数学原理

5.1 LLM.int8() 量化（8-bit）

LLM.int8() 的核心思想是混合精度分解：对于激活值中的离群值维度，保持高精度计算；对于非离群值维度，使用 int8 计算以提高效率。

5.1.1 离群值检测

给定输入矩阵 $X \in \mathbb{R}^{n \times d}$，对每个特征维度 $j$ 检测是否存在离群值：

\[\text{is\_outlier}_j = |X_{:,j}| > \text{threshold}\]

默认阈值 $\text{threshold} = 6.0$。实验表明，Transformer 中约 0.1% 的特征维度包含离群值，但这些维度对模型精度影响巨大。

5.1.2 混合精度分解

将矩阵乘法分解为两部分：

\[XW = X_{\text{outlier}}W_{\text{outlier}} + X_{\text{non-outlier}}W_{\text{non-outlier}}\]

离群值部分：$X_{\text{outlier}}W_{\text{outlier}}$ 直接使用 fp16 计算，保持精度
非离群值部分：$X_{\text{non-outlier}}W_{\text{non-outlier}}$ 使用 int8 计算

5.1.3 Int8 量化与反量化

权重 $W$ 的量化过程：

\[\text{scale} = \frac{\max(|W|)}{127}\] \[W_{\text{int8}} = \text{round}\left(\frac{W}{\text{scale}}\right)\]

反量化：

\[W_{\text{fp16}} = W_{\text{int8}} \times \text{scale}\]

同理对输入 $X$ 进行量化，计算后反量化结果。由于非离群值维度范围较小，int8 量化带来的误差可忽略。

5.1.4 计算效率分析

离群值部分通常仅占 0.1% 的维度，fp16 计算开销极小
非离群值部分占 99.9%，int8 计算利用 Tensor Core 可获得约 2x 加速
整体方案在推理时几乎无精度损失（perplexity 差异 < 0.1%）

5.2 NF4（NormalFloat4）量化 — QLoRA 的核心

NF4 是 QLoRA 论文提出的数据类型，专门为正态分布的权重设计，比均匀量化的 FP4 更高效。

5.2.1 基本假设

预训练 LLM 的权重近似服从正态分布 $W \sim N(0, \sigma^2)$。NF4 利用这一先验，使用分位数量化而非均匀量化。

5.2.2 分位数计算

对于 4-bit 量化（$2^4 = 16$ 个量化级别），分位值定义为：

\[q_i = \Phi^{-1}\left(\frac{i + 0.5}{2^4}\right), \quad i = 0, 1, \ldots, 15\]

其中 $\Phi^{-1}$ 是标准正态分布的逆累积分布函数（inverse CDF，即百分位点函数）。

这种设计确保了：

每个量化级别覆盖等概率质量的区间
在权重密集的中心区域有更多的量化级别（更精细）
在权重稀疏的尾部区域量化级别较少（稀疏区域精度损失影响小）

5.2.3 量化过程

归一化：将权重归一化到 $[-1, 1]$ 区间 $\hat{W} = \frac{W}{\max(|W|)}$
量化：对每个权重值，找到最近的 NF4 分位值 $Q(\hat{w}) = \arg\min_{q_i} |\hat{w} - q_i|$
存储：存储 4-bit 索引（0-15）和块级缩放因子 $c = \max( W_{\text{block}} )$
反量化： $W_{\text{dequant}} = Q(\hat{w}) \times c$

5.2.4 双重量化（Double Quantization）

量化过程中产生的缩放因子（量化常数）也需要存储。对于块大小为 64 的情况，每个权重需额外 $\frac{32 \text{ bit}}{64} = 0.5$ bit 存储 fp32 缩放因子。双重量化对这些缩放因子再次量化：

第一层量化：将 fp32 缩放因子 $c_2$ 量化为 int8，存储缩放因子 $c_2$ 和 int8 值
第二层量化：对 $c_2$ 的缩放因子再次量化

最终每个参数的额外开销从 0.5 bit 降至约 0.127 bit，节省约 0.37 bit/param：

\[\text{节省} = 0.5 - \frac{8}{64} - \frac{32}{64 \times 256} \approx 0.37 \text{ bit/param}\]

5.3 显存分析对比

以 7B 参数模型为例（fp16 基准）：

量化方式	模型权重	量化常数	总计	相比 fp16
fp16	14 GB	0	14 GB	1.0x
8-bit	7 GB	~0.1 GB	~7.1 GB	0.51x
4-bit FP4	3.5 GB	~0.5 GB	~4.0 GB	0.29x
4-bit NF4	3.5 GB	~0.5 GB	~4.0 GB	0.29x
4-bit NF4+DQ	3.5 GB	~0.13 GB	~3.63 GB	0.26x

6. 代码原理/架构原理

6.1 整体架构

bitsandbytes
├── bnb.nn                    # 神经网络模块
│   ├── Linear8bitLt          # 8-bit 线性层
│   ├── Linear4bit            # 4-bit 线性层
│   ├── Int8Params            # 8-bit 参数容器
│   └── Params4bit            # 4-bit 参数容器
├── bnb.optim                 # 优化器
│   ├── AdamW8bit             # 8-bit AdamW
│   ├── Adam8bit              # 8-bit Adam
│   ├── PagedAdamW8bit        # 分页 8-bit AdamW
│   └── PagedAdam8bit         # 分页 8-bit Adam
├── bnb.functional            # CUDA 内核接口
│   ├── igemmlt               # int8 矩阵乘法
│   ├── quantize_blockwise    # 块级量化
│   └── dequantize_blockwise  # 块级反量化
└── bnb.cuda                  # CUDA 核函数（C++/CUDA 实现）

6.2 8-bit 线性层工作流程

输入 X (fp16)
    │
    ├── 检测离群值维度 (|X_j| > threshold)
    │
    ├── 分离离群值: X_outlier, W_outlier → fp16 matmul → Y_outlier
    │
    ├── 分离非离群值: X_normal, W_normal → 量化为 int8
    │   │
    │   ├── int8 matmul (CUDA igemmlt)
    │   │
    │   └── 反量化结果 → Y_normal (fp16)
    │
    └── Y = Y_outlier + Y_normal

6.3 4-bit 线性层工作流程

权重 W (fp16)
    │
    ├── 归一化: W_hat = W / max(|W_block|)
    │
    ├── NF4 量化: 找最近的分位值 q_i
    │
    ├── 存储: 4-bit 索引 + 块级缩放因子 c
    │
    └── [可选] 双重量化缩放因子 c

前向传播:
    输入 X (compute_dtype)
        │
        ├── 反量化 W: W_dequant = NF4_lookup[index] * c
        │
        └── Y = X @ W_dequant (在 compute_dtype 下计算)

6.4 CUDA 内核优化

bitsandbytes 的性能关键在于自定义 CUDA 内核：

igemmlt：int8 矩阵乘法内核，利用 Tensor Core 的 int8 模式
quantize_blockwise：块级量化内核，按块计算缩放因子并量化
dequantize_blockwise：块级反量化内核，高效地将 int8/int4 转回 fp16
双重量化内核：对量化常数进行二级量化和反量化

这些内核使用 C++/CUDA 编写，通过 cffi 或 ctypes 绑定到 Python，确保与 PyTorch 的无缝协作。

7. 常见注意事项和最佳实践

7.1 量化方案选择指南

场景	推荐方案	原因
QLoRA 微调	4-bit NF4 + 双重量化	最低显存，LoRA 补偿精度损失
推理（注重精度）	8-bit	几乎无精度损失
推理（注重显存）	4-bit NF4	最大化显存节省
全量微调	8-bit 优化器	优化器状态减半

7.2 最佳实践

始终使用 device_map="auto"：让 accelerate 自动分配模型层到可用设备

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto",  # 自动分配
)

4-bit 微调时使用 compute_dtype=torch.bfloat16：bf16 比 fp16 数值范围更大，训练更稳定

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,  # 推荐
)

启用梯度检查点：与量化配合可进一步减少显存

model = prepare_model_for_kbit_training(
    model,
    use_gradient_checkpointing=True,
)

使用分页优化器：自动将优化器状态溢出到 CPU 内存
```
TrainingArguments(optim="paged_adamw_8bit")
```

跳过不适合量化的层：某些层（如最终分类头）对精度敏感，应跳过量化的模块

bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,
    llm_int8_skip_modules=["lm_head", "embed_tokens"],
)

7.3 常见问题与解决方案

问题：CUDA not found 错误
- 原因：bitsandbytes 未找到 CUDA 库
- 解决：确保安装了 CUDA 版本的 PyTorch，或设置 LD_LIBRARY_PATH
问题：量化后模型输出乱码
- 原因：可能使用了不合适的量化类型
- 解决：4-bit 推理使用 nf4 而非 fp4；8-bit 阈值可适当调低
问题：prepare_model_for_kbit_training 报错
- 原因：模型已包含 LoRA 适配器或其他修改
- 解决：在添加 LoRA 之前调用此函数
问题：量化模型的 save_pretrained() 保存的是量化权重
- 原因：bitsandbytes 保存量化参数，不是原始 fp16 权重
- 解决：QLoRA 微调后只保存 LoRA 适配器权重
```
model.save_pretrained("./lora-adapter")  # 仅保存 LoRA 权重
```
问题：4-bit 量化后 LoRA 层无法训练
- 原因：LoRA 适配器未正确附加到量化层
- 解决：确保使用 get_peft_model() 而非手动添加 LoRA 层

7.4 性能调优建议

块大小：4-bit 量化的默认块大小为 64，较小的块大小（如 32）可提高精度但增加显存
LoRA 秩（r）：4-bit 微调时建议 r=16~64，较高的秩可补偿量化带来的信息损失
学习率：4-bit QLoRA 通常使用较高的学习率（2e-4），相比全量微调的 2e-5
batch size：量化后可使用更大的 batch size，建议逐步增加以找到最佳值
多 GPU：使用 device_map="auto" 时，模型会自动分布到多张 GPU 上

7.5 版本兼容性

bitsandbytes >= 0.39.0：支持 4-bit 量化
bitsandbytes >= 0.41.0：Windows 支持
bitsandbytes >= 0.43.0：改进的多 GPU 支持
transformers >= 4.30.0：BitsAndBytesConfig 支持
transformers >= 4.39.0：改进的 4-bit 集成

建议始终使用最新版本以获得最佳性能和兼容性。

Share on

Bluesky Facebook LinkedIn Mastodon X (formerly Twitter)

Runguo Li