2026-02-24发表2026-03-03更新AI

用llama.cpp导出量化模型

当大语言模型训练好后，一般是model.safetensors，类型，很多时候，需要导出为GGUF格式，并且需要进行量化，此时就要用到llama.cpp

流程步骤

1 2	sudo apt update sudo apt upgrade -y

sudo apt install -y \
    git \
    build-essential \
    cmake \
    python3 \
    python3-pip \
    wget \
    unzip

1 2	git clone https://github.com/ggerganov/llama.cpp cd llama.cpp

wget https://codeload.github.com/ggerganov/llama.cpp/zip/refs/heads/master -O llama.zip
unzip llama.zip
mv llama.cpp-master llama.cpp
cd llama.cpp

先编译 CPU 版本（稳定）

1 2	cmake -B build cmake --build build -j4

编译完成后关键文件在build/bin/，主要用llama-quantize这个工具

cd ~/llama.cpp
python3 convert_hf_to_gguf.py \
    models/Qwen2-7B \
    --outfile models/qwen2-7b-f16.gguf

不可直接从 safetensors 转 q4，必须先生成 f16 或 f32

./build/bin/llama-quantize \
    models/qwen2-7b-f16.gguf \
    models/qwen2-7b-q4_k_m.gguf \
    q4_k_m

用llama.cpp导出量化模型

步步为营

2026-02-24

2026-03-03