Llama.cpp

2个月前更新 2.2K 00

Llama.cpp是一个纯C/C++实现、无依赖、支持多种硬件后端和量化格式的本地大语言模型推理框架。

收录时间：

2026-05-17

打开网站

AI编程 # AI编程 # Llama.cpp

Llama.cpp

打开网站

Llama.cpp 应用详细介绍

一、项目概述

Llama.cpp 是一个高性能的 LLM（大语言模型）推理引擎，完全使用 C/C++ 实现，没有任何外部依赖。它的核心目标是让大语言模型能够在各种硬件上以最小的配置成本和最先进的性能运行，无论是本地设备还是云端服务器。

该项目由 ggml-org 组织维护，是 ggml 张量库的主要应用场景和功能试验场。Llama.cpp 支持从 1.5 位到 8 位的多种整数量化方案，极大地降低了模型运行的内存需求，使得在消费级硬件上运行大型模型成为可能。

二、核心特性

2.1 广泛的硬件支持

Llama.cpp 针对多种硬件架构进行了深度优化：

Apple Silicon：通过 ARM NEON、Accelerate 和 Metal 框架实现一级公民级别的优化
x86 架构：支持 AVX、AVX2、AVX512 和 AMX 指令集
RISC-V 架构：支持 RVV、ZVFH、ZFH 等指令集
NVIDIA GPU：通过自定义 CUDA 内核实现高效推理
AMD GPU：通过 HIP 后端支持
Intel GPU：通过 SYCL 和 Vulkan 后端支持
CPU+GPU 混合推理：可部分加速超出显存容量的大型模型

2.2 丰富的量化方案

支持 1.5 位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化，用户可以根据硬件能力和精度需求在模型大小与推理质量之间取得平衡。

2.3 模型兼容性

项目支持几乎所有主流大语言模型，包括但不限于：

纯文本模型：LLaMA 系列（1/2/3）、Mistral、Mixtral、Falcon、Qwen 系列、DeepSeek、Gemma、Phi 系列、Mamba、Grok-1、Command-R、BERT、GPT-2 等数十种模型架构
多模态模型：LLaVA 1.5/1.6、BakLLaVA、Qwen2-VL、Mini CPM、Moondream 等

三、主要应用工具

3.1 llama-cli：命令行推理工具

这是最核心的命令行工具，提供完整的 LLM 交互体验：

对话模式：支持内置聊天模板的模型自动进入对话模式，也支持自定义模板
语法约束：通过 GBNF 语法文件限制输出格式，例如强制生成 JSON 格式输出
模型下载：支持直接从 Hugging Face 下载模型，如 llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

3.2 llama-server：OpenAI 兼容 API 服务器

提供与 OpenAI API 兼容的 HTTP 服务接口，是部署生产环境的首选工具：

多用户并发：支持多个用户同时请求，可配置并行解码数量
推测性解码：使用小型草稿模型加速大型目标模型的推理
嵌入模型服务：支持提供文本嵌入向量服务
重排序模型服务：支持提供文档重排序服务
内置 WebUI：提供浏览器访问的图形界面
语法约束：可对所有输出应用自定义语法规则

3.3 llama-perplexity：模型质量评估工具

用于测量模型在给定文本上的困惑度（Perplexity）及其他质量指标，帮助评估和比较不同量化版本或不同模型的性能。

3.4 llama-bench：性能基准测试工具

对推理性能进行全面的基准测试，支持测试不同参数下的 token 生成速度，帮助用户选择最优的配置组合。

3.5 llama-simple：开发者入门示例

提供最简化的代码示例，展示如何在自己的应用中集成 llama.cpp 进行文本补全，是开发者快速上手的理想起点。

四、生态系统与集成

4.1 编程语言绑定

Llama.cpp 拥有丰富的第三方语言绑定，覆盖几乎所有主流编程语言：

Python：llama-cpp-python、easy-llama
Node.js/TypeScript：node-llama-cpp、wllama（浏览器端）
Go：go-llama.cpp、yzma（无需 CGo）
Rust：llama_cpp-rs、rust-llama.cpp
C#/.NET：LLamaSharp、LM-Kit.NET
Java：java-llama.cpp、llama-cpp-jna
Ruby、Swift、Zig、Flutter/Dart、PHP 等均有对应绑定

4.2 用户界面生态

基于 llama.cpp 构建的知名 UI 产品包括：

Ollama：最流行的本地 LLM 运行工具之一
LM Studio：提供图形界面的本地模型运行平台
GPT4All：Nomic AI 开发的本地 LLM 工具
Jan：开源 AI 桌面应用
KoboldCPP：专注于创意写作和角色扮演
Text Generation WebUI：功能丰富的 Web 界面
LlamaFile：Mozilla 开发的单文件可执行 LLM 方案

4.3 基础设施与工具

GPUStack：管理 GPU 集群运行 LLM
Paddler：开源 LLMOps 平台
llama-swap：自动模型切换的透明代理
LLMKube：Kubernetes 运算符，支持多 GPU 和 Apple Silicon Metal

五、模型获取与量化

5.1 模型格式

Llama.cpp 要求模型存储在 GGUF 文件格式中。Hugging Face 平台上有大量预转换的 GGUF 模型可供直接使用。

5.2 在线工具

GGUF-my-repo：在线将模型转换为 GGUF 格式并进行量化
GGUF-my-LoRA：将 LoRA 适配器转换为 GGUF 格式
GGUF-editor：在浏览器中编辑 GGUF 元数据
Inference Endpoints：在 Hugging Face 云端直接托管 llama.cpp

六、应用场景总结

本地 AI 助手：在个人电脑上运行私密、离线的 AI 助手
开发工具集成：VS Code 和 Vim/Neovim 的代码补全插件
生产 API 服务：部署兼容 OpenAI API 的推理服务
边缘计算：在移动设备、嵌入式系统上运行 LLM
研究与评估：测量模型质量、比较不同量化方案
游戏与创意：在 Unity 等游戏引擎中集成 AI 对话
多模态应用：处理图像、视频和音频输入

七、社区与贡献

Llama.cpp 拥有活跃的开源社区，项目在 GitHub 上获得超过 111,000 颗星，拥有 1,600 多位贡献者。项目采用 MIT 许可证，任何人都可以自由使用、修改和分发。

社区提供丰富的文档资源，包括构建指南、Docker 部署、Android 构建、多 GPU 使用、性能优化技巧等，确保用户能够顺利部署和使用。

暂无笔记

您必须登录才能记录笔记！

立即登录

暂无笔记...

Llama.cpp

Llama.cpp 应用详细介绍

一、项目概述

二、核心特性

2.1 广泛的硬件支持

2.2 丰富的量化方案

2.3 模型兼容性

三、主要应用工具

3.1 llama-cli：命令行推理工具

3.2 llama-server：OpenAI 兼容 API 服务器

3.3 llama-perplexity：模型质量评估工具

3.4 llama-bench：性能基准测试工具

3.5 llama-simple：开发者入门示例

四、生态系统与集成

4.1 编程语言绑定

4.2 用户界面生态

4.3 基础设施与工具

五、模型获取与量化

5.1 模型格式

5.2 在线工具

六、应用场景总结

七、社区与贡献

相关导航

LLaMa

思源笔记

vant ui

AI工具便宜合租

kodezi

GitHub

trae-支持deepseek r1

workany

暂无笔记

欢迎来到「PMKG AI知识库」

欢迎来到 PMKG AI知识库