LLM 开发常用库使用说明

共 41 份 LLM 开发常用库的详细中文使用说明文档。每份文档涵盖：库简介、安装方式、核心 API 详解（含参数表）、代码示例、数学原理、架构原理、最佳实践。

其中 transformers、peft、trl 三个重点库结合了源码架构分析。

一、核心基础库

Transformers 模型库（结合源码） — PreTrainedModel/AutoModel架构、from_pretrained加载流程、generate解码、Trainer训练循环、量化
PEFT 参数高效微调库（结合源码） — LoRA/AdaLora/QLoRA数学原理、LoraLayer注入与合并、get_peft_model
TRL 对齐训练库（结合源码） — SFTTrainer/DPOTrainer/GRPOTrainer、DPO/GRPO/KTO数学原理、对齐训练流程
Accelerate 分布式训练库 — Accelerator、DDP/FSDP/DeepSpeed集成、device_map自动分片、混合精度
Datasets 数据集库 — load_dataset、map批量处理、流式加载(streaming)、Arrow零拷贝架构
bitsandbytes 量化库 — LLM.int8()混合精度分解、NF4量化(QLoRA)、4bit/8bit推理与训练
DeepSpeed 分布式训练框架 — ZeRO-1/2/3显存分析、ZeRO-Offload、激活检查点、HF Trainer集成
Megatron-Core 大模型训练框架 — 张量并行(Column/Row)、流水线并行(1F1B)、序列并行、上下文并行(Ring Attention)
Weights & Biases 实验追踪 — wandb.init/log、Sweep超参搜索、Artifact版本管理、HF集成
MLflow ML生命周期管理 — Tracking/Models/Registry/Projects、autolog、HuggingFace集成

vLLM 高性能推理引擎 — PagedAttention原理、连续批处理、LLM类/SamplingParams、OpenAI兼容服务器
SGLang 结构化生成引擎 — RadixAttention基数树KV cache复用、编程原语、约束解码
TensorRT-LLM 推理优化 — 计算图优化、内核融合、INT8/FP8量化、张量并行/流水线并行
llama.cpp 推理引擎 — GGUF格式、Q4_0~Q6_K量化、CPU/GPU推理、mmap内存映射
llama-cpp-python Python绑定 — Llama类、create_completion/chat、GBNF语法约束、嵌入提取、OpenAI服务器
FlashAttention 高效注意力 — IO-awareness原理、在线Softmax、O(N²)→O(N)内存、分块计算推导
xFormers Transformer组件库 — memory_efficient_attention、SwiGLU、RoPE旋转位置编码、稀疏注意力
FastAPI 异步Web框架 — 路由/Pydantic集成、SSE流式响应、中间件、LLM推理API服务
Gradio 交互式UI框架 — Interface/Blocks、Chatbot组件、流式输出、HF Spaces部署

Ragas RAG评估框架 — evaluate()、Faithfulness/AnswerRelevancy/ContextPrecision等指标、TestsetGenerator
DeepEval 评估测试框架 — LLMTestCase、Hallucination/Bias/Toxicity等指标、GEval通用评估
LangSmith SDK 可观测性 — @traceable追踪、evaluate()评估、数据集管理、trace→span层级
Arize Phoenix 开源可观测性 — OpenTelemetry追踪、嵌入UMAP可视化、评估器、本地优先架构
Chroma 轻量向量数据库 — PersistentClient、Collection CRUD、嵌入函数、元数据过滤、RAG存储
Qdrant 高性能向量数据库 — HNSW索引、Filter过滤系统、Payload索引、量化、FastEmbed集成
Milvus 分布式向量数据库 — IVF/PQ/HNSW索引、hybrid_search、存算分离架构、MilvusClient
pgvector PostgreSQL向量扩展 — vector/halfvec/sparsevec类型、HNSW/IVFFlat索引、SQL距离操作符