LLM 开发常用库使用说明
共 41 份 LLM 开发常用库的详细中文使用说明文档。每份文档涵盖:库简介、安装方式、核心 API 详解(含参数表)、代码示例、数学原理、架构原理、最佳实践。
其中 transformers、peft、trl 三个重点库结合了源码架构分析。
一、核心基础库
PyTorch 深度学习框架 — 张量操作、autograd、nn.Module、优化器、分布式训练(DDP/FSDP)、混合精度(AMP)、CUDA
NumPy 科学计算库 — ndarray、广播机制、矩阵运算、线性代数(SVD/特征值)、FFT、在LLM中的数据预处理
Pandas 数据处理库 — DataFrame、数据读写、清洗、groupby聚合、merge/join、训练数据预处理
Pydantic 数据验证库 — BaseModel、数据验证、序列化、Field约束、与LLM结构化输出配合
tiktoken 分词库 — BPE分词、encoding_for_model、token计数与成本估算、cl100k_base/p50k_base编码
tokenizers 分词库 — BPE/WordPiece/Unigram算法、训练自定义分词器、与transformers集成
二、训练与微调
Transformers 模型库(结合源码) — PreTrainedModel/AutoModel架构、from_pretrained加载流程、generate解码、Trainer训练循环、量化
PEFT 参数高效微调库(结合源码) — LoRA/AdaLora/QLoRA数学原理、LoraLayer注入与合并、get_peft_model
TRL 对齐训练库(结合源码) — SFTTrainer/DPOTrainer/GRPOTrainer、DPO/GRPO/KTO数学原理、对齐训练流程
Accelerate 分布式训练库 — Accelerator、DDP/FSDP/DeepSpeed集成、device_map自动分片、混合精度
Datasets 数据集库 — load_dataset、map批量处理、流式加载(streaming)、Arrow零拷贝架构
bitsandbytes 量化库 — LLM.int8()混合精度分解、NF4量化(QLoRA)、4bit/8bit推理与训练
DeepSpeed 分布式训练框架 — ZeRO-1/2/3显存分析、ZeRO-Offload、激活检查点、HF Trainer集成
Megatron-Core 大模型训练框架 — 张量并行(Column/Row)、流水线并行(1F1B)、序列并行、上下文并行(Ring Attention)
Weights & Biases 实验追踪 — wandb.init/log、Sweep超参搜索、Artifact版本管理、HF集成
MLflow ML生命周期管理 — Tracking/Models/Registry/Projects、autolog、HuggingFace集成
三、推理与部署
vLLM 高性能推理引擎 — PagedAttention原理、连续批处理、LLM类/SamplingParams、OpenAI兼容服务器
SGLang 结构化生成引擎 — RadixAttention基数树KV cache复用、编程原语、约束解码
TensorRT-LLM 推理优化 — 计算图优化、内核融合、INT8/FP8量化、张量并行/流水线并行
llama.cpp 推理引擎 — GGUF格式、Q4_0~Q6_K量化、CPU/GPU推理、mmap内存映射
llama-cpp-python Python绑定 — Llama类、create_completion/chat、GBNF语法约束、嵌入提取、OpenAI服务器
FlashAttention 高效注意力 — IO-awareness原理、在线Softmax、O(N²)→O(N)内存、分块计算推导
xFormers Transformer组件库 — memory_efficient_attention、SwiGLU、RoPE旋转位置编码、稀疏注意力
FastAPI 异步Web框架 — 路由/Pydantic集成、SSE流式响应、中间件、LLM推理API服务
Gradio 交互式UI框架 — Interface/Blocks、Chatbot组件、流式输出、HF Spaces部署
四、Agent 开发与编排
LangGraph Agent编排框架 — StateGraph、节点/边/条件路由、持久化、Human-in-the-loop、多Agent
LlamaIndex RAG框架 — Index/Retriever/QueryEngine、RAG管道抽象、Document/Node、Agent工具调用
DSPy 声明式Prompt编程 — Signature、Module(Predict/ChainOfThought/ReAct)、Optimizer自动优化
AutoGen 多Agent对话框架 — ConversableAgent、GroupChat、代码执行(本地/Docker)、v0.4 AgentChat
CrewAI 角色驱动协作 — Agent/Task/Crew、Sequential/Hierarchical流程、Memory记忆系统
instructor 结构化输出 — response_model、流式模式、Mode(TOOLS/JSON/MD_JSON)、Pydantic验证
Outlines 约束解码 — generate.text/choice/regex/json/cfg、FSM驱动采样、logit偏置原理
smolagents 轻量Agent框架 — CodeAgent/ToolCallingAgent、@tool装饰器、HfApiModel、代码沙箱
五、评估、监控与向量数据库
Ragas RAG评估框架 — evaluate()、Faithfulness/AnswerRelevancy/ContextPrecision等指标、TestsetGenerator
DeepEval 评估测试框架 — LLMTestCase、Hallucination/Bias/Toxicity等指标、GEval通用评估
LangSmith SDK 可观测性 — @traceable追踪、evaluate()评估、数据集管理、trace→span层级
Arize Phoenix 开源可观测性 — OpenTelemetry追踪、嵌入UMAP可视化、评估器、本地优先架构
Chroma 轻量向量数据库 — PersistentClient、Collection CRUD、嵌入函数、元数据过滤、RAG存储
Qdrant 高性能向量数据库 — HNSW索引、Filter过滤系统、Payload索引、量化、FastEmbed集成
Milvus 分布式向量数据库 — IVF/PQ/HNSW索引、hybrid_search、存算分离架构、MilvusClient
pgvector PostgreSQL向量扩展 — vector/halfvec/sparsevec类型、HNSW/IVFFlat索引、SQL距离操作符
