Star 历史趋势
数据来源: GitHub API · 生成自 Stargazers.cn
README.md

InfraTech

本仓库主要介绍AI Infra领域相关知识,内容涵盖:训练/推理框架🧩、性能加速🚀、深度学习🧠、基础硬件🔧等。

相关练习代码采用Python语言,以notebook形式呈现,帮助读者快速了解或掌握相关内容。

内容介绍

🔍主要文件

📜 文件名📖 知识分类说明难度
MLA_diff_mode_mfu_calculation.ipynbAttention超细图解MLA计算流&吸收矩阵对比分析⚡️⚡️⚡️
rope_principle.ipynbAttention彻底搞懂RoPE计算原理:从1D到3D⚡️⚡️⚡️
collective_operations.ipynb分布式基础分布式训练/推理基础:集合通信原理与实践⚡️
chunked_prefill_and_flash_decoding.ipynb推理基础ChunkedPrefill&FlashDecoding原理详解⚡️⚡️
attention_mla_flops_with_prefix_cache.ipynb推理基础prefix cache为何零开销⚡️⚡️
parallel_strategies.ipynb并行推理大模型推理并行策略(DP/TP/PP/SP/EP)原理简介⚡️
ulysses_mha_demo.ipynb并行推理推理Ulysses并行优化⚡️
LLM_sampling.ipynb推理基础LLM推理采样(Sampling)⚡️
speculative_decoding.ipynb推理基础投机推理的原理与常见方案⚡️
zmq_practice.ipynb推理基础-⚡️
nondeterministic_reduction.ipynb推理基础推理的非确定性运算⚡️
kv_cache_transfer_vs_recomputation.ipynb推理基础KV cache用池化的数据会比重算更快吗?⚡️⚡️
linear_attention_kv_cache_size.ipynb推理基础LinearAttention在KV cache的存储上有多大优势?⚡️
quantization.ipynb推理基础大模型推理量化(Quantization)基础速览⚡️
nano_vllm.ipynbNano-vLLM推理框架极简入门:用Nano-vLLM搭建知识体系⚡️
vllm_basic_scheduler.ipynbvLLM手搓一个基础调度器⚡️⚡️
sglang_radix_attention.ipynbSGLang手撕RadixAttention⚡️⚡️
sglang_profiling_from_scratch.ipynbSGLangSGLang Profiling数据采集与分析入门⚡️
vllm_mem_snapshot.ipynbvLLMvLLM显存可视化与管理详解⚡️
switch_role_update_weights.ipynbSGLang/vLLM降低RL训推共卡开销:SGLang/vLLM的无缝切换实现与分析⚡️
cuda_graph.ipynb扩展知识vLLM为什么没在prefill阶段支持cuda graph?⚡️
LoRA_to_Multi_LoRA.ipynb训推基础从LoRA到Multi-LoRA⚡️⚡️
mini_dl_framework.ipynb训练框架从零实现MLP训练全流程⚡️⚡️
pytorch_vista_deepseekV3.ipynbPyTorchPyTorch结构可视化⚡️
torch_process_share_tensor.ipynbPyTorchPyTorch中基于CUDA IPC的进程间Tensor共享简介⚡️
training_infer_colocate.ipynbRL基础RL训推调度与切换(Megatron⇄SGLang)机制解析⚡️

🤖 推理基础知识与框架

📚 文章📖 知识分类📜 备注
入门知识:大模型推理核心概念与术语总结推理基础🔥🔥🔥
入门知识:大模型推理并行策略(DP/TP/PP/SP/EP)原理简介推理基础练习
入门知识:LLM推理并行优化的必备知识推理基础🔥🔥🔥
入门知识:从LoRA到Multi-LoRA:原理&代码实践推理基础练习
入门知识:ChunkedPrefill&FlashDecoding原理详解推理基础练习
入门知识:LLM推理采样(Sampling)常见知识概览推理基础🔥
入门知识:Speculative Decoding投机推理的原理与常见方案推理基础🔥
入门知识:推理的非确定性运算推理基础🔥
入门知识:大模型推理量化(Quantization)基础速览推理基础练习
Nano-vLLM架构介绍Nano-vLLM🔥🔥
推理框架极简入门:用Nano-vLLM搭建知识体系Nano-vLLM练习
vLLM(一):vLLM框架快速入门引导vLLM🔥🔥🔥🚀
vLLM(二):vLLM Scheduler逻辑难啃?先手搓一个基础调度器vLLM练习
SGLang(一):看不懂SGLang?先试试miniSGLang!SGLang🔥🔥
SGLang(二):手撕SGLang KV Cache核心逻辑:快速理解RadixAttentionSGLang练习
SGLang(三):Profiling数据采集与分析入门SGLang练习
vLLM(三):vLLM显存管理详解vLLM🔥代码
vLLM(四):核心模块:vLLM V1 KV cache 管理机制剖析vLLM🔥🔥
vLLM(五):vLLM V1 Scheduler的调度逻辑&优先级分析vLLM🔥
vLLM(六):vLLM框架V1演进分析vLLM🔥🔥🔥
vLLM(七):vLLM的prefix cache为何零开销vLLM🔥🔥🔥
vLLM(八):vLLM DP特性与演进方案分析vLLM🔥
vLLM(九):LLM推理数据并行负载均衡(DPLB)浅析vLLM🔥🔥🔥
PD分离(一):vLLM PD分离方案浅析特性🔥🔥🔥 🚀
PD分离(二):vLLM PD分离KV cache传递机制详解与演进分析特性🔥🔥🔥
AF分离:Attention与FFN分离(AFD)方案解析特性🔥🔥
关键特性EPLB:MoE并行负载均衡,EPLB的深度解析与可视化特性🔥🔥
关键特性FlashMLA:深度解析FlashMLA,一文读懂大模型加速新利器特性🔥🔥
降低RL训推共卡开销:SGLang/vLLM的无缝切换实现与分析特性🔥🔥
推理框架适配Kimi/QwenNext线性注意力:方案&公式&代码扩展知识🔥
LinearAttention在KV cache的存储上有多大优势?扩展知识🔥🔥
如何评价NVIDIA发布的大模型推理PD分离架构Dynamo?扩展知识🔥🔥
KV cache用池化的数据会比重算更快吗?扩展知识🔥 练习
vLLM为什么没在prefill阶段支持cuda graph?扩展知识🔥 代码

🚀 推理提速经验分享

📚 文章📖 知识分类
推理性能优化:GPU/NPU Profiling阅读引导基础知识
推理性能优化:分布式推理优化思路基础知识
1.5x提升:PD分离KV cache传输的实践经验vLLM
1.3x提升:LLM推理优化:MLA算力均衡实践vLLM
3.0x提升:推理Ulysses并行优化与DeepSeekV3/V3.2实践vLLM
1.3x提升:vLLM推理的Swap特性实践vLLM
PD分离+弹性伸缩/角色切换的实践笔记vLLM

🛠️辅助工具

📚 文章📖 知识分类🌐 链接
LLM大模型显存计算公式与优化LLM🔥🔥🔥
LLM预训练模型MFU计算器LLMlink
DeepSeekV3 MFU计算工具与算式LLMlink
PyTorch显存可视化与Snapshot数据分析PyTorchlink
PyTorch结构可视化:交互式DeepSeekV3计算图PyTorchlink

训练框架与基础知识

📚 文章📖 知识分类📜 备注
入门知识:如何快速理解PyTorch自动梯度(Autograd)的原理?训练框架练习
不用PyTorch从零实现MLP训练全流程训练框架练习
PyTorch显存管理介绍与源码解析(一)训练框架link
PyTorch显存管理介绍与源码解析(二)训练框架link
PyTorch显存管理介绍与源码解析(三)训练框架🔥
PyTorch分布式训练基础--DDP使用训练框架🔥🔥🔥
Context Parallelism的原理与代码浅析并行训练🔥🔥🔥
图解Infra视角下的强化学习性能问题(浅析)RL训练🔥
RL训推调度与切换(Megatron⇄SGLang)机制解析RL训练🔥
FP8计算在模型训练中的应用量化训练🔥
PyTorch中基于CUDA IPC的进程间Tensor共享简介训练框架🔥

深度学习&大模型知识

📚 文章📖 知识分类📜 备注
彻底搞懂RoPE计算原理:从1D到3DAttention代码
超细图解MLA计算流&吸收矩阵对比分析Attention高清图
超细图解DSA计算流&性能对比与优化分析Attention高清图
用注意力知识分析DSA(DeepSeek Sparse Attention)的设计逻辑Attention🔥🔥
线性注意力(LinearAttention)的原理与细节(AlphaDeltaGate)解析Linear🔥
Qwen3 VL多模态解析大模型🔥
VLM视觉-语言融合流程解析(Kimi K2.5/VL)大模型🔥
入门基础:分布式训练/推理基础:集合通信原理与实践分布式基础练习
入门基础:手写最基础的训练过程深度学习🔥
入门基础:梯度近似运算与雅可比(Jacobian)矩阵深度学习-
入门基础:Transformer基础模型代码实现--极简版(One-Page)Transformerlink
Query和Key在注意力机制中长得几乎一模一样,为什么还要分开?Transformer🔥
为什么transformer的FFN需要先升维再降维?Transformer🔥🔥
为什么线性注意力中K头数小于V头数?Linear🔥
AI模型优化的必修课:参数搜索/自动调优深度学习🔥

主流大模型框架介绍

模型卡片架构关键词介绍
DeepSeek V3MLA+MoElink
Kimi K2MLA+MoElink
DeepSeek V3.2MLA+DSAlink
Kimi K2.5MLA+MoE+MoonViTlink
GLM 5MLA(DSA)+MoElink
MiniMax M2.5GQA+MoElink
Qwen3-VLDense+MoE+DeepStack+Interleaved-MRoPElink
Qwen3.5Gated DeltaNet+Gated Attention+MoElink
Step 3.5 FlashGQA+SWA+MoE+MTPlink

GPU基础知识

BasicCUDA:

https://github.com/CalvinXKY/BasicCUDA

🎉🎉🎉:20+知识分享,涵盖CUDA、NCCL、PyTorch、GPU硬件知识

作者kaiyuan知乎主页🥳 https://www.zhihu.com/people/xky7

zhilink:

公众号二维码

学习更多AI Infra知识,推荐关注公众号: InfraTech

公众号二维码

关于 About

分享AI Infra知识&代码练习:PyTorch/vLLM/SGLang框架入门⚡️、性能加速🚀、大模型基础🧠、AI软硬件🔧等

语言 Languages

Jupyter Notebook100.0%

提交活跃度 Commit Activity

代码提交热力图
过去 52 周的开发活跃度
81
Total Commits
峰值: 14次/周
Less
More

核心贡献者 Contributors