Star 历史趋势
数据来源: GitHub API · 生成自 Stargazers.cn
README.md
InfraTech
本仓库主要介绍AI Infra领域相关知识,内容涵盖:训练/推理框架🧩、性能加速🚀、深度学习🧠、基础硬件🔧等。
相关练习代码采用Python语言,以notebook形式呈现,帮助读者快速了解或掌握相关内容。
内容介绍
🔍主要文件
- ./llm_infer:推理练习
- ./models:主流模型介绍
- ./docs:AI Infra共享资料
🤖 推理基础知识与框架
🚀 推理提速经验分享
🛠️辅助工具
| 📚 文章 | 📖 知识分类 | 🌐 链接 |
|---|---|---|
| LLM大模型显存计算公式与优化 | LLM | 🔥🔥🔥 |
| LLM预训练模型MFU计算器 | LLM | link |
| DeepSeekV3 MFU计算工具与算式 | LLM | link |
| PyTorch显存可视化与Snapshot数据分析 | PyTorch | link |
| PyTorch结构可视化:交互式DeepSeekV3计算图 | PyTorch | link |
训练框架与基础知识
深度学习&大模型知识
| 📚 文章 | 📖 知识分类 | 📜 备注 |
|---|---|---|
| 彻底搞懂RoPE计算原理:从1D到3D | Attention | 代码 |
| 超细图解MLA计算流&吸收矩阵对比分析 | Attention | 高清图 |
| 超细图解DSA计算流&性能对比与优化分析 | Attention | 高清图 |
| 用注意力知识分析DSA(DeepSeek Sparse Attention)的设计逻辑 | Attention | 🔥🔥 |
| 线性注意力(LinearAttention)的原理与细节(AlphaDeltaGate)解析 | Linear | 🔥 |
| Qwen3 VL多模态解析 | 大模型 | 🔥 |
| VLM视觉-语言融合流程解析(Kimi K2.5/VL) | 大模型 | 🔥 |
| 入门基础:分布式训练/推理基础:集合通信原理与实践 | 分布式基础 | 练习 |
| 入门基础:手写最基础的训练过程 | 深度学习 | 🔥 |
| 入门基础:梯度近似运算与雅可比(Jacobian)矩阵 | 深度学习 | - |
| 入门基础:Transformer基础模型代码实现--极简版(One-Page) | Transformer | link |
| Query和Key在注意力机制中长得几乎一模一样,为什么还要分开? | Transformer | 🔥 |
| 为什么transformer的FFN需要先升维再降维? | Transformer | 🔥🔥 |
| 为什么线性注意力中K头数小于V头数? | Linear | 🔥 |
| AI模型优化的必修课:参数搜索/自动调优 | 深度学习 | 🔥 |
主流大模型框架介绍
| 模型卡片 | 架构关键词 | 介绍 |
|---|---|---|
| DeepSeek V3 | MLA+MoE | link |
| Kimi K2 | MLA+MoE | link |
| DeepSeek V3.2 | MLA+DSA | link |
| Kimi K2.5 | MLA+MoE+MoonViT | link |
| GLM 5 | MLA(DSA)+MoE | link |
| MiniMax M2.5 | GQA+MoE | link |
| Qwen3-VL | Dense+MoE+DeepStack+Interleaved-MRoPE | link |
| Qwen3.5 | Gated DeltaNet+Gated Attention+MoE | link |
| Step 3.5 Flash | GQA+SWA+MoE+MTP | link |
GPU基础知识
BasicCUDA:
https://github.com/CalvinXKY/BasicCUDA
🎉🎉🎉:20+知识分享,涵盖CUDA、NCCL、PyTorch、GPU硬件知识
作者kaiyuan知乎主页🥳 https://www.zhihu.com/people/xky7
zhilink:
学习更多AI Infra知识,推荐关注公众号: InfraTech