# Ascend NPU 平台支持模型列表

> 本页面专门收录了在Ascend NPU平台上经过测试和验证的大语言模型部署教程。我们为每个支持的模型提供了详细的 NPU 环境配置指南、部署步骤和优化建议。所有教程均在实际 NPU 硬件环境中验证通过，确保能够在 NPU 平台上顺利运行。

## NPU 硬件环境支持

目前教程主要支持以下 NPU 硬件平台：
- **Atlas A2 系列**：Atlas 800I A2、Atlas 800T A2、Atlas 300I A2等；
- **Atlas A3 系列**：Atlas 800I A3、Atlas 800T A3等；

注：Atlas A2 代表昇腾910B系列芯片，型号包含昇腾910B1、910B2、910B3、910B4、910B4-1； Atlas A3 代表昇腾910C系列芯片。

## 目录

- [Qwen3](#qwen3)

## 已支持模型列表

### Qwen3

[Qwen3](https://github.com/QwenLM/Qwen3)
- [x] [Qwen3-8B MindIE 部署调用](./models_ascend/qwen3/01-Qwen3-8B-MindIE部署调用.md) @刘十一 
- [x] [Qwen3-8B vLLM-ascend 部署调用](./models_ascend/qwen3/02-Qwen3-8B-vLLM-ascend部署调用.md) @刘十一 
- [x] [Qwen3-8B sglang-ascend 部署调用](./models_ascend/qwen3/03-Qwen3-8B-sglang-ascend部署调用.md) @陈辅元


### 大模型服务化性能和精度测试
- [x] [AISBench 测试工具环境配置](https://github.com/Zhiwen-Liu/LLM-Testing/blob/main/%E6%B5%8B%E8%AF%84%E5%89%8D%E5%87%86%E5%A4%87/AISBench%E5%AE%89%E8%A3%85%E4%B8%8E%E5%8D%B8%E8%BD%BD.md) @刘十一 
- [x] [昇腾大模型服务化性能和精度测试](https://github.com/Zhiwen-Liu/LLM-Testing) @刘十一 

## Ascend NPU 环境配置通用指南

### 1. 系统要求

**操作系统：**
- Linux openEuler 22.03 LTS for ARM（推荐）
- Linux Ubuntu 22.04 LTS for ARM（推荐）

**硬件要求：**
- Atlas A2 系列或Atlas A3 系列产品
- 最低 128GB 内存，推荐 256GB+
- 存储：至少 50GB 可用空间

### 2. 驱动固件安装和Docker环境准备

**Ascend NPU 驱动：**
- 下载并安装最新的 [Ascend NPU 驱动和固件包](https://www.hiascend.com/hardware/firmware-drivers/community?product=4&model=32&cann=8.5.0.alpha002&driver=Ascend+HDK+25.3.RC1)
- 确保 NPU 驱动正确安装和识别
    ```bash
    # 检查 NPU 设备状态
    npu-smi info
    ```
    ![0-1](./models_ascend/images/01-01.png)

**Docker 环境：**
- 安装 Docker 并配置镜像源
- 确保 Docker 容器可以正常使用，且在容器内可以访问Ascend NPU 设备。

### 3. 软件环境

**Python 环境：**
```bash
# 推荐使用 Python 3.9+
conda create -n ascend_llm python=3.9
conda activate ascend_llm

# 更换 pypi 源加速安装
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
```

**核心依赖：**
- torch
- torch-npu
- transformers
- huggingface_hub
- modelscope


## 性能优化建议

### 1. CPU和内存优化
- 开启CPU高性能模式和透明大页
  ```bash
  # 开启CPU高性能模式，在相同时延约束下，大模型推理TPS会有约3%的提升。
  cpupower -c all frequency-set -g performance
  # 开启透明大页，多次实验的吞吐率结果会更稳定。
  echo always > /sys/kernel/mm/transparent_hugepage/enabled
  ```
### 2. 框架加速
- 在支持的硬件上使用对应加速框架进行加速，如MindIE、vllm-ascend等。

### 3. 模型量化
- 使用[msModelSlim](https://gitcode.com/Ascend/msit/tree/master/msmodelslim) 昇腾模型压缩工具对模型进行W8A8等量化减少内存占用，在保证精度的前提下提升推理速度。

## 常见问题

### Q: 如何检查我的 Ascend NPU 设备是否被正确识别？
A: 可以使用以下命令检查硬件支持情况：
```bash
# 检查 NPU 设备状态
npu-smi info
```
![0-1](./models_ascend/images/01-01.png)

### Q: 如何贡献新的 Ascend NPU 模型教程？
A: 欢迎提交 PR 到本仓库，我们特别期待：
- 更多 Ascend NPU 型号的支持教程
- Linux Ascend NPU 环境的部署指南
- 性能优化和基准测试结果

> 💡 **提示：** 本教程系列正在持续更新中，如果您有特定 Ascend NPU 平台的模型部署需求或建议，欢迎通过 Issue 或 PR 与我们联系。