发帖

楼主: joy.

176 0

[学科前沿] 昇腾生态的基石：深度解析 CANN 架构与 Ascend C 算子开发 [推广有奖]

0关注
0粉丝

等待验证会员

学前班

80%

还不是VIP/贵宾

-

0%

威望: 0 级
论坛币: 0 个
通用积分: 0
学术水平: 0 点
热心指数: 0 点
信用等级: 0 点
经验: 30 点
帖子: 2
精华: 0
在线时间: 0 小时
注册时间: 2018-4-16
最后登录: 2018-4-16

楼主

joy. 发表于 2025-12-11 18:22:41 |AI写论文

是否 +2 论坛币

k人参与回答

经管之家送您一份

应届毕业生专属福利!

求职就业群

赵安豆老师微信：zhaoandou666

经管之家联合CDA

送您一个全额奖学金名额~ !

立即领取

感谢您参与论坛问题回答

经管之家送您两个论坛币！

+2 论坛币

在人工智能算力飞速发展的时代，如何充分释放硬件性能已成为开发者关注的重点。华为昇腾以 CANN（Compute Architecture for Neural Networks）为核心，构建了一套完整、开放且高效的异构计算架构体系。本文将从整体架构演进到具体代码实现，深入剖析 CANN 的设计理念与工程实践，并结合可落地的开发示例，帮助您掌握昇腾AI开发的关键能力。

一、CANN：连接AI框架与芯片的“智能中枢”

CANN，全称为神经网络异构计算架构，是华为为昇腾AI处理器专门打造的软硬件协同平台。它位于主流AI框架（如MindSpore、PyTorch、TensorFlow）与底层达芬奇架构NPU之间，承担着算力调度、算子编译、资源管理及性能优化等核心功能。

形象理解： 如果把AI框架比作“设计师”，负责绘制模型结构图；那么CANN就是“总工程师”，将设计图纸转化为可在工厂（即昇腾芯片）中执行的工程指令，协调工人（AICore）、物料搬运（数据传输）和流水线控制（任务调度），实现高效生产。

CANN 的三大核心定位

统一接口层： 屏蔽底层硬件差异，实现“一次开发，多端运行”。
性能加速器： 通过图优化、算子融合、内存复用等技术，最大化利用硬件资源。
生态连接器： 支持多种主流AI框架接入，推动昇腾生态持续扩展。

CANN 发展历程（截至2025年）

版本	时间	关键里程碑
CANN 1.0	2018年9月	初代发布，奠定基础架构
CANN 3.0	2020年	支持多框架融合与分布式训练
CANN 7.0	2025年7月	深度集成鸿蒙、欧拉等国产操作系统
CANN 8.0	2025年8月	全面开源开放，启动生态共建

重大进展： 2025年8月5日，华为轮值董事长徐直军在昇腾计算产业发展峰会上宣布 CANN 全面开源开放，并联合产业界发起《CANN 开源开放生态共建倡议》，标志着昇腾生态正式迈入开放协作的新阶段。

二、CANN 架构分层解析：从编译到执行的全流程透视

CANN 采用清晰的分层架构设计，各层级职责分明，协同运作高效：

开放编程层（AscendCL）
提供标准的 C/C++ API 接口，支持应用程序直接调用、AI框架集成或封装为独立库文件，是开发者与昇腾硬件交互的首要入口。
计算服务层
包含两个关键组件：
- 昇腾算子库（AOL）： 提供包括NN、BLAS、DVPP、AIPP、HCCL在内的丰富算子集合，既支持单个算子调用，也可被集成至AI框架中使用。
- 昇腾调优引擎（AOE）： 可自动识别模型性能瓶颈，进行图优化、调度优化和通信优化，显著减少人工调参的工作量。
计算编译层
负责将高层级的计算图转换为底层可执行代码，主要流程包括：
- 图解析： 支持对 TensorFlow、PyTorch 等主流框架生成的计算图进行解析。
- 图优化： 实施常量折叠、死边消除、算子融合等优化策略。
- 图编译： 完成内存分配、Task生成、UB融合等底层调度操作。
- 算子编译： 生成面向AICore的CCE-C代码，确保极致执行效率。

三、AIPP：AI预处理中的“图像魔术师”

在实际AI应用中，图像预处理环节至关重要。CANN 提供了 AIPP（AI Pre-Processing）机制，能够在NPU上直接完成高性能图像处理，提升整体推理效率。

功能	说明
色域转换	例如 YUV 转 RGB
图像归一化	减去均值、乘以缩放系数，适配模型输入要求
抠图（Crop）	提取感兴趣区域

注意事项： 静态AIPP 与动态AIPP 不可同时存在，必须根据场景选择其一。

类型	特点	适用场景
静态AIPP	参数固化在模型中，推理过程中不可更改	适用于批量处理、流程固定的场景
动态AIPP	每次推理前可灵活设置处理参数	适合多Batch且需不同预处理配置的情况

.om

四、Ascend C：面向未来的算子开发语言

当现有标准算子无法满足特定需求时，开发者需要自定义算子。Ascend C 是 CANN 专为算子开发设计的原生编程语言，具备以下优势：

兼容 C/C++ 开发习惯，无需额外学习成本。
支持结构化核函数编程，逻辑清晰，易于维护。
内置自动流水并行调度机制，提升执行效率。
支持 CPU/NPU 孪生调试模式，大幅降低调试难度。

实战示例：向量加法算子（Vector Add）

以下是一个完整的 Ascend C 实现的向量加法算子，展示了典型的“三段式流水”编程模型：CopyIn → Compute → CopyOut。

#include "kernel_operator.h"
const int32_t BUFFER_NUM = 2; // 双缓冲机制

class KernelAdd {
public:
  __aicore__ inline KernelAdd() {}

  // 初始化：绑定全局内存与队列
  __aicore__ inline void Init(GM_ADDR x, GM_ADDR y, GM_ADDR z,
      uint32_t totalLength, uint32_t tileLength) {

class KernelAdd {
public:
    __aicore__ inline void Init(GM_ADDR x, GM_ADDR y, GM_ADDR z, 
                                uint32_t totalLength, uint32_t tileLength) {
        this->tileLength = tileLength;
        xGm.SetGlobalBuffer((__gm__ half*)x, totalLength);
        yGm.SetGlobalBuffer((__gm__ half*)y, totalLength);
        zGm.SetGlobalBuffer((__gm__ half*)z, totalLength);

        pipe.InitBuffer(inQueueX, BUFFER_NUM, tileLength * sizeof(half));
        pipe.InitBuffer(inQueueY, BUFFER_NUM, tileLength * sizeof(half));
        pipe.InitBuffer(outQueueZ, BUFFER_NUM, tileLength * sizeof(half));
    }

private:
    TPipe pipe;
    GlobalTensor<half> xGm, yGm, zGm;
    TQue<QuePosition::VECIN, BUFFER_NUM> inQueueX, inQueueY;
    TQue<QuePosition::VECOUT, BUFFER_NUM> outQueueZ;
    uint32_t tileLength;

    __aicore__ inline void CopyIn(int32_t progress) {
        LocalTensor<half> xLocal = inQueueX.AllocTensor<half>();
        LocalTensor<half> yLocal = inQueueY.AllocTensor<half>();

        DataCopy(xLocal, xGm[progress * tileLength], tileLength);
        DataCopy(yLocal, yGm[progress * tileLength], tileLength);

        inQueueX.EnQue(xLocal);
        inQueueY.EnQue(yLocal);
    }

    __aicore__ inline void Compute(int32_t progress) {
        LocalTensor<half> xLocal = inQueueX.DeQue<half>();
        LocalTensor<half> yLocal = inQueueY.DeQue<half>();
        LocalTensor<half> zLocal = outQueueZ.AllocTensor<half>();

        Add(zLocal, xLocal, yLocal, tileLength);
        outQueueZ.EnQue(zLocal);

        inQueueX.FreeTensor(xLocal);
        inQueueY.FreeTensor(yLocal);
    }

    __aicore__ inline void CopyOut(int32_t progress) {
        LocalTensor<half> zLocal = outQueueZ.DeQue<half>();
        DataCopy(zGm[progress * tileLength], zLocal, tileLength);
        outQueueZ.FreeTensor(zLocal);
    }

    __aicore__ inline void Process(uint32_t tileNum) {
        for (int32_t i = 0; i < tileNum; i++) {
            CopyIn(i);
            Compute(i);
            CopyOut(i);
        }
    }
};

extern "C" __global__ __aicore__ void add_custom(GM_ADDR x, GM_ADDR y, GM_ADDR z,
                                                 GM_ADDR workspace, GM_ADDR tiling) {
    uint32_t totalLength = /* 从tiling解析 */;
    uint32_t tileNum = /* 从tiling解析 */;
    uint32_t tileLength = /* 从tiling解析 */;

    KernelAdd op;
    op.Init(x, y, z, totalLength, tileLength);
    op.Process(tileNum);
}

代码亮点解析：

采用模块化设计思路，将初始化、数据搬入、计算执行与结果回写拆分为独立函数，提升可读性与维护性。通过队列机制实现流水线并行处理，有效利用硬件资源，提高执行效率。

__aicore__

核函数通过关键字标识，运行于AICore之上。

利用

TPipe

与

TQue

构建双缓冲流水线结构，有效隐藏数据搬运过程中的延迟问题。

DataCopy

用于实现全局内存（GM）和本地内存（Local）之间的高效数据传输。

Add

代表由底层引擎直接调度的硬件加速向量算子。

五、AscendCL 与 Ascend C 的协同机制

层级	角色	协同方式
AscendCL	上层调度接口	负责模型加载

.om

包括含自定义算子的模型，进行设备与内存资源分配，并提交执行任务。

Ascend C

底层算子实现

提供高性能算子内核，编译生成

.o

文件并集成至模型包中。

协同流程：

AscendCL 加载模型
解析出其中包含的各类算子
将任务调度至 AICore 执行由 Ascend C 编写的核函数

类比说明：AscendCL 类似“操作系统”，负责资源管理与任务调度；而 Ascend C 则相当于“驱动程序”，提供对底层硬件的操作支持。

六、生态融合：CANN 如何推动国产AI生态发展？

截至2025年，CANN 已完成与五大主流国产操作系统的深度适配，涵盖：

鸿蒙（HarmonyOS）
欧拉（openEuler）
麒麟（Kylin）
红旗（Red Flag）
统信（UOS）

同时，其高性能算子库已服务于超过

30+ 家客户及合作伙伴

落地应用

260+ 核心算子

整体网络性能平均提升

超10%

在通信效率方面，依托 pipeline 流水机制与 NHR 核算法优化，通信效率实现

提升50%以上

总结：为何选择昇腾 + CANN 架构？

全栈自研，安全可控：从芯片到软件框架，实现端到端自主可控能力。
开发高效，门槛降低：AscendCL 提供统一编程接口，Ascend C 简化算子开发流程，配合 AOE 实现自动性能调优。
生态开放，共建共享：CANN 8.0 全面开源，积极拥抱开发者社区，共同建设国产AI生态体系。
性能卓越，场景丰富：全面支持训练、推理、边缘计算及云端部署，覆盖全场景AI应用需求。

未来展望

随着 CANN 技术的持续迭代与生态体系的不断扩展，昇腾AI正迅速成长为国产AI算力的核心支柱。无论是在科研探索、工业应用，还是消费级产品领域，掌握 CANN 与 Ascend C 技术，意味着掌握了通往下一代AI基础设施的关键能力。

学习路径建议

从 AscendCL 入手，熟悉设备、内存、流以及模型的基本操作；
深入 Ascend C，动手编写简单算子，理解流水线机制与内存模型设计；
结合 AOE 工具与动态 AIPP 功能，优化实际业务场景下的模型性能表现。

立即启程，加入昇腾AI生态，共同探索人工智能的前沿边界！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享0 收藏0 回帖

关键词：ASCE SCE End CEN Architecture

[学科前沿] 昇腾生态的基石：深度解析 CANN 架构与 Ascend C 算子开发 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

一、CANN：连接AI框架与芯片的“智能中枢”

CANN 的三大核心定位

CANN 发展历程（截至2025年）

二、CANN 架构分层解析：从编译到执行的全流程透视

三、AIPP：AI预处理中的“图像魔术师”

四、Ascend C：面向未来的算子开发语言

实战示例：向量加法算子（Vector Add）

五、AscendCL 与 Ascend C 的协同机制

六、生态融合：CANN 如何推动国产AI生态发展？

总结：为何选择昇腾 + CANN 架构？

未来展望

学习路径建议

扫码加我拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

[学科前沿] 昇腾生态的基石：深度解析 CANN 架构与 Ascend C 算子开发 [推广有奖]

经管之家送您一份

经管之家联合CDA

感谢您参与论坛问题回答

一、CANN：连接AI框架与芯片的“智能中枢”

CANN 的三大核心定位

CANN 发展历程（截至2025年）

二、CANN 架构分层解析：从编译到执行的全流程透视

三、AIPP：AI预处理中的“图像魔术师”

四、Ascend C：面向未来的算子开发语言

实战示例：向量加法算子（Vector Add）

五、AscendCL 与 Ascend C 的协同机制

六、生态融合：CANN 如何推动国产AI生态发展？

总结：为何选择昇腾 + CANN 架构？

未来展望

学习路径建议

扫码加我 拉你入群

相关帖子

浏览过的帖子

浏览过的版块

本版微信群

扫码加我拉你入群