一、什么是 CPU?
CPU(Central Processing Unit)是通用计算架构的核心。它负责通用逻辑运算、流程控制、指令解码与执行。现代 CPU 通常具备以下特征:
CPU 架构关键组件:
模块
作用
ALU(算术逻辑单元)
执行整数加减乘除等
FPU(浮点单元)
执行浮点运算
寄存器组
快速读写数据
L1/L2/L3 Cache
缓存层级,提高访存效率
分支预测单元
减少流水线停顿
调度器
将微指令分发到执行单元
MMU
地址映射与权限控制
CPU 优势:通用、灵活、支持系统层级复杂任务
CPU 弱点:面临 AI 算法中矩阵乘法、大规模并行时计算密度低、能效差
二、什么是 NPU?
NPU(Neural Processing Unit,神经网络处理器)是专门为深度学习计算任务加速而设计的专用处理器。也称作 DLA(Deep Learning Accelerator)、AI Engine、TPU(Google)。
NPU 的典型特性:
NPU 架构构成(以典型 AI SoC 为例):
模块
作用
Tensor Core / MAC阵列
执行矩阵乘法、卷积核滑动
SRAM/On-Chip Buffer
存放中间结果,减少 DRAM 访问
DMA/指令控制器
从主存中搬运参数与输入
激活函数单元(ReLU/Softmax)
专门实现神经网络激活操作
NPU Driver & Compiler
接收模型,调度计算图到指令
NPU 优势:吞吐量高、功耗低、单位面积性能高(TOPS/W)
NPU 局限:通用性差,需 AI 框架支持编译部署,难以处理控制密集型逻辑
三、对比分析:CPU vs NPU 架构核心差异
项目
CPU
NPU
指令类型
通用计算指令(加减跳转等)
专用 AI 运算指令(MatMul/Conv)
架构
超标量、乱序、缓存层丰富
并行张量阵列,流水数据驱动
精度
通常为 FP64/FP32
支持低精度 INT8/FP16/混合精度
数据调度
面向程序流(control-flow)
面向数据流(dataflow)
软件生态
通用 OS / 多语言支持
框架绑定,如 TensorFlow、ONNX、Tengine
应用场景
操作系统、浏览器、IDE、逻辑控制
推理(Inference)、图像识别、语音识别
能效
每 TOPS/W < 1
可达 10~100 TOPS/W(高效)
四、NPU 架构演进趋势
1.
从固定功能 → 可编程
2.
从单芯片 → 多芯异构协同
3.
支持混合精度与稀疏计算
4.
系统软件栈完善
五、CPU 与 NPU 的协同计算模型(真实应用案例)
场景:智能摄像头(IPC)AI 边缘推理
场景:手机 AI 拍照
六、未来趋势:统一架构与软件驱动
趋势
说明
CPU + NPU + GPU 融合架构(SoC)
高通、苹果、华为等均采用统一内存访问的异构处理架构
统一 AI 编译中间件(如 ONNX-RT、TensorRT)
开发者只需部署模型,中间件自动选择最优执行单元
AI 原生操作系统调度支持
嵌入式 RTOS/Linux 开始集成 AI 调度器,动态将 AI 任务 offload 到 NPU
开源 IP 核与 RISC-V NPU 发展
包括 Alibaba T-Head、SiFive、Google RISC-V TPU 研究中
七、总结
结论
说明
CPU 与 NPU 是互补关系
通用任务靠 CPU,AI 密集运算靠 NPU
NPU 在边缘 AI 场景中越来越不可或缺
能效高,推理快,延迟低
软件与硬件协同是发展核心
编译器、运行时、模型格式将决定 NPU 落地效率
学习 NPU 架构是未来工程师的核心技能之一
尤其在边缘计算、IoT、车载、智能终端等场景
2024-11-08
2023-12-19
2023-10-07
系统资讯推荐
win10系统推荐
系统教程推荐