CUDA算子优化(1):Reduce

CUDA算子优化(1):Reduce

Reduce(规约)是GPU编程中最基础,也是最能体现并行思维的算子之一。本文将一步一步带你优化Reduce sum算子,让你理解怎么写出更快的kernel。

1. Reduce算子基础

Reduce是一类“多输入->单输出”的操作。比如下列操作:

发表评论