CUDA算子优化(1):Reduce
Reduce(规约)是GPU编程中最基础,也是最能体现并行思维的算子之一。本文将一步一步带你优化Reduce sum算子,让你理解怎么写出更快的kernel。
1. Reduce算子基础
Reduce是一类“多输入->单输出”的操作。比如下列操作:
Reduce(规约)是GPU编程中最基础,也是最能体现并行思维的算子之一。本文将一步一步带你优化Reduce sum算子,让你理解怎么写出更快的kernel。
Reduce是一类“多输入->单输出”的操作。比如下列操作: