逐元素运算如何并行?

例如:如果a是一个很大的矩阵,现在我想把每个元素都乘某个数,我注意到 a.*2这个运算好像只使用了一个CPU,如何并行这个操作?感谢回复。

试下这个

这里有你需要的

对于非常trivial的逐元素运算一般没有并行的需求,线程切换以及数据传输的开销往往比计算的开销要大,一般更粗一些粒度的并行会更高效一些,例如:把矩阵划分成由多个相邻的列组成的block,然后在block级别上进行并行

非常好,万分感谢