julia版本 1.4
上图为一段测试代码,基本处理是计算两路复信号的模的平方以及其共轭乘积。
分别使用broadcast,4线程threads for+simd loop, 单独simd loop实现。
从效率上单纯的simd loop远远慢于broadcast(这让我很疑惑,看调用关系broadcast本身就是用simd loop展开的)
broadcast 本身略慢于4线程threads for+simd loop。这可以从很多角度解释。但结合单纯的simd loop的结果,更加让人疑惑了