simd loop 和 broadcast在性能上的疑惑?

julia版本 1.4


上图为一段测试代码,基本处理是计算两路复信号的模的平方以及其共轭乘积。

分别使用broadcast,4线程threads for+simd loop, 单独simd loop实现。
从效率上单纯的simd loop远远慢于broadcast(这让我很疑惑,看调用关系broadcast本身就是用simd loop展开的)

broadcast 本身略慢于4线程threads for+simd loop。这可以从很多角度解释。但结合单纯的simd loop的结果,更加让人疑惑了