三维卷积运算imfilter()如何进一步加速?

需要做n次三维卷积运算,目前的命令如下,每次耗时大概11s,请教下还有没有办法可以提高速度:

using ImageFiltering
@time imfilter(Float32, rand(Int8, 300, 300, 300), rand(Int8, 100, 100, 100));

11.034938 seconds (83 allocations: 3.212 GiB, 4.00% gc time)

试了GPU,但文档里调用GPU的例子(imfilter(ArrayFireLibs(), rand(Int8, 300, 300, 300), rand(Int8, 100, 100, 100)))运行不了,add ArrayFire报错。