#pragma unroll 二三事
#pragma是程序员和编译器之间通话的重要途径,通过它可以更好地指导编译器对代码进行优化,从某种程度上说也是程序员对编译器的主权体现。#pragma unroll (n) 是能够利用编译器对循环(for、while、do)进行展开,n表示展开的程度,不加表示完全展开。这是在LLVM的框架下,在GNU下则要是#pragma GCC unroll n。具体的使用说明可以见GCC的Loop-Speci
#pragma是程序员和编译器之间通话的重要途径,通过它可以更好地指导编译器对代码进行优化,从某种程度上说也是程序员对编译器的主权体现。#pragma unroll (n) 是能够利用编译器对循环(for、while、do)进行展开,n表示展开的程度,不加表示完全展开。这是在LLVM的框架下,在GNU下则要是#pragma GCC unroll n。具体的使用说明可以见GCC的Loop-Speci
原文:Microbenchmarking Nvidia’s RTX 4090 作者:clamchowderNVIDIA RTX4090,架构代号Ada Lovelace,采用台积电4nm技术,核心代号AD102。RTX4090除了NV官方大肆宣扬的光追性能外,拥有128个SMs(实际上AD102有144个,GA102有84个)。此文中的对比试验主要是来自OpenCL写的Microbenchmark