|
Xilinx Zynq7020每种设计使用的主要优势1 FPGA资源和使用的资源百分比。算术格式浮动固定[2,30]固定[2,22]固定[2,14]触发器25721(24%)15369(14%)17224(16%)10711(10%)LUT 27204(51%)20722(39%)16998(32%)11894(22%)Mem LUT 10547(61%)8683(50%)6174(35%)4294(25%)BRAM 35(25%)3(2%)3(2%)3(2%)3(2%)3(2%)DSP 6(3)(3%)15(7%)9(4%)6(3%)Buft 1(3%)1(3%)1(3%)1(3%)1(3%)1(3%)1(3%)时钟200MHz功率表Thomas solver core每个组件的时钟周期延迟。算术格式浮动固定[2,30]固定[2,22]固定[2,14]除法(基数-2)乘法器6 6 6减法器4 2向前4 69 60托马斯向后6 8管理3表3在desktopCPU和实现的托马斯解算器上计算三对角系统(N=100)解的平均时间(ms)。最大吞吐量最小吞吐量CPU(2.6GHz)0.020ms(1x)0.020ms(1x)浮动0.0012ms(16x)0.063ms(0.31x)固定[2,30]0.00055ms(36x)0.040ms(0.50x)固定[2,22]0.00055ms(36x)0.036ms(0.55x)固定[2,14]0.00057ms(35x)0.028ms(0.72x)固定点解算器是减少的资源使用,通过允许更多的解算器内核安装到设备上,并增加流水线三对角系统的最大数量,从而提供了最大化粗粒度并行性的机会。正如所料,内存资源量与定点设计所用的总数据宽度成正比,而浮点解算器虽然宽32位,但使用的内存资源(BRAM和内存LUT)要多得多。5.2性能一旦实现的FPGA时钟速度已知,解算器的延迟性能可以使用等式9进行评估。
|