高性能FPGA加速板卡V1.0

2018-08-29 17:13浏览数:12722 


一、需求分析

在AI神经网络计算、在线识别、在线合成、海量图片运算、ADAS(高级辅助驾驶系统)等场景,并行高性能计算已是趋势。但目前市场上大数据人工智能领域算法多是基于CPU或GPU,运算出现速度慢、功耗高、效率低、延时高等问题。

针对目前市场问题,博焱智能基于Intel和Xilinx的中高端FPGA芯片,定制AI及高性能计算专用的加速板卡级产品和带有光纤通讯接口的一体机产品。能有效解决上述计算中数据量大、吞吐量大、延迟高等问题。

二、产品功能

1、产品概述

博焱高性能FPGA加速板卡V1.0(产品型号:BY186),是基于Zynq(R)-7000 SoC 、Virtex(R)-7、Virtex(R) UltraScale+研发而来。产品可分为FPGA-7035、FPGA-V7、FPGA-9P。针对不同需求和应用场景,有不同的市场定位和产品定位。

FPGA-7035,是一款基于Zynq(R)-7000 SoC 的高性能数据处理板卡。产品具备软件可编程性与 FPGA 硬件可编程性于一体,不仅可实现重要分析与硬件加速,同时可在单个器件上高度集成CPU、DSP、ASSP 以及混合信号功能。器件配备双核 ARM Cortex-A9 处理器,该处理器与基于 28nm Artix-7 或 Kintex(R)-7 的可编程逻辑集成,可实现优异的性能功耗比和设计灵活性。满足客户开发高度差异化产品,实现低成本、功能丰富、高性能特点。

XFBOLIH}8OZPMB@6(`~INGA.png

FPGA-7035

FPGA-V7,是一款基于Virtex(R)-7 的高速大容量数据处理板卡。产品针对 28nm 系统性能与集成进行了优化,实现业界最佳的功耗性能比架构、DSP 性能以及 I/O 带宽。 产品可广泛用于雷达、视频图像采集以及 ASIC 原型设计等各种应用。满足客户实现节能、提高系统性能和容量等要求,实现中等成本、功能优良、高性能特点。XKVRXDZOP@UPTYGBI46UBGP.png

FPGA-V7

FPGA-9P是一款基于Virtex(R) UltraScale+ 的超高速超大容量数据处理板卡。可在 FinFET节点上提供最高的性能及集成功能,包括 DSP 计算性能21.2 TeraMAC 的最高信号处理带宽。可提供最高的片上存储器密度,支持达 500Mb 的总体片上集成型存储器以及高达,可提供460GB/s 的存储器带宽。作为业界功能最强的 FPGA 板卡,在较高成本下实现超高性能和功能的特点,满足机器学习、数据中心互联、全面集成的雷达和警示系统。W~U4G(C~[NIR4M[4_KRVKLR.png

FPGA-9P

8%8NGPS7U@P[CX~6GVOL%WL.png

LN[9OYSSBWYDA]P5ODG~O1T.png

工作流程图


     2、产品参数


    产品参数


FPGA-7035

FPGA-V7

FPGA-9P

最大逻辑单元(k)

275

677

2586

最大DSP Slice

900

3600

6840

最大存储器(Mb)

17.6

51.68

75.9

有效I/O引脚

250

600

832

差分高速接口(路)

8(GTX)

80(GTH)

120(GTY)

最高速率(Gbps)

12.5

13.1

32.75

PCIe接口支持(路)

1(gen2)

3(gen2)

6(gen3/gen4)

三、产品优势

三款产品具备业界高功耗性能比,采用通用门电路组合,在整数性运算、乘累加、矩阵、卷积运算具有天然的加速优势。

  • 总功耗削减,与多芯片解决方案相比,达 70%。与CPU和GPU性能对比,单位功耗性能方面提高了10倍以上

  • BOM 成本削减,与多芯片解决方案相比,其成本可降低40%

  • 可编程的系统集成,不同类型的应用负载可以被加载在同一型号、可编程可变换FPGA阵列

  • 系统性能提升,数据分析、查询计算方面提升了33倍;精度时钟发生器满足严格的定时要求

  • 实时验证,快速调试逻辑和串行接口,内存接口带宽减少

  • 消除DSP和数据包处理中的关键瓶颈,减少路由拥塞,降低动态功耗

  • 使用预先验证的IP核,保护IP、防止篡改,增强功能、设计更快、风险更低

四、应用场景

  • 人脸识别

  • 人证识别

  • 商品VI/LOGO识别

  • 热词算法加速

  • 大数据SQL计算加速

  • 云计算领域

  • 金融高频交易

  • 雷达及军事运用