大数据算法加速系统V1.0

2018-08-29 17:07浏览数:9121 


一、需求分析

近几年电子商务、云计算、物联网应用越来越普及,数据量呈爆炸式增长,而目前大数据人工智能领域算法在基于CPU或GPU运算框架下存在运算慢、耗能高、效率低、延时长等问题,这些问题进一步阻碍人工智能技术应用的推广,如何提升算法计算速度而又不会显著增大功耗,已成为当前亟待解决的问题。在这种背景下,博焱基于深度学习算法和FPGA板卡研发了业界领先的大数据算法加速系统。

二、系统功能

1、功能概述

博焱大数据算法加速系统V1.0(产品型号:BY183),包含热词算法加速和RNN算法加速。

博焱大数据算法加速系统V1.0是博焱智能针对CPU实现性能弱且功耗高,GPU功耗高且大规模部署成本高等问题而研发的,基于FPGA加速板卡,通过用户的算法层分析,找出算法中耗时较长的运算点,通过高速接口将数据传送给FPGA加速板卡,利用FPGA的高速并行运算特点提高效率的深度学习加速系统。

RL9O7SV`U1%3_[30V4_JP@C.png

工作流程图

2、功能模块

博焱大数据算法加速系统V1.0主要包含两部分:软件SDK和硬件FPGA IP两部分。

(1)软件部分

包括底层驱动和可配置的深度学习库、模型配置层、模型分析层、接口适配层,实现和DeepLearning4j/Caffe/TensorFlow的无缝对接。

(2)硬件部分

FPGA IP主要包括外围接口部分和可配置的深度学习模型两部分。外围接口主要实现了PCIe接口、DMA、DDR3控制器。可配置的深度学习模型主要实现了卷积、池化、非线性函数、全连接等基本功能模块,通过软件SDK进行配置可以实现各种深度学习模型。

(3)系统架构图

@[$ICBS`K(3ES}VR9SE7355.png

三、系统优势

博焱大数据算法加速系统V1.0,具备运行效率高、低延迟性、实时反馈、低运营成本等特点,同时可满足大数据软件企业、数据分析企业产品的二次开发集成,具备灵活可配置特点。

  • 基于深度学习算法和FPGA加速板卡,可实现60GFLOPS/W的超高性能功耗比,加速效果比GPU高达20倍

  • 支持DeepLearning4j/Caffe/TensorFlow无缝对接,后续可以扩展其他框架

  • 可预置高性能常见模型,如Lenet/VGG16/GoogleNet/YOLOV2/SSD300/SSD500/ResNet

  • SDK支持多进程、多线程及一机多卡模式

  • 支持现有Operator,模块化设计后续可扩展新的Operator,且可进行模型压缩和量化

  • 存储器带宽需求低,计算结果可直接发送下一计算单元,运算量大且速度快

四、应用场景

  • 大数据企业

  • 网信办

  • 智慧城市

  • 互联网应急中心

  • 高等院校

  • 数据研究中心