摘要:為在嵌入式應(yīng)用領(lǐng)域中實現(xiàn)高性能、低功耗的深度學習算法,針對網(wǎng)絡(luò)的前向傳播過程,通過設(shè)計指令格式和數(shù)據(jù)格式來傳輸CNNs計算所需要的參數(shù),采用基于FPGA的軟硬件協(xié)同設(shè)計的方法,構(gòu)建面向嵌入式應(yīng)用的深度學習分類系統(tǒng)。實驗結(jié)果表明,在100MHz的工作頻率下,與GPU實現(xiàn)相比,該加速器在保證分類精度的情況下,整個網(wǎng)絡(luò)的平均性能為0.08GOP/s,能耗比為GTX 1070的2.29倍,功耗僅為GPU的2.114%。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社