久久久久国产免费-亚洲成av人影院无码不卡-免费在线观看黄色-中文字幕av高清片-亚洲最大的成人网-校园春色亚洲激情-日韩在线观看一区二区-亚洲专区中文字幕-97伦伦午夜电影理伦片-亚洲精品国产v片在线观看-欧美自拍偷拍一区-hodv一21134铃原爱蜜莉在线-日韩国产精品一区二区-中国精品妇女性猛交bbw-欧美一卡2卡3卡4卡新区在线

歡迎訪問深圳市中小企業(yè)公共服務平臺電子信息窗口

芯來科技:以 RISC-V V 擴展加速 AI 推理,開啟嵌入式智能新紀元

2025-07-18 來源:愛集微 原創(chuàng)文章
1291

關(guān)鍵詞: 芯來科技 RISC-V V擴展 嵌入式AI Nuclei AI Library BF16擴展

從智能家居到智能交通,從醫(yī)療診斷到工業(yè)自動化,AI 的應用場景不斷拓展,其對算力的需求也日益攀升。然而,在資源受限的嵌入式設備上實現(xiàn)高效的 AI 推理,一直是困擾業(yè)界的難題。

7月18日,在第五屆RISC-V中國峰會的AI分論壇上,芯來科技嵌入式軟件工程師舒卓發(fā)表演講時介紹了芯來科技是如何通過 RISC-V V擴展技術(shù),為這一難題提供了一套創(chuàng)新且高效的解決方案,為嵌入式 AI 的發(fā)展注入了強勁動力。

背景:嵌入式 AI 的挑戰(zhàn)與機遇

隨著 AI 技術(shù)的飛速發(fā)展,其應用范圍逐漸從云端服務器向邊緣設備和嵌入式系統(tǒng)延伸。嵌入式設備以其低功耗、高性能、高集成度等特性,在物聯(lián)網(wǎng)、智能穿戴、工業(yè)控制等領(lǐng)域展現(xiàn)出巨大的應用潛力。然而,嵌入式設備的硬件資源相對有限,其算力難以滿足復雜 AI 模型的直接運行需求。因此,嵌入式 AI 通常采用“訓練 - 推理分離”的模式,即在服務器上完成模型的訓練,然后將訓練好的模型部署到嵌入式設備上進行推理運算。

舒卓指出,在硬件架構(gòu)方面,嵌入式 AI 系統(tǒng)多采用“通用 + 專用”的架構(gòu)組合。專用架構(gòu)如專用的 DSA(Domain - Specific Architecture)或 NPU(Neural Processing Unit),它們針對特定的 AI 算法進行了優(yōu)化,能夠提供強大的算力支持,但靈活性較差,難以適應算法的快速迭代。而通用架構(gòu)則以 RISC-V V 擴展為代表,它能夠隨著算子的演進而不斷升級,為嵌入式設備提供了更為靈活的 AI 加速方案。

Nuclei AI Library:為 VPU 加速賦能

在這樣的行業(yè)背景下,芯來科技推出了 Nuclei AI Library,旨在為開發(fā)者提供一套基于 RISC-V V 擴展的高效 AI 算子優(yōu)化庫。Nuclei AI Library 的出現(xiàn),正是為了填補 NPU 在某些場景下無法滿足需求的空白,為嵌入式設備上的 AI 推理提供更強大的支持。

Nuclei AI Library 對常見的 AI 算子進行了深度優(yōu)化,覆蓋了 int8、int16、fp16、bf16、fp32 等多種數(shù)據(jù)格式,能夠滿足不同精度要求的 AI 應用場景。無論是矩陣運算、卷積操作,還是激活函數(shù)等,這些經(jīng)過優(yōu)化的算子都能在 RISC-V VPU(Vector Processing Unit)上實現(xiàn)高效的運行。而且,該庫還提供了對不同運行環(huán)境的支持,包括裸機、RTOS(Real - Time Operating System)以及 Linux 環(huán)境,極大地增強了其在實際應用中的適用性。

在實際的性能測試中,Nuclei AI Library 的表現(xiàn)令人矚目。以 GEMM(General Matrix Multiply,通用矩陣乘)算子為例,這是 AI 模型中算力占比極高的一個算子。通過采用一系列優(yōu)化策略,如避免使用效率較低的 Reduction 指令、充分“榨取”已加載的數(shù)據(jù)以減少 Load 操作、盡量用滿 V 數(shù)據(jù)寄存器等,Nuclei AI Library 在 Nuclei nx900fdv 上對 GEMM 算子進行了優(yōu)化,實測結(jié)果顯示其性能提升倍數(shù)顯著,為嵌入式設備上的矩陣運算帶來了質(zhì)的飛躍。

對于 CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡)中占比極高的 CON2D(二維卷積)算子,Nuclei AI Library 同樣提供了高效的優(yōu)化方案。目前常用的優(yōu)化方法有兩種:一種是使用 Im2col + GEMM,另一種是使用 Winograd + GEMM 加速小尺寸卷積核。這兩種方法的核心都是將復雜的卷積運算轉(zhuǎn)化為矩陣乘法運算,從而充分利用矩陣運算的高效性。在 Nuclei nx900fdv 上的測試數(shù)據(jù)表明,經(jīng)過 V 擴展優(yōu)化后的 CON2D 算子性能得到了大幅提升,為嵌入式設備上 CNN 網(wǎng)絡的推理運算提供了有力支持。

Nuclei BF16 擴展:提升 AI 計算效率的利器

除了對常見 AI 算子的優(yōu)化,芯來科技還針對當前 AI 領(lǐng)域?qū)τ嬎阈屎途鹊碾p重需求,推出了 Nuclei BF16 擴展。BF16(Brain Floating - Point 16)是由 Google 提出的一種數(shù)值格式,它保留了與 FP32(32 位浮點數(shù))相同的 8 位指數(shù)寬度,從而具有與 FP32 相同的動態(tài)范圍,但在精度上略低于 FP32。然而,在許多深度學習應用場景中,這種精度的降低對最終結(jié)果的影響微乎其微,而 BF16 的位寬減半?yún)s能顯著提高內(nèi)存帶寬利用率,若再配合 SIMD(Single Instruction Multiple Data,單指令多數(shù)據(jù))指令優(yōu)化,計算效率可成倍提升。

RISC-V 官方目前定義了基本的 BF16 轉(zhuǎn)換指令和向量乘加指令(zvfbfmin 擴展),但這種方式存在一定的局限性,即需要將 BF16 轉(zhuǎn)換為 FP32 后才能進行其他計算,這無疑降低了計算效率和帶寬利用率。針對這一問題,芯來科技通過硬件與工具鏈的協(xié)同優(yōu)化,提出了 Nuclei BF16 擴展。該擴展兼容官方 BF16 指令,自定義了 BF16 rvv intrinsic function,生成與 FP16 相同的指令,并通過設置不同的寄存器值來切換硬件行為,從而避免了不必要的轉(zhuǎn)換,充分發(fā)揮了 BF16 的算力優(yōu)勢。

Nuclei BF16 擴展具有諸多顯著特點。首先,它生成的 BF16 指令與 F16 保持一致,通過 CSR(Control and Status Register,控制狀態(tài)寄存器)寄存器配置來動態(tài)決定硬件處理行為,這種靈活的配置方式使得硬件能夠根據(jù)不同的應用場景靈活切換運算模式。其次,Nuclei BF16 擴展提供了專用 intrinsic API,完整支持 BF16 標量和向量運算,為開發(fā)者提供了強大的工具,使其能夠充分利用 BF16 的高效計算能力。實際測試結(jié)果表明,采用 Nuclei BF16 擴展的方案相比官方 zvfbfmin 擴展,性能提升可達 1 倍以上,這一顯著的性能提升無疑為 AI 應用在嵌入式設備上的高效運行提供了有力保障。

Nuclei 矩陣擴展:定制化指令助力性能飛躍

在 AI 應用中,矩陣運算是最為基礎(chǔ)且頻繁的操作之一,其性能的優(yōu)劣直接關(guān)系到整個 AI 系統(tǒng)的運行效率。舒卓表示,為了進一步提升矩陣計算性能,芯來科技在 Nuclei GCC(GNU Compiler Collection)工具鏈中引入了定制化的 VPU 擴展 Xxlvqmacc。該擴展遵循 IME(Instruction - set Meta - Architecture,指令集元架構(gòu))group 規(guī)范設計,實現(xiàn)了高效的整數(shù)矩陣乘加指令,并提供了相應的 intrinsic functions,以方便開發(fā)者在實際編程中使用。

Xxlvqmacc 擴展支持 8 位整數(shù)輸入值擴展至 32 位精度,這對于需要高精度計算的 AI 應用場景具有重要意義。通過這種擴展,開發(fā)者可以在保持較低存儲和傳輸帶寬需求的同時,獲得更高的計算精度,從而在嵌入式設備上實現(xiàn)更為復雜的 AI 算法。例如,在進行矩陣乘法運算時,傳統(tǒng)的實現(xiàn)方式需要多層循環(huán)嵌套,逐個元素進行計算,這種方式在嵌入式設備上效率較低。而借助 Xxlvqmacc 擴展,開發(fā)者可以利用向量化的指令,一次性處理多個數(shù)據(jù),大大減少了循環(huán)迭代次數(shù),顯著提高了運算速度。

結(jié)語:引領(lǐng)嵌入式 AI 發(fā)展潮流

芯來科技通過 RISC-V V 擴展技術(shù)在 AI 推理領(lǐng)域的創(chuàng)新應用,成功地為嵌入式設備上的 AI 運算帶來了前所未有的性能提升。Nuclei AI Library 為開發(fā)者提供了豐富的優(yōu)化算子,涵蓋了多種數(shù)據(jù)格式和運行環(huán)境,極大地簡化了開發(fā)流程,降低了開發(fā)門檻;Nuclei BF16 擴展則針對 AI 領(lǐng)域?qū)τ嬎阈屎途鹊奶厥庑枨?,提出了高效的解決方案,顯著提高了 BF16 格式的計算性能;而 Nuclei 矩陣擴展更是從底層硬件指令層面出發(fā),為矩陣運算這一 AI 核心操作提供了強大的支持。

在未來的智能時代,隨著 AI 技術(shù)的不斷深化和應用場景的持續(xù)拓展,嵌入式設備上的 AI 推理將扮演越來越重要的角色。芯來科技憑借其在 RISC-V V 擴展領(lǐng)域的深厚技術(shù)積累和持續(xù)創(chuàng)新能力,將繼續(xù)引領(lǐng)嵌入式 AI 的發(fā)展潮流,助力各行業(yè)實現(xiàn)智能化升級,為人們的生活和工作帶來更多的便利和可能性。




主站蜘蛛池模板: 黄色免费在线观看视频| 蜜臀av性久久久久蜜臀aⅴ涩爱| 欧美做受| 日本黄在线| 老女人裸体看个够| 想让男人操| 男人插入女人阴道视频| 毛片美国| 尤物一区| 深夜男人网站| 亚洲香蕉中文网| 黄色在线视频网站| 国产精品毛片在线| 毛片网络| 手机av在线不卡| 欧美成人午夜影院| 免费人成视频19674不收费| 国产精品jizz| 好爽…又高潮了毛片免费看| 欧美成人动态图| 天天欲色| 岛国在线免费观看| 欧美日韩一本| 激情av网址| 久久爱伊人| 美女视频a| 五月婷网站| 亚洲一区电影网| 人人干人人干人人干| asian成熟肉图pics| 粉嫩小泬无遮挡久久久久久| 让男按摩师摸好爽视频| 巨臀冈江凛中出| 亚洲狠狠操| 精品日本视频| 91久久国产精品| 国产性猛交普通话对白| av黄色大片| av最新在线观看| 国产一区精品在线观看| 国产情侣露脸自拍| 韩国激情呻吟揉捏胸视频| 欧美日韩国产高清视频| 日本www黄| 麻豆污视频| 黄色香蕉网站| 日韩三级欧美| 午夜啪啪网站| 国产精品入口夜色视频大尺度| 3d污动漫| 秋霞一级全黄大片| 精久视频| 国产精品swag| 韩国av不卡| 国产真实乱偷精品视频| 亚洲综合图区| 国产av无码专区亚洲精品| 日韩精品一卡二卡| 日本50路肥熟bbw| 午夜影院男女| 国内偷拍网站| 国产黄a| 欧美日韩中文国产| 久久久久欧美| 天天色天天插| 农村妇女精品一二区| 成人亚洲欧美| 午夜激情福利在线| 午夜剧场免费观看| 嗯∽啊~轻点禁视频漫画| 尤物天堂| va视频在线| 亚洲欧美日韩成人| 国产特黄一级| 神马久久久久久久| 樱桃av在线| 国产91久久婷婷一区二区| 精品一区中文字幕| 欧洲成人av| 国产夫绿帽单男3p精品视频| 性调教炮机捆绑爆浆喷水| 爆操小美女| 久久久wwww| 欧美一级高清片| 脱美女衣服亲摸揉视频| 日本特级黄色录像| 国产av剧情一区二区三区| 九九九九久久久久| 琉璃神社在线| 中日韩在线| h片在线免费看| 一区二区在线| 少妇裸体性生交| 乖乖女的野男人们np| 国产深夜视频| 亚洲国产一线| 九热精品| 午夜久久网站| 岛国一区二区三区|