FTPA: 一種具有可配置核的靈活多核處理器結(jié)構(gòu)(一)
出處:電子技術(shù)網(wǎng) 發(fā)布于:2013-05-15 14:40:46
摘要:提出一個(gè)靈活多核處理器結(jié)構(gòu): FTPA.首先,通過將單個(gè)超塊獨(dú)立映射到單個(gè)物理核,F(xiàn)TPA 有效減少了超塊執(zhí)行時(shí)指令間通信開銷。其次,通過將物理核資源劃分為需要頻繁調(diào)整的計(jì)算資源和不經(jīng)常重構(gòu)的共享資源分別管理,F(xiàn)TPA 有效降低了邏輯核的重構(gòu)開銷。,通過將計(jì)算資源在邏輯上組織成環(huán)形拓?fù)洌現(xiàn)TPA 實(shí)現(xiàn)了邏輯核的任意粒度調(diào)整,提供高度的靈活性。運(yùn)行SPEC2K 測試程序的結(jié)果顯示,F(xiàn)TPA 比已有的靈活多核結(jié)構(gòu)TFlex 性能平均提升19. 2% .
隨著半導(dǎo)體技術(shù)的發(fā)展,處理器設(shè)計(jì)進(jìn)入多核時(shí)代。在多核平臺(tái)上,單線程程序加速仍是一個(gè)關(guān)鍵問題,同時(shí)也面臨著巨大挑戰(zhàn): 一方面,程序的映射需要在并行性和通信開銷之間做出權(quán)衡,因?yàn)椴⑿袌?zhí)行在帶來并行潛力的同時(shí),也伴隨著通信開銷的增加; 另一方面,由于應(yīng)用的多樣性,程序之間以及程序內(nèi)部的不同執(zhí)行階段,并行性也存在巨大差異。因此,如何根據(jù)程序運(yùn)行時(shí)的并行特征適當(dāng)?shù)胤峙?a target="_blank">芯片資源、提高資源利用率,對(duì)于提高多核系統(tǒng)整體性能和降低功耗都有重要意義。
當(dāng)前商業(yè)通用多核處理器主要基于傳統(tǒng)的單處理器核來構(gòu)建,這種粗粒度的設(shè)計(jì)方案適合開發(fā)單個(gè)核上的指令級(jí)并行性和多個(gè)核上的線程級(jí)并行性,但并不能很好地解決多核平臺(tái)上單線程程序并行執(zhí)行問題。近年來學(xué)術(shù)界提出的處理器核可配置的靈活多核處理器方案為多核結(jié)構(gòu)發(fā)展提供了一種嶄新的思路: 靈活多核處理器通常由很多同構(gòu)的、性能較弱的小處理器核( 稱為物理核) 構(gòu)成; 在執(zhí)行程序時(shí),多個(gè)物理核可以根據(jù)程序當(dāng)前的并行性特征,動(dòng)態(tài)地組合成單個(gè)更大粒度的邏輯核。由于邏輯核可以集成多個(gè)物理核的指令窗口、發(fā)射寬度以及物理核內(nèi)的高速緩存等資源,因此具有巨大的并行性開發(fā)潛力。此外,在執(zhí)行過程中,這種2 級(jí)的組織方式,允許運(yùn)行時(shí)系統(tǒng)根據(jù)不同應(yīng)用,或者同一應(yīng)用內(nèi)部不同執(zhí)行階段的并行性差異,動(dòng)態(tài)增減邏輯核內(nèi)物理核的數(shù)量,從而在滿足應(yīng)用并行性需求的同時(shí),限度的提高資源利用率。
然而,現(xiàn)有的靈活多核處理器結(jié)構(gòu)方案仍存在很多問題: Core Fusion, Federation,Voltron和WiDGET目前只支持靜態(tài)的、編譯器指導(dǎo)的邏輯核配置。TFlex雖然支持動(dòng)態(tài)的邏輯核粒度調(diào)整,但是由于邏輯核內(nèi)分布式共享物理核的所有資源,導(dǎo)致邏輯核重配置的開銷巨大,不適合實(shí)時(shí)的細(xì)粒度的動(dòng)態(tài)資源調(diào)整; 同時(shí),TFlex 上單線程程序在多個(gè)物理核上激進(jìn)的分布式執(zhí)行,也造成顯著的指令間通信和寄存器文件訪問開銷,限制了其邏輯核性能的可擴(kuò)展性。
針對(duì)目前靈活多核結(jié)構(gòu)存在的上述高通信開銷、高邏輯核重構(gòu)開銷和低靈活性問題,本文提出一種新的靈活多核處理器結(jié)構(gòu)FTPA ( flexibletiled processor architecture) . FTPA 采用顯式數(shù)據(jù)流圖執(zhí)行( EDGE) 指令集,將程序編譯成超塊( Hyperblock),并以超塊為基本單元進(jìn)行推測執(zhí)行。 從程序執(zhí)行角度看,F(xiàn)TPA 可以根據(jù)程序的階段并行性特征,改變超塊級(jí)推測執(zhí)行的深度,從而保證程序的高效執(zhí)行。 從結(jié)構(gòu)設(shè)計(jì)角度看,在邏輯核層次,F(xiàn)TPA 將易擴(kuò)展的計(jì)算資源( 如ALU)和相對(duì)固定的共享資源( 如Cache) 進(jìn)行邏輯上的分離,并將計(jì)算資源組織成環(huán)形的拓?fù)浣Y(jié)構(gòu),從而實(shí)現(xiàn)了邏輯核任意粒度的增減,提供高度的靈活性。 在物理核層次,首先,F(xiàn)TPA 通過將超塊和物理核一一對(duì)應(yīng)映射,有效降低了超塊執(zhí)行時(shí)指令間通信和寄存器文件訪問開銷; 其次,根據(jù)對(duì)超塊并行性特征的分析,F(xiàn)TPA 選擇4 發(fā)射的物理核設(shè)計(jì),保證對(duì)超塊內(nèi)指令級(jí)并行性的高效開發(fā);,F(xiàn)TPA 將物理核內(nèi)指令窗口進(jìn)行分體,與4套執(zhí)行部件相對(duì)應(yīng),從而降低了指令選擇發(fā)射邏輯復(fù)雜度。實(shí)驗(yàn)評(píng)估表明,F(xiàn)TPA 在具備高靈活性的同時(shí),比已有的靈活多核結(jié)構(gòu)TFlex 性能平均提升19.2% .
1 相關(guān)工作介紹
1. 1 顯式數(shù)據(jù)流圖執(zhí)行( EDGE) 指令集體系結(jié)構(gòu)
相比于控制流指令集( 如x86 ) ,顯式數(shù)據(jù)流圖執(zhí)行( EDGE) 指令集體系結(jié)構(gòu)把超塊作為取指、執(zhí)行和提交的基本單位,從而實(shí)現(xiàn)以超塊為原子單位的推測執(zhí)行。 超塊之間采用控制流轉(zhuǎn)移執(zhí)行模式,通過寄存器文件和存儲(chǔ)系統(tǒng)進(jìn)行通信;但是超塊內(nèi)部采用顯式數(shù)據(jù)流指令,指令之間依靠片上路由網(wǎng)絡(luò)實(shí)現(xiàn)點(diǎn)對(duì)點(diǎn)通信?通常一個(gè)超塊包含數(shù)十條指令,通過使用超塊級(jí)分支預(yù)測器,可以構(gòu)建上千大小的指令窗口。超塊內(nèi)部的數(shù)據(jù)流指令編碼將程序的并行性直接暴露給硬件,后者不再需要復(fù)雜的邏輯對(duì)指令進(jìn)行依賴分析,避免了寄存器重命名和廣播式數(shù)據(jù)通信等高能耗低效率的機(jī)制,從而降低了處理器的復(fù)雜度和功耗。
1.2 處理器核可配置的靈活多核處理器結(jié)構(gòu)TFlex
TFlex 是現(xiàn)有靈活多核處理器結(jié)構(gòu)中靈活性和性能設(shè)計(jì)折衷的結(jié)構(gòu)。TFlex 采用EDGE 指令集,并使用物理核和邏輯核分層設(shè)計(jì)的思想實(shí)現(xiàn)結(jié)構(gòu)的靈活性。在TFlex中,編譯器只負(fù)責(zé)程序的切分,即將程序劃分為以超塊為單元的執(zhí)行單位,而邏輯核的粒度取決于超塊級(jí)推測執(zhí)行的并行性,可以根據(jù)程序運(yùn)行時(shí)特征進(jìn)行動(dòng)態(tài)調(diào)整。由于在性能和功耗上體現(xiàn)出的優(yōu)勢,F(xiàn)TPA 也采用EDGE 指令集,通過以超塊為單位的推測執(zhí)行來運(yùn)行單線程程序。 由于使用相同的指令集,本文也將TFlex 作為FTPA 的主要比較對(duì)象。
版權(quán)與免責(zé)聲明
凡本網(wǎng)注明“出處:維庫電子市場網(wǎng)”的所有作品,版權(quán)均屬于維庫電子市場網(wǎng),轉(zhuǎn)載請必須注明維庫電子市場網(wǎng),http://www.udpf.com.cn,違反者本網(wǎng)將追究相關(guān)法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品出處,并自負(fù)版權(quán)等法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問題,請?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
- 深入解析嵌入式 OPENAMP 框架:開啟異核通信新時(shí)代2025/7/22 16:27:29
 - 一文快速了解OPENWRT基礎(chǔ)知識(shí)2025/7/14 16:59:04
 - 獨(dú)立 ADC 優(yōu)勢大揭秘:為何不可替代?2025/7/7 16:21:04
 - 深入剖析:嵌入式中 RS485、RS422 和 RS232 的特點(diǎn)差異2025/7/5 15:07:54
 - 揭秘嵌入式 MCU:浮點(diǎn)數(shù)據(jù)處理難點(diǎn)及應(yīng)對(duì)策略2025/6/20 15:19:07
 
- BOOST芯片的VIN與VOUT非常接近時(shí),會(huì)出現(xiàn)什么情況?
 - 如何在無線電連接設(shè)備中嵌入安全性
 - ADI芯品兼具高精度與低延遲的SAR ADC
 - Allegro發(fā)布革命性10MHz TMR電流傳感器ACS3
 - 串口、UART、RS232、RS485、USB、COM 口全面解析
 - 變壓器基礎(chǔ)知識(shí):原理、結(jié)構(gòu)與應(yīng)用
 - 一款高集成度雙通道、寬頻、自感式數(shù)字電感電容傳感芯片 - MLC12G
 - PCB生產(chǎn)制造中銀層缺陷應(yīng)對(duì)措施
 - 電路板電鍍中4種特殊的電鍍方法
 - 高通SA8155P芯片的接口協(xié)議
 









