99久久精品国产综合一区,高清欧美日本视频免费观看,国产日韩欧美亚洲青青草原

本站小編為你精心準備了片上網絡傳輸接口設計論文參考范文，愿這些范文能點燃您思維的火花，激發您的寫作靈感。歡迎深入閱讀并收藏。

片上網絡傳輸接口設計論文

1片上網絡概述

片上網絡借鑒了大規模并行計算機的網絡互連結構，以數據包的形式進行處理器核間通信，圖1以3×3的mesh網絡為例示意了其基本結構，主要包括如下組件：1）處理單元（ProcessElement，PE）：處理單元負責具體的計算及數據包的發起和接收，其中可包含處理器核（Core），協處理器（CP），存儲器（Mem）及I／O等資源；2）路由器（Router，R）：路由器通過數據鏈路相互連接組成特定的網絡，并按照一定的路由算法和交換策略實現數據包的轉發；3）網絡接口（NetworkInterface，NI）：網絡接口負責處理單元和路由器之間的數據交互，根據雙方的協議完成數據包的打包和解包工作；4）數據鏈路（Link）：數據鏈路連接相鄰的路由器，是信號傳輸的載體。當處理器間需要進行通信時，數據包首先通過源節點的網絡接口進入路由器的輸入隊列，路由器再根據數據包中的路由信息計算其輸出方向，并將其轉發到相鄰的路由器，然后重復該過程直到數據包到達其目的節點。最后，數據包被目的節點的網絡接口接收，經過解析之后，其數據被存放到處理單元的存儲器中供計算使用。

2單邊通信協議

根據蟲孔（Wormhole）交換策略［5］，一個數據包被劃分為若干個微片（flit），其中位于數據包最前端和最尾端的微片分別被稱為頭微片（headflit，HF）和尾微片（tailflit，TF），中間部分的微片則被稱為體微片（bodyflit，BF），這三種微片可進一步通過微片類型編碼進行區分。數據包的頭微片主要包含相關的路由信息，如源節點坐標（src＿x和src＿y）、目的節點坐標（dst＿x和dst＿y），以及數據包長度、冗余校驗碼等信息，尾微片和體微片則包含了具體待傳輸的數據。此外，在具有多個虛通道的片上網絡中，微片中還包含了其所屬的虛通道號（vcid），以使不同數據包的微片可以在數據鏈路上混合傳輸，從而提高數據鏈路的帶寬利用率。為了減少處理器的干預、提高數據傳輸效率，本文對片上網絡采用單邊通信協議，其主要思想是在數據包中顯式地包含數據的目的地址。圖2示意了本文使用的數據包格式：一個數據包由至多16個微片組成，每個微片的數據負荷為32位；第一個微片為頭微片，包含了路由信息及數據包長度信息；第二個微片包含了一個32位的目的地址，該地址指定了后續數據在目的節點中應被存放的位置；后續微片則包含了具體傳輸的數據。這種將目的地址包含在數據包中的單邊通信方式使網絡接口能直接將接收到的數據存入存儲器，而無需處理器進行干預，因此有助于提升網絡接口的數據接收能力。

3網絡接口設計

網絡接口（NI）負責數據包的發送和接收工作，是處理單元與片上網絡通信的接口。一方面，NI監聽從網絡到達該節點的微片，組裝成完整的數據包，然后通知DMA控制器根據接收到的目的地址將數據存放到存儲器中；另一方面，NI從處理器接收數據，將數據進行打包后傳入片上網絡。因此，NI的處理器端和網絡端需分別滿足嵌入式總線協議（本文采用AHB總線［6］）和基于信用量（credit）的流控協議。以具有兩個虛通道（分別用VC0和VC1表示）的片上網絡為例，圖3示意了本文設計的網絡接口結構，其中上半部為網絡接收部分，下半部為網絡發送部分。在網絡接收部分，每個虛通道都對應了一個接收隊列、數據包隊列、目的地址寄存器和DMA寫控制器（wDMA）。數據包的解析和接收是由接收控制狀態機和wDMA控制器協同實現的，圖4示意了兩者的狀態轉換關系與協同工作方式。一方面，接收控制狀態機對接收隊列中的微片進行解析，剝離vcid和微片類型等信息后，將有效數據存入數據包隊列；接收控制狀態機檢測到一個完整的數據包后，就通知相關的wDMA控制器直接將接收到的數據搬移到存儲器中。另一方面，DMA寫控制器（wDMA）接收到DMA傳輸請求之后，首先從數據包隊列中讀取出第一個微片，并將其記錄為后續數據的目的地址；然后，wDMA控制器向AHB仲裁器發送總線請求信號，申請對總線的所有權；接下來，wDMA控制器發起AHB總線傳輸操作，將數據包隊列中的數據按照先前記錄的目的地址連續地存入存儲器中；等到數據包隊列為空之后，接收控制狀態機和wDMA控制器均返回空閑狀態。在網絡發送部分，處理器將待發送數據的起始地址（針對發送節點而言）和數據長度寫入相關的DMA讀控制器（rDMA）中，再由rDMA將數據從存儲器搬移到發送端的數據包隊列。發送控制狀態機再將數據包的目的地址（針對目的節點而言）與數據包隊列中的數據進行打包后傳入網絡。另外，由于VC0和VC1可能同時發送數據包，因此在發送控制狀態機中還進行了虛通道間的仲裁，仲裁的結果用于選擇相應的數據進入網絡。為了簡化接收控制狀態機對完整數據包的探測過程，規定網絡中數據包的長度不能大于NI中數據包隊列的深度，以使數據包隊列可以存放一個完整的數據包。在本文中，NI接收部分和發送部分的數據包隊列深度均被設置為16，因此網絡中的數據包最長不能超過16個微片。

4驗證及性能分析

4.1驗證及測試環境為了對設計的片上網絡傳輸接口進行驗證及性能測試，本文將網絡接口集成到了一個4×4mesh片上多處理器驗證環境中，圖5示意了該多處理器的結構：每個節點均為一個基于AHB總線的小型系統，其中包含了一個小型RISC處理器（μP）、私有SRAM存儲器、片上網絡路由器及網絡接口。為了對網絡接口的性能進行對比分析，本文選取了并行FFT計算［7～10］作為應用案例來對該16核系統進行性能測試。其中，測試組采用本文設計的網絡接口，數據在存儲器和網絡接口間的搬移采用DMA方式實現；而對比組采用非DMA操作的網絡接口，數據的搬移是以中斷的方式通知處理器μP干預實現。

4.2案例測試圖6給出了在16核系統中進行單精度浮點FFT計算的結果，其中橫軸表示輸入序列長度的對數，縱軸為計算過程所消耗的時鐘周期。從圖5可以看出，對比采用CPU干預型網絡接口的16核系統，采用DMA傳輸型網絡接口的16核系統具備了更高的并行計算性能。當FFT序列長度為1024時，本文設計的網絡接口使FFT計算耗時降低了20％左右，且隨著FFT序列長度的增加，DMA傳輸型網絡接口對16核系統并行計算性能的提升更加明顯。導致FFT計算性能提升的原因主要有兩點。1）由于本文設計的網絡接口通過DMA方式實現數據負荷的搬移，而非通過CPU進行顯式的搬移，因此縮減了數據包的發送和接收延時，減低了處理器核間通信帶來的性能損耗；2）網絡接口采用的DMA傳輸方式減少了CPU對數據包的干預，使得CPU能更加專注地進行數據運算，因此應用程序的并行計算性能得到了提升。

5結語

本文設計了一款片上網絡傳輸接口，實現了處理單元與片上網絡間的高效數據通信。通過定制單邊通信協議和直接存儲訪問，降低了數據包傳輸延時并減少了處理器的干預。16核片上多處理器環境下的并行FFT計算結果表明，對比CPU干預型的片上網絡傳輸接口，本文設計的網絡接口能將并行計算性能提升16％～20％。

作者：劉傳波單位：武漢藏龍北路1號

片上網絡傳輸接口設計論文范文

擴展閱讀

推薦期刊

網絡財富

衛星與網絡

網絡與信息

網絡傳播