国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      協(xié)處理器的數(shù)據(jù)訪問控制的制作方法

      文檔序號:6415705閱讀:317來源:國知局
      專利名稱:協(xié)處理器的數(shù)據(jù)訪問控制的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及數(shù)據(jù)處理系統(tǒng)領(lǐng)域。更具體地,本發(fā)明涉及包括一個中央處理單元,一個存儲器和一個協(xié)處理器的數(shù)據(jù)處理系統(tǒng),其中,在該中央處理單元和該協(xié)處理器聯(lián)合執(zhí)行的指令的控制下在該存儲器和該協(xié)處理器之間傳送數(shù)據(jù)字。
      提供具有一個中央處理單元,一個存儲器和一個諸如配備有英格蘭劍橋的先進RISC機器公司(Advanced RISC Machines Limited)制造的ARM微處理器的協(xié)處理器的處理系統(tǒng)是眾所周知的。在這種公知的系統(tǒng)中,該中央處理單元執(zhí)行協(xié)處理器存儲器訪問指令(諸如一次協(xié)處理器加載或者一次協(xié)處理器存儲),該指令用于產(chǎn)生用于提供給該存儲器的適當(dāng)?shù)牡刂窋?shù)據(jù)以及準(zhǔn)備使該協(xié)處理器與該存儲器直接進行數(shù)據(jù)字(數(shù)據(jù)傳送的單位)的交換。一旦該中央處理單元將該開始地址信息提供給該存儲器,則如果該數(shù)據(jù)字不經(jīng)過該中央處理單元傳輸或者不需存儲在該中央處理單元中而直接傳到該協(xié)處理器,其效率是最高的。對于到該協(xié)處理器的這種直接傳送,最好是該協(xié)處理器控制該數(shù)據(jù)傳送的結(jié)束,這樣可以將在每次傳送中具有不同數(shù)目的字的不同的協(xié)處理器連接到該中央處理單元,而不必修改該中央處理單元。為了控制該數(shù)據(jù)傳送的結(jié)束,該協(xié)處理器必須能夠確定根據(jù)在該中央處理單元上執(zhí)行的指令打算傳送多少數(shù)據(jù)字。
      一種可能是使得執(zhí)行在該中央處理單元上的每個指令只傳送一個數(shù)據(jù)字。這不論是對于數(shù)據(jù)存儲器帶寬的使用還是代碼側(cè)和指令存儲器帶寬的使用,其效率是十分低的,最好是使用突發(fā)模式傳送,在該突發(fā)模式傳送中將一個起始地址提供給存儲器,存儲器將一系列相鄰的存儲器單元中的數(shù)據(jù)字返回。利用這種突發(fā)模式傳送,效率提高的同時帶來了相應(yīng)的困難,因為協(xié)處理器需要確定要將多少數(shù)據(jù)字進行傳送,以便它能執(zhí)行必要的控制以停止該傳送。
      眾所周知,(例如在ARM浮點加速單元中)可以在該中央處理單元上執(zhí)行的指令中分配一個數(shù)據(jù)位字段,將該數(shù)據(jù)位字段傳遞給該協(xié)處理器,向該協(xié)處理器指示要傳送的數(shù)據(jù)字的數(shù)量。然而,在該中央處理單元上執(zhí)行的指令中可用的位空間是有限的,如果在該指令中的數(shù)據(jù)位專用于向該協(xié)處理器傳遞數(shù)據(jù)字的數(shù)量,則將限制該指令中可用于其他字段的位空間,這些其它字段可用于指示有關(guān)數(shù)據(jù)傳送的其他參數(shù),比如在接著該指令的執(zhí)行之后對在該中央處理單元中的地址指針進行改變。
      從本發(fā)明的一個方面可以看出,本發(fā)明提供的用于處理數(shù)據(jù)的裝置包括一個中央處理單元,用于執(zhí)行中央處理單元指令,以執(zhí)行數(shù)據(jù)處理操作,所述中央處理單元指令包括協(xié)處理器存儲器訪問指令;一個連接到所述中央處理單元用于保存數(shù)據(jù)字的存儲器;一個連接到所述中央處理單元和所述存儲器的協(xié)處理器,在所述中央處理單元執(zhí)行的所述協(xié)處理器存儲器訪問指令的控制下使用多個尋址模式中的一個尋址要由所述協(xié)處理器處理的所述存儲器中的數(shù)據(jù)字;其中,至少一個協(xié)處理器存儲器訪問指令包括尋址模式信息,該信息用于控制所述中央處理單元使用所述多個尋址模式中的哪一個來訪問所述存儲器,所述協(xié)處理器使用所述尋址模式信息中的至少一部分來控制根據(jù)所述至少一個協(xié)處理器存儲器訪問指令在所述存儲器和所述協(xié)處理器之間傳送多少數(shù)據(jù)字。
      本發(fā)明認(rèn)識到,該多個位字段(其可以包括寄存器號和立即數(shù))由中央處理單元使用以控制使用多個尋址模式中的哪一個,該多個位字段也用于向該協(xié)處理器指示(可能要結(jié)合其他因素,諸如在該指令中的其他字段,或者在控制寄存器中寫入的值)要傳送的數(shù)據(jù)字的數(shù)量。例如,已經(jīng)發(fā)現(xiàn),在大量的情況下,由該中央處理單元使用以控制用于該傳送和/或改變地址指針的位字段信息與(或者可能與)要傳送到該協(xié)處理器的數(shù)據(jù)字的數(shù)量有關(guān),并且因此該位字段可以由該協(xié)處理器以及該中央處理單元讀取。在該協(xié)處理器存儲器訪問指令中對同一位字段的重疊使用將在那些協(xié)處理器存儲器訪問指令中的位空間釋放用于其他用途。進一步還認(rèn)識到,在大多數(shù)情況下,要傳送的數(shù)據(jù)字的數(shù)量落在少量的范疇內(nèi),因此利用本發(fā)明獲得的代碼密度和效率的改進帶來的好處超過了提供一個專用的位字段用于向該協(xié)處理器指示要傳送的數(shù)據(jù)字的數(shù)量所帶來的完全的靈活性。
      盡管中央處理單元可以以多種不同的方式控制尋址,但是在本發(fā)明的較佳實施例中,所述至少一個協(xié)處理器存儲器訪問指令引用所述中央處理單元中保存一個地址值的寄存器,以及所述地址方式信息包括一個偏移字段,其中在執(zhí)行所述至少一個協(xié)處理器存儲器訪問指令時從所述地址值和所述偏移值至少之一中確定所述存儲器中要訪問的一個開始地址。
      這種使用保存在該中央處理單元的一個寄存器中的一個地址指針提供了極大的靈活性,并且和該指令中的偏移字段結(jié)合簡化了應(yīng)用程序的編碼。
      在最好以協(xié)處理器對一批數(shù)據(jù)進行操作的時候,對于本發(fā)明的較佳實施例就是對所述地址值的所述改變產(chǎn)生一個最終的地址值,該最終的地址值可以選擇存回所述寄存器中。
      已經(jīng)發(fā)現(xiàn),由所述協(xié)處理器使用所述偏移字段的至少一部分來控制在所述存儲器和所述協(xié)處理器之間要傳送多少數(shù)據(jù)字是極其方便的。這種裝置滿足了現(xiàn)實生活中使用一個協(xié)處理器來對存儲器中保存的數(shù)據(jù)執(zhí)行數(shù)據(jù)處理操作的大多數(shù)要求。
      有利的是,該尋址模式信息應(yīng)該包括一個或者多個標(biāo)記,所述標(biāo)記用于控制使用所述多個尋址模式中的哪個模式,以及也用來控制在確定在所述存儲器和所述協(xié)處理器之間要傳送多少數(shù)據(jù)字時所述協(xié)處理器是否要使用所述偏移字段。
      根據(jù)在該尋址模式信息中的其他標(biāo)記位選擇性地使用該偏移字段增加了協(xié)處理器可以用來控制所傳送的數(shù)據(jù)字的數(shù)量時所用方式可用的選項數(shù)量,并且也使之有可能滿足大量現(xiàn)實情況的要求,同時不要求該協(xié)處理器存儲器訪問指令中的其他位空間。
      已經(jīng)發(fā)現(xiàn),要涵蓋大多數(shù)所要求的操作的類型,該較佳實施例應(yīng)該是這樣的在確定在所述存儲器和所述協(xié)處理器之間要傳送多少數(shù)據(jù)字時所述協(xié)處理器不使用所述偏移字段時,在所述存儲器和所述協(xié)處理器之間傳送一個固定數(shù)量的數(shù)據(jù)字。
      控制該協(xié)處理器的一個補充的協(xié)處理器存儲器訪問指令模式的集合是所述寄存器存儲一個地址值Rn,一個數(shù)據(jù)字長度是WL個字節(jié),以及所述偏移值是M,所述一個或者多個標(biāo)記包括3個或者多個數(shù)值位,執(zhí)行數(shù)值位選擇所述至少一個協(xié)處理器存儲器訪問指令根據(jù)下列情況之一進行操作傳送開始地址寄存器中要傳送的地址值的最終值數(shù)據(jù)字?jǐn)?shù)量(i) RnRn-(WL*M)(固定數(shù)量)(ii) RnRn M(iii)RnRn+(WL*M) M(iv) Rn-(WL*M) Rn M(v) Rn-(WL*M) Rn-(WL*M) M(vi) Rn+(WL*M) Rn (固定數(shù)量)(vii)Rn+(WL*M) Rn+(WL*M)(固定數(shù)量)有利的是該協(xié)處理器存儲器訪問指令也包括多個標(biāo)記,該多個標(biāo)記包括(i)一個標(biāo)記位P,它指示所述開始地址值是否是原先存儲在所述寄存器中的所述地址值或者是由所述偏移字段所指示要改變的一個地址值;
      (ii)一個標(biāo)記位U,它指示所述改變是否從原先存儲在所述寄存器中的所述地址值中加上或減去在所述偏移字段中指示的一個值;以及(iii)一個標(biāo)記位W,它指示在所述地址寄存器中的所述最終值是否應(yīng)當(dāng)存回所述寄存器中。
      利用這樣一組標(biāo)記,通過提供這樣一種邏輯可以將該協(xié)處理器配置成提供對其操作的快速和簡單的控制,使所述協(xié)處理器計算P EOR U以確定是否傳送一個數(shù)據(jù)字或者M個數(shù)據(jù)字。
      一個另外的可能性是在該基寄存器是ARM程序計數(shù)器寄存器(PC或R15)時使傳送的字的數(shù)量為1。這將修改確定對于P EOR(U或者(基寄存器是PC))傳送一個字的邏輯電路。
      盡管上面所討論的對協(xié)處理器與一個中央處理單元和一個存儲器的交互進行控制的特征可用于許多不同的領(lǐng)域(例如浮點協(xié)處理器),數(shù)據(jù)訪問的相當(dāng)?shù)囊?guī)則性使得本發(fā)明尤其適用于這樣一些實施例,在這些實施例中,所述中央處理單元和所述協(xié)處理器執(zhí)行數(shù)字信號處理操作,并且在所述存儲器和所述協(xié)處理器之間傳送的所述數(shù)據(jù)字包括來自存儲在所述存儲器中的一組系數(shù)值中的多個系數(shù)值。
      從本發(fā)明的另一方面可以看出,本發(fā)明提供了一種處理數(shù)據(jù)的方法,所述方法包括下列步驟以一個中央處理單元執(zhí)行中央處理單元指令,以執(zhí)行數(shù)據(jù)處理操作,所述中央處理單元指令包括協(xié)處理器存儲器訪問指令;將數(shù)據(jù)字保存在連接到所述中央處理單元的存儲器中;在由所述中央處理單元執(zhí)行的協(xié)處理器存儲器訪問指令的控制下,利用所述多個尋址模式之一在所述存儲器中尋址要由連接到所述中央處理單元和所述存儲器的一個協(xié)處理器處理的數(shù)據(jù)字;其中,至少一個所述協(xié)處理器存儲器訪問指令包括尋址模式信息,該信息用于控制所述中央處理單元使用所述多個尋址模式中的哪一個來訪問所述存儲器,所述協(xié)處理器使用所述尋址模式信息中的至少一部分來控制根據(jù)所述至少一個所述協(xié)處理器存儲器訪問指令在所述存儲器和所述協(xié)處理器之間傳送多少數(shù)據(jù)字。
      現(xiàn)在將參照附圖通過舉例描述本發(fā)明的實施例,其中

      圖1示出數(shù)字信號處理裝置的高層配置;圖2示出協(xié)處理器的輸入緩沖器和寄存器配置;圖3示出通過協(xié)處理器的數(shù)據(jù)路徑;圖4示出從寄存器中讀取高或低位位的多路復(fù)用電路;圖5為示出較佳實施例中的協(xié)處理器所使用的寄存器重新映射邏輯的框圖;圖6更詳細(xì)地示出圖5中所示的寄存器重新映射邏輯;
      圖7為示出塊過濾算法的表;圖8圖示了一個包括一個中央處理單元,一個存儲器和一個用于執(zhí)行協(xié)處理器存儲器訪問指令的系統(tǒng);以及圖9是對應(yīng)于圖8的系統(tǒng)的操作流程圖。
      在下列的描述中,第一節(jié)描述了這樣一個系統(tǒng),該系統(tǒng)包括一個中央處理單元,一個存儲器和一個協(xié)處理器,該協(xié)處理器被設(shè)計成提供高速的數(shù)字信號處理功能。第二節(jié)描述了對第一節(jié)的系統(tǒng)的改進,其中將在第一節(jié)中的協(xié)處理器存儲器訪問指令進行了修改以增強該協(xié)處理器對要傳送的數(shù)據(jù)字的數(shù)量進行容易的控制。第一節(jié)下面描述的系統(tǒng)是關(guān)于數(shù)字信號處理(DSP)的。DSP可采取許多形式,但一般可以認(rèn)為是需要高速(實時)處理大量數(shù)據(jù)的處理。這一數(shù)據(jù)通常表示某種模擬物理信號。DSP的好的實例便是用在數(shù)字移動電話中的,其中所接收與發(fā)送的無線電信號需要解碼成模擬聲音信號及將模擬聲音信號編碼(通常采用卷積、變換及相關(guān)運算)。另一實例是盤驅(qū)動器控制器,其中處理從盤頭恢復(fù)的信號以產(chǎn)生頭跟蹤控制。
      在上面的上下文中,下面是對基于與協(xié)處理器合作的微處理器核(在本例中為英國劍橋先進RISC機器有限公司設(shè)計的微處理器范圍內(nèi)的ARM核)的數(shù)字信號處理系統(tǒng)的描述。微處理器與協(xié)處理器的接口及協(xié)處理器體系結(jié)構(gòu)本身是專門為提供DSP功能配置的。微處理器核將被稱作ARM而協(xié)處理器稱作Piccolo。ARM與Piccolo通常制造成包含作為ASIC的一部分的其它元件(如片上DRAM、ROM、D/A與A/D轉(zhuǎn)換器等)的單一集成電路。
      Piccolo為ARM協(xié)處理器,因此它執(zhí)行一部分ARM指令集。ARM協(xié)處理器指令允許ARM在Piccolo與存儲器之間傳送數(shù)據(jù)(利用加載協(xié)處理器LDC及存儲協(xié)處理器STC指令),以及向與從Piccolo傳送ARM寄存器(利用傳送到協(xié)處理器MCR及從協(xié)處理器傳送的MRC指令)。觀察ARM與Piccolo的協(xié)作交互作用的一種方式是ARM作為Piccolo數(shù)據(jù)的強有力的地址發(fā)生器工作,而使Piccolo有時間執(zhí)行需要實時處理大量數(shù)據(jù)來產(chǎn)生對應(yīng)的實時結(jié)果的DSP運算。
      圖1示出ARM 2與Piccolo 4,ARM 2發(fā)布控制信號到Piccolo 4來控制向Piccolo 4傳送數(shù)據(jù)以及從Piccolo 4傳送數(shù)據(jù)字。指令高速緩沖存儲器6存儲Piccolo 4所需要的Piccolo程序指令字。單個DRAM存儲器8存儲ARM 2與Piccolo 4兩者所需要的所有數(shù)據(jù)與指令字。ARM 2負(fù)責(zé)尋址存儲器8及控制所有數(shù)據(jù)傳送。只帶單個存儲器8及一組數(shù)據(jù)與地址總線的布置比需要多個存儲器及高總線帶寬的總線的典型DSP方法簡單與低廉。
      Piccolo執(zhí)行來自控制Piccolo數(shù)據(jù)路徑的指令高速緩沖存儲器6的第二指令流(數(shù)字信號處理程序指令字)。這些指令中包含諸如乘-累加等數(shù)字信號處理型操作及諸如零開銷循環(huán)指令等控制流指令。這些指令在保持在Piccolo寄存器10(見圖2)中的數(shù)據(jù)上操作。這一數(shù)據(jù)是早先ARM2從存儲器8傳送來的。指令流自指令高速緩沖存儲器6;指令高速緩沖存儲器6作為完全的總線主驅(qū)動數(shù)據(jù)總線。小的Piccolo指令高速緩沖存儲器6為4線、每線16個字的直接映象高速緩沖存儲器(64條指令)。在一些實現(xiàn)中,令指令高速緩沖存儲器更大是值得的。
      從而兩個任務(wù)是獨立運行的,ARM加載數(shù)據(jù)而Piccolo處理它。這允許在16位數(shù)據(jù)上持續(xù)的單周期數(shù)據(jù)處理。Piccolo具有使ARM預(yù)取順序數(shù)據(jù),在Piccolo需要它之前加載數(shù)據(jù)的數(shù)據(jù)輸入機制(示出在圖2中)。Piccolo能以任何次序存取加載的數(shù)據(jù),隨著老數(shù)據(jù)的最后一次使用自動地重新填充其寄存器(所有指令的每一源操作數(shù)都有一位來指示應(yīng)重新填充源寄存器)。這一輸入機制稱作再定序緩沖器并包括輸入緩沖器12。加載進Piccolo的每一個值(見下面通過LDC或MCR)攜帶有指定該值的目的地寄存器的標(biāo)記Rn。標(biāo)記Rn與數(shù)據(jù)字一起存儲在輸入緩沖器中。當(dāng)通過寄存器選擇電路14存取寄存器而指令指定要重新填充該數(shù)據(jù)寄存器時,便通過確立信號E來標(biāo)記該寄存器。然后重新填充電路16用輸入緩沖器12中以該寄存器為目的地的最老的加載值自動重新填充該寄存器。重定序緩沖器保持8個帶標(biāo)記的值。輸入緩沖器12具有類似于FIFO的形式,但除外可從隊列中央抽取數(shù)據(jù)字,而此后較晚存儲的字向前傳遞來填充空位。距離輸入最遠(yuǎn)的數(shù)據(jù)字便相應(yīng)地是最老的,并在輸入緩沖器12保持帶有正確的標(biāo)記Rn的兩個數(shù)據(jù)字時便用它來確定應(yīng)當(dāng)用哪一個數(shù)據(jù)字來重新填充輸入緩沖器12。
      如圖3中所示Piccolo通過將數(shù)據(jù)存儲在輸出緩沖器18(FIFO)中輸出它。數(shù)據(jù)是順序地寫入FIFO中的,并由ARM以相同的次序讀出到存儲器8。輸出緩沖器18保持8個32位值。
      Piccolo通過協(xié)處理器接口(圖1的CP控制信號)連接在ARM上。在執(zhí)行ARM協(xié)處理器指令時,Piccolo能執(zhí)行該指令;在執(zhí)行該指令之前令A(yù)RM等待直到Piccolo就緒;或拒絕執(zhí)行該指令。在最后一種情況中,ARM將引起未定義的指令異常。
      Piccolo執(zhí)行的最普通的協(xié)處理器指令為LDC與STC,它們分別通過數(shù)據(jù)總線向與從存儲器8加載與存儲數(shù)據(jù)字,而ARM生成所有地址。便是這些指令將數(shù)據(jù)加載到重定序緩沖器中并存儲來自輸出緩沖器18的數(shù)據(jù)。如果在LDC上輸入重定序緩沖器中沒有足夠的空間來加載數(shù)據(jù)時,及如果在STC上輸出緩沖器中沒有足夠的數(shù)據(jù)供存儲,即ARM正在期待的數(shù)據(jù)不在輸出緩沖器18中時,Piccolo將阻止ARM。Piccolo還執(zhí)行ARM/協(xié)處理器寄存器傳送使ARM能存取Piccolo的特定寄存器。
      Piccolo從存儲器取出其本身的指令來控制圖3中所示的數(shù)據(jù)路徑及從重定序緩沖器到寄存器及從寄存器到輸出緩沖器18傳送數(shù)據(jù)。Piccolo的執(zhí)行這些指令的算術(shù)邏輯單元具有執(zhí)行乘法、加法、減法、乘-累加、邏輯運算、移位與循環(huán)的乘法器/加法器電路20。在數(shù)據(jù)路徑中還設(shè)置有累加/累減(decumulate)電路22及定標(biāo)/飽和電路24。
      Piccolo指令是初始時從存儲器加載進指令高速緩沖存儲器6中的,其中Piccolo能存取它們而不需要返回去存取主存儲器。
      Piccolo不能從存儲器失敗中恢復(fù)。因此,如果在虛擬存儲器系統(tǒng)中使用Piccolo,在整個Piccolo任務(wù)中所有Piccolo數(shù)據(jù)都必須在物理存儲器中。對于諸如實時DSP等Piccolo任務(wù)的實時性質(zhì),這不是重大的限制。如果出現(xiàn)存儲器失敗,Piccolo將停止并在狀態(tài)寄存器S2中設(shè)置標(biāo)志。
      圖3示出Piccolo的整體數(shù)據(jù)路徑功能。寄存器組10使用3個讀端口與2個寫端口。利用一個寫端口(L端口)從重定序緩沖器重新填充寄存器。輸出緩沖器18是直接從ALU結(jié)果總線26更新的,從輸出緩沖器18的輸出是在ARM程序控制下的。ARM協(xié)處理器接口執(zhí)行到重定序緩沖器中的LDC(加載協(xié)處理器)指令及從輸出緩沖器18的STC(存儲協(xié)處理器)指令,以及在寄存器組10上的MCR與MRC(傳送ARM寄存器至/自CP寄存器)。
      其余寄存器端口用于ALU。兩個讀端口(A與B)驅(qū)動輸入到乘法器/加法器電路20,C讀端口用于驅(qū)動累加器/累減器電路22輸入。其余寫端口W用于將結(jié)果返回給寄存器組10。
      乘法器20執(zhí)行16×16帶符號或不帶符號乘法,帶有可選用的48位累加。定標(biāo)器單元24能提供0至31位立即算術(shù)或邏輯右移,后面跟隨可選用的飽和。移位器與邏輯單元20每一周期能執(zhí)行一個移位或邏輯運算。
      Piccolo具有稱作D0-D15或A0-A3、X0-X3、Y0-Y3、Z0-Z3的16個通用寄存器。第一組四個寄存器(A0-A3)預(yù)定作為累加器并且是48位寬,額外的16位提供在許多連續(xù)的計算中對溢出的保護。其余寄存器為32位寬。
      可將各Piccolo寄存器作為包含兩個獨立的16位值對待。位0至15包含低的一半,位16至31包含高的一半。指令能指定各寄存器特定的16位的一半作為源操作數(shù),或可指定整個32位寄存器。
      Piccolo還提供飽和的運算。如果結(jié)果大于目的地寄存器的大小,乘法、加法與減法指令的變型提供飽和的結(jié)果。當(dāng)目的地寄存器為48位累加器時,將值飽和到32位(即無法飽和48位值)。在48位寄存器上沒有溢出檢測。由于會占用至少65536條乘法累加指令才能導(dǎo)致溢出所以這是合理的限制。
      各Piccolo寄存器是標(biāo)記為“空”(E標(biāo)志,見圖2)或包含值(不可能有半個寄存器是空的)之一的。初始時,將所有寄存器標(biāo)記為空。在各周期上Piccolo試圖用重新填充控制電路16將來自輸入重定序緩沖器的值填充空的寄存器之一。此外如果將來自ALU的值寫入寄存器便不再將它標(biāo)記為“空”的。如果從ALU寫入寄存器,同時有值等待從重定序緩沖器放置到該寄存器中,則結(jié)果是不確定的。如果對空寄存器進行讀取,Piccolo的執(zhí)行單元將停止。
      輸入重定序緩沖器(ROB)位于協(xié)處理器接口與Piccolo的寄存器組之間。用ARM協(xié)處理器傳送將數(shù)據(jù)加載進ROB中。ROB包含若干32位值,各帶有指示作為該值的目的地的Piccolo寄存器的標(biāo)記。該標(biāo)記還指示該數(shù)據(jù)應(yīng)傳送給整個32位寄存器還是只給32位寄存器的底部16位。如果數(shù)據(jù)的目的地為整個寄存器,則將該項的底部16位傳送給目標(biāo)寄存器的底部一半并將頂部16位傳送給寄存器的頂部一半(如果目標(biāo)寄存器為48位累加器則擴展符號)。如果該數(shù)據(jù)的目的地只是寄存器的底部一半(所謂“半寄存器”),首先傳送底部16位。
      寄存器標(biāo)記總是參照物理目的地寄存器,不執(zhí)行寄存器重新映射(見下面關(guān)于寄存器重新映射。)在每一個周期上Piccolo試圖如下地將數(shù)據(jù)項從ROB傳送到寄存器組-檢驗ROB中各項并將標(biāo)記與空寄存器比較,確定是否能從一部分或全部項對寄存器進行傳送。
      -從能進行傳送的項組中,選擇最老的項并將其數(shù)據(jù)傳送給寄存器組。
      -將該項的標(biāo)記更新為標(biāo)記該項是空的。如果只傳送了該項的一部分,只將傳送的部分標(biāo)記為空的。
      例如,如果目標(biāo)寄存器完全是空的且選擇的ROB項包含以整個寄存器為目的地的數(shù)據(jù),便傳送全部32位并標(biāo)記該項為空的。如果目標(biāo)寄存器的底部一半是空的而ROB項包含目的地為寄存器的底部一半的數(shù)據(jù),則將該ROB項的底部16位傳送給目標(biāo)寄存器的底部一半并將ROB的底部一半標(biāo)記為空的。
      可以獨立地傳送任何項中的數(shù)據(jù)的高與低16位。如果沒有項包含能傳送給寄存器組的數(shù)據(jù),該周期中不進行傳送。下面的表描述目標(biāo)ROB項與目標(biāo)寄存器狀態(tài)的所有可能組合。
      總結(jié)一下,可以獨立地從ROB重新填充寄存器的兩半,ROB中的數(shù)據(jù)標(biāo)記為以整個寄存器為目的地或以寄存器的底部一半為目的地的兩個16位值。
      用ARM協(xié)處理器指令將數(shù)據(jù)加載進ROB中。如何在ROB中標(biāo)記數(shù)據(jù)取決于用哪一條協(xié)處理器指令來執(zhí)行傳送。下述ARM指令可用于以數(shù)據(jù)填充ROBLDP{&lt;cond&gt;}&lt;16/32&gt; &lt;dest&gt;,[Rn]{!},#&lt;size&gt;LDP{&lt;cond&gt;}&lt;16/32&gt;W &lt;dest&gt;,&lt;wrap&gt;,[Rn]{!},#&lt;size&gt;LDP{&lt;cond&gt;}16U &lt;bank&gt;,[Rn]{!}MPR{&lt;cond&gt;} &lt;dest&gt;,RnMRP{&lt;cond&gt;} &lt;dest&gt;,Rn提供了下列ARM指令用于配置ROBLDPA&lt;bank list&gt;
      前三條被匯編為LDC,MPR與MRP被匯編為MCR,LDPA被匯編為CDP指令。
      上面&lt;dest&gt;代表Piccolo寄存器(A0-Z3),Rn代表一個ARM寄存器,&lt;size&gt;代表必須是4的非零倍數(shù)的固定字節(jié)數(shù),而&lt;wrap&gt;代表常量(1、2、4、8)。用{}括起的字段為選用的。為了使傳送能符合重定序緩沖器,&lt;size&gt;至多為32。在許多場合中,為了避免死鎖,&lt;size&gt;將小于這一限制。&lt;16/32&gt;字段指示是否應(yīng)將加載的數(shù)據(jù)作為16位數(shù)據(jù)對待并指示要采取的結(jié)尾(endian)特定的動作(見下面),或者是32位數(shù)據(jù)。
      注1在下面的正文中,當(dāng)引用LDP或LDPW時它指指令的16位與32位變型兩者。
      注2‘字’為來自存儲器的32位塊,它可包含兩個16位數(shù)據(jù)項或一個32位數(shù)據(jù)項。
      LDP指令傳送若干數(shù)據(jù)項,將它們指派到一個全寄存器。這一指令將從存儲器中地址Rn加載&lt;size&gt;/4個字,將它們插入ROB中。能傳送的字?jǐn)?shù)受下面的限制-量&lt;size&gt;必須是4的非零倍數(shù);-&lt;size&gt;必須小于或等于特定實現(xiàn)的ROB的大小(在第一版本中為8個字,未來版本中保證不少于此)。
      將傳送的第一數(shù)據(jù)項標(biāo)記為指派到&lt;dest&gt;的,第二數(shù)據(jù)項指派到&lt;dest&gt;+1等等(從Z3繞回到A0)。如果指定了!,則此后將寄存器Rn增量&lt;size&gt;。
      如果采用LDP16變型,隨著它們從存儲器系統(tǒng)返回,在構(gòu)成32位數(shù)據(jù)項的2個16位半字上執(zhí)行對結(jié)尾(endian)特定的操作。詳情見下面大結(jié)尾(Big Endian)與小結(jié)尾(Little Endian)支持。
      LDPW指令傳送若干數(shù)據(jù)項到一組寄存器。將傳送的第一數(shù)據(jù)項標(biāo)記為指派到&lt;dest&gt;,第二到&lt;dest&gt;+1,等等。當(dāng)出現(xiàn)&lt;wrap&gt;傳送時,將下一個傳送的項標(biāo)記為指派到&lt;dest&gt;,等等。&lt;wrap&gt;量是在半字的量指定的。
      對于LDPW,適用下述限制-量&lt;size&gt;必須是4的非零倍數(shù);-&lt;size&gt;必須小于或等于特定實現(xiàn)的ROB的大小(在第一版中為8個字,未來版本中保證不小于此);-&lt;dest&gt;可以是{A0、X0、Y0、Z0}之一;
      -對于LDP32W,&lt;wrap&gt;可以是{2、4、8}個半字之一,對于LDP16W可以是{1、2、4、8}個半字之一;-量&lt;size&gt;必須大于2*&lt;wrap&gt;,否則不出現(xiàn)回繞而應(yīng)用LDP指令來代替。
      例如,指令LDP32WX0, 2, [R0]!,#8將兩個字加載進ROB中,將它們指派給整個寄存器X0。R0將被增量8。指令LDP32WX0, 4, [R0], #16將四個字加載進ROB中,將它們標(biāo)記為指派給X0,X1,X0,X1(按此次序)。R0不受影響。
      對于LDP16W,可將&lt;wrap&gt;指定為1、2、4或8。1的回繞將導(dǎo)致所有數(shù)據(jù)標(biāo)記為指派給目的地寄存器&lt;dest&gt;.l的底部一半。這是‘半寄存器’情況。
      例如,指令LDP16WX0, 1, [R0]!,#8將兩個字加載進ROB中,將它們標(biāo)記為指派給X0.l的16位數(shù)據(jù)。R0將被增量8。指令LDP16WX0, 4, [R0], #16的表現(xiàn)類似于LDP32W實例,但是在它從存儲器返回時在數(shù)據(jù)上執(zhí)行對于結(jié)尾特定的操作除外。
      LDP指令所有未使用的編碼可為將來擴展保留。
      LDP16U指令是為支持16位不對齊的數(shù)據(jù)的高效傳送而提供的。LDP16U支持是為寄存器D4至D15(X、Y與Z組)提供的。LDP16U指令將一個32位數(shù)據(jù)字(包含兩個16位數(shù)據(jù)項)從存儲器傳送到Piccolo中。Piccolo將丟棄這一數(shù)據(jù)的底部16位而將頂部16位存儲在保持寄存器中。X、Y與Z組有一保持寄存器。一旦裝填了組中的保持寄存器,如果將數(shù)據(jù)指派給該組中的寄存器,便改變了LDP{W}指令的表現(xiàn)。加載進ROB中的數(shù)據(jù)由保持寄存器與正在用LDP指令傳送的數(shù)據(jù)的底部16位的連接構(gòu)成。將正在傳送的數(shù)據(jù)的高16位放入保持寄存器中entry&lt;-data.l|holding_register
      holding_register&lt;-data.h這一操作模式一直持續(xù)到用LDPA指令關(guān)閉為止。保持寄存器并不記錄目的地寄存器標(biāo)記或大小。這一特征是從提供data.l的下一個值的指令獲得的。
      結(jié)尾的特定行為可永遠(yuǎn)出現(xiàn)在存儲器系統(tǒng)返回的數(shù)據(jù)上。由于假定所有32位數(shù)據(jù)項在存儲器中都是字對齊的,不存在等效于LDP16U的非16位指令。
      LDPA指令用于關(guān)閉LDP16U指令起動的不對齊操作模式??梢栽诮MX、Y、Z上獨立關(guān)閉不對齊模式。例如指令,LDPA{X,Y}將關(guān)閉組X與Y上的不對齊模式。這些組的保持寄存器中的數(shù)據(jù)將被丟棄。
      允許在不處于非對齊模式的組上執(zhí)行LDPA,這將使該組在對齊模式中。
      MPR指令將ARM寄存器Rn的內(nèi)容放入ROB中,指派給Piccolo寄存器&lt;dest&gt;。目的地寄存器&lt;dest&gt;可以是范圍A0-Z3中的任何全寄存器。例如指令,MPRX0,R3將R3的內(nèi)容傳送到ROB中,將數(shù)據(jù)標(biāo)記為指派給全寄存器X0。
      由于ARM是內(nèi)部小結(jié)尾(endian)的,將數(shù)據(jù)從ARM傳送到Piccolo時不出現(xiàn)對結(jié)尾特定的表現(xiàn)。
      MPRW指令將ARM寄存器Rn的內(nèi)容放置在ROB中,將其標(biāo)記為指派給16位Piccolo寄存器&lt;dest&gt;.l的兩個16位數(shù)據(jù)項。對&lt;dest&gt;的限制與對LDPW指令的相同(即A0、X0、Y0、Z0)。例如指令,MPRWX0, R3將R3的內(nèi)容傳送到ROB中,將數(shù)據(jù)標(biāo)記為指派給X0.l的兩個16位量。應(yīng)指出對于帶有1回繞的LDP16W,只能針對32位寄存器的底部一半。
      至于MPR,在數(shù)據(jù)上不作用對于結(jié)尾特定的操作。
      將LDP編碼為31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      其中PICCOLO1為Piccolo的第一協(xié)處理器號(當(dāng)前為8)。N位在LDP32(1)與LDP16(0)之間選擇。
      LDPW編碼為31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      其中DEST對于目的地寄存器A0、X0、Y0、Z0為0-3而WRAP對于回繞值1、2、4、8為0-3。PICCOLO2為Piccolo的第二協(xié)處理器號(當(dāng)前為9)。N位在LDP32(1)與LDP16(0)之間選擇。
      將LDP16U編碼為31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      其中DEST對于目的地組X、Y、Z為1-3。
      將LDPA編碼為31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0<
      其中BANK[30]用于在每組的基礎(chǔ)上關(guān)閉不對齊模式。如果設(shè)置了BANK[1],則關(guān)閉組X上的不對齊模式。BANK[2]與BANK[3]分別關(guān)閉組Y與Z上的不對齊模式,如果設(shè)置的話。注意,這是CDP操作。
      將MPR編碼為31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      將MPRW編碼為31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      其中DEST對于目的地寄存器X0、Y0、Z0為1-3。
      輸出FIFO能保持多達8個32位值。它們是用下述(ARM)操作碼之一從Piccolo傳送的STP{&lt;cond&gt;}&lt;16/32&gt;[Rn]{!}, #&lt;size&gt;
      MRPRn第一個將來自輸出FIFO的&lt;size&gt;/4個字保存在ARM寄存器Rn給定的地址上,如果!存在,變址Rn。為防止死鎖,&lt;size&gt;不得大于輸出FIFO的大小(本實現(xiàn)中為8項)。如果采用STP16變型,在存儲器系統(tǒng)返回的數(shù)據(jù)上可出現(xiàn)對于結(jié)尾特定的表現(xiàn)。
      MRP指令從輸出FIFO中消除一個字并將其放置在ARM寄存器Rn中。對于MPR在數(shù)據(jù)上不作用對于結(jié)尾特定的操作。
      STP的ARM編碼為31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0<
      其中N在STP32(1)與STP16(0)之間選擇。對于P、U與W位的定義,參見ARM資料手冊。
      MRP的ARM編碼為31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0<
      Piccolo指令集內(nèi)部假定小結(jié)尾(little endian)操作。例如,在存取作為兩個16位的32位寄存器時,假定低一半占用位15至0。Piccolo可在帶有大結(jié)尾(big endian)存儲器或外圍設(shè)備的系統(tǒng)中操作,因此必須注意以正確方式加載16位分組數(shù)據(jù)。
      諸如ARM(如英國劍橋的先進RISC機器有限公司生產(chǎn)的ARM7微處理器)等Piccolo具有程序員能控制的‘BIGEND’配置管腳,控制可以是用可編程外圍設(shè)備進行的。Piccolo利用該管腳來配置輸入重定序緩沖器及輸出FIFO。
      當(dāng)ARM將分組的16位數(shù)據(jù)加載到重定序緩沖器中時,它必須用LDP指令的16位格式指示這一點。這一信息與‘BIGEND’配置輸入的狀態(tài)組合以適當(dāng)?shù)拇涡驅(qū)?shù)據(jù)放置在保持鎖存器與重定序緩沖器中。尤其是在大結(jié)尾模式中,保持寄存器存儲加載的字的底部16位,并與下一次加載的頂部16位配對。保持寄存器內(nèi)容永遠(yuǎn)結(jié)束在傳送到重定序緩沖器中的字的底部16位中。
      輸出FIFO可包含分組16位或32位數(shù)據(jù)。程序員必須使用STP指令的正確格式以便Piccolo能保證將16位數(shù)據(jù)提供在數(shù)據(jù)總線的正確一半上。當(dāng)配置成大結(jié)尾時,在使用16位格式的STP時,上與下16位兩半互換。
      Piccolo具有只能從ARM存取的4個專用寄存器。它們稱作S0-S2。它們只能用MRC與MCR指令存取。操作碼為MPSRSn,RmMRPSRm,Sn這些操作碼在ARM寄存器Rm與專用寄存器Sn之間傳送32位值。它們是作為協(xié)處理器寄存器傳送在ARM中編碼的31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      其中對于MPSR,L為0而對MRPS,L則為1。
      寄存器S0包含Piccolo唯一的ID及修訂版本代碼。31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      位[30]包含處理器的修訂版本號。
      位[154]包含以二進制編碼的十進制格式的3位部件號piccolo為0×500位[2316]包含體系結(jié)構(gòu)版本0×00=版本1位[3124]包含實現(xiàn)者商標(biāo)的ASCII碼0×41=A=ARM有限公司寄存器S1為Piccolo狀態(tài)寄存器。
      31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      一級狀態(tài)碼標(biāo)志(N、Z、C、V)二級狀態(tài)碼標(biāo)志(SN、SZ、SC、SV)E位Piccolo已被ARM禁止并已停止。
      U位Piccolo遇到未定義的指令并已停止。
      B位Piccolo遇到斷點并已停止。
      H位Piccolo遇到停止指令并已停止。
      A位Piccolo遇到存儲器失敗(加載、存儲或Piccolo指令)并已停止。
      D位Piccolo檢測到死鎖條件并已停止(見下)。
      寄存器S2為Piccolo程序計數(shù)器31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0<
      寫入程序計數(shù)器起動Piccolo在該地址上執(zhí)行程序(如果停止則離開停止?fàn)顟B(tài))。復(fù)位時程序計數(shù)器是無定義的,因為Piccolo總是通過寫入程序計數(shù)器起動的。
      執(zhí)行期間,Piccolo監(jiān)視指令的執(zhí)行及協(xié)處理器接口的狀態(tài)。如果它檢測到-Piccolo已停止運行等待重新裝填寄存器或等待輸出FIFO具有可利用的項。
      -協(xié)處理器接口為忙等待,由于ROB中空間不夠或輸出FIFO中項不夠。
      如果檢測到這兩種狀態(tài),Piccolo置位其狀態(tài)寄存器中的D位、停止并拒絕ARM處理器指令,導(dǎo)致ARM進入未定義指令陷阱。
      死鎖狀態(tài)的檢測允許將系統(tǒng)構(gòu)成為通過讀取ARM與Piccolo程序計數(shù)器及寄存器至少能警告程序員已出現(xiàn)該狀態(tài)及報告精確的故障點。應(yīng)強調(diào)死鎖只能由于不正確的程序或系統(tǒng)的另一部分破壞Piccolo的狀態(tài)引發(fā)。死鎖不能由數(shù)據(jù)不足或‘過載’引發(fā)。
      可采用若干種操作從ARM控制Piccolo,它們是由CDP指令提供的。這些CDP指令只在ARM在特權(quán)狀態(tài)中才接受。如果不在該狀態(tài)中Piccolo將拒絕CDP指令而導(dǎo)致ARM處于未定義的指令陷阱。下面為可利用的操作-復(fù)位-進入狀態(tài)訪問模式-啟動-禁止Piccolo可用PRESET指令在軟件中復(fù)位。
      PRESET;清除piccolo的狀態(tài)將這一指令編碼為31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      執(zhí)行這一指令時出現(xiàn)以下情況-將所有寄存器標(biāo)記為空(準(zhǔn)備好重新填充)。
      -清除輸入ROB。
      -清除輸出FIFO。
      -復(fù)位循環(huán)計數(shù)器。
      -將Pioccolo置于停止?fàn)顟B(tài)(將置位S2的H位)。
      執(zhí)行PRESET指令可占用若干周期來完成(對于本實施例2-3)。在正在執(zhí)行它時,后面要在Piccolo上執(zhí)行的ARM協(xié)處理器指令將處于忙等待。
      在狀態(tài)訪問模式中,可使用STC及LDC指令保存與恢復(fù)Piccolo的狀態(tài)(見下面關(guān)于從ARM訪問Piccolo狀態(tài))。為了進入狀態(tài)訪問模式,必須首先執(zhí)行PSTATE指令PSTATE進入狀態(tài)訪問模式將這一指令編碼為31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      在執(zhí)行時,PSTATE指令將-停止Piccolo(如果它尚未停止),置位Piccolo的狀態(tài)寄存器中的E位。
      -配置Piccolo進入其狀態(tài)訪問模式中。
      執(zhí)行PSTATE指令可占用若干周期來完成,由于在停止以前Piccolo的指令流水線必須用完。當(dāng)正在執(zhí)行時,后面要在Piccolo上執(zhí)行的ARM協(xié)處理器指令將是忙等待。
      將PENABLE與PDISABLE指令用于快速上下文切換。當(dāng)Piccolo被禁止時,只能訪問專用寄存器0與1(ID與狀態(tài)寄存器),并且只是從特權(quán)模式時。訪問任何其它狀態(tài)或從用戶模式的任何訪問將導(dǎo)致ARM未定義指令異常。禁止Piccolo導(dǎo)致它停止執(zhí)行。當(dāng)Piccolo已停止執(zhí)行時,它通過置位狀態(tài)寄存器中的E位來確認(rèn)這一事實。
      Piccolo是通過執(zhí)行PENABLE指令啟動的PENABLE;啟動Piccolo將這一指令編碼為31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      Picclol是通過執(zhí)行PDISABLE指令禁止的PDISABLE;禁止Piccolo將這一指令編碼為31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      在執(zhí)行這一指令時,出現(xiàn)以下情況-Piccolo的指令流水線將流完。
      -Piccolo將停機及置位狀態(tài)寄存器中的H位。
      Piccolo指令高速緩沖存儲器保持控制Piccolo數(shù)據(jù)路徑的Piccolo指令。如果存在,它保證保持至少64條指令,起始在16個字邊界上。下面的ARM操作碼匯編進MCR中。其操作為強制高速緩沖存儲器取出起始在指定地址上(必須是16字邊界)的一行(16條)指令。即使高速緩沖存儲器已保持有關(guān)于這一地址的數(shù)據(jù)也發(fā)生這一取出。
      PMIRRm在能執(zhí)行PMIR之前Piccolo必須停止。
      這一操作碼的MCR編碼為31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      本節(jié)討論控制Piccolo數(shù)據(jù)路徑的Piccolo指令集。各指令為32位長。指令是從Piccolo指令高速緩沖存儲器中讀取的。
      解碼指令集是相當(dāng)直觀的。高6位(26至31)給出主操作碼,位22至25為少數(shù)特定指令提供次要操作碼。帶灰色陰影的位當(dāng)前不使用而為擴展保留(當(dāng)前它們必須包含指定值)。
      有11個主要指令類。這并不完全對應(yīng)于提出在指令中的主操作碼,這是為了便于解碼某些子類。3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 9 8 7 6 5 4 3 2 1 01 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0
      <p>上表中的指令具有以下名稱標(biāo)準(zhǔn)數(shù)據(jù)運算邏輯運算條件加/減未定義移位選擇未定義并行選擇乘累加未定義雙倍乘未定義移動帶符號立即數(shù)未定義重復(fù)重復(fù)寄存器列表操作轉(zhuǎn)移重新命名參數(shù)傳送停止/中斷在下面的節(jié)中詳細(xì)描述各類指令的格式。對于大多數(shù)指令,源與目的地操作數(shù)字段是通用的并在單獨的節(jié)中詳細(xì)描述,寄存器重新映射也一樣。
      大多數(shù)指令需要兩個源操作數(shù);源1與源2。某些例外是飽和絕對值。
      源1(SRC1)操作數(shù)具有以下7位格式18 17 16151413 12
      字段元素具有下述含義-大小-指示要讀的操作數(shù)大小(1=32位,0=16位)。
      -再填充-規(guī)定讀后應(yīng)將寄存器標(biāo)記為空的并能從ROB再填充。
      -寄存器號-編碼要讀取的16個32位寄存器中哪一個。
      -高/低-對于16位讀指示讀取32位寄存器的哪一半。對于32位操作數(shù),置位時指示應(yīng)互換兩個16位一半。<
      >在匯編程序中通過在寄存器號上加上后綴來指定寄存器大小1為低16位,h為高16位或.x為具有高與低16位交換的32位。
      通用的源2(SRC2)具有以下三種12位格式之一1110 9 8 76 54 3 2 1 0<
      >圖4示出根據(jù)高/低位與大小位將所選擇的寄存器的適當(dāng)?shù)囊话肭袚Q到Piccolo數(shù)據(jù)路徑上的多路復(fù)用器裝置。如果大小位指示16位,則符號擴展電路根據(jù)需要用0或1填充數(shù)據(jù)路徑的高位。
      第一種編碼指定源為寄存器,這些字段具有與SRC1說明符相同的編碼。標(biāo)度(SCALE)字段指定要作用在ALU的結(jié)果上的標(biāo)度。
      <p>帶有循環(huán)編碼的8位立即數(shù)允許生成可用8位值及2位循環(huán)表示的32位立即數(shù)。下表示出能從8位值XY生成的立即數(shù)值
      6位立即數(shù)編碼允許使用6位不帶符號的立即數(shù)(從0到63),以及作用在ALU的輸出上的標(biāo)度。
      通用源2編碼對于大多數(shù)指令變型是通用的。對這一規(guī)則存在一些例外,它們支持源2編碼的有限子集或?qū)⑵渖约有薷?選擇指令。
      -移位指令。
      -并行操作。
      -乘累加指令。
      -乘雙倍指令。
      選擇指令只支持寄存器或6位不帶符號立即數(shù)的一個操作數(shù)。由于這些位由指令的狀態(tài)字段使用而得使該標(biāo)度不可用。
      11 10 98 7 6 5 4 3 2 1 0
      SRC2_SEL移位指令只支持16位寄存器或1與31之間的5位無符號立即數(shù)的一個操作數(shù)。不能得到結(jié)果的標(biāo)度。
      11 10 9 876 5 43 2 1 0
      SRC2_SHIFT在并行操作情況中,如果指定寄存器作為操作數(shù)的源,則必須執(zhí)行32位讀。并行操作的立即數(shù)編碼略為不同。它允許將一個立即數(shù)復(fù)制到32位操作數(shù)的兩個16位一半中。并行操作可利用稍加限制范圍的標(biāo)度。
      11109 8 7 6 5 4 3 2 1 0
      SRC2_PARALLEL如果使用6位立即數(shù),則總是將它復(fù)制到32位量的兩個一半上。如果使用8位立即數(shù),只有當(dāng)循環(huán)指示應(yīng)將8位立即數(shù)循環(huán)到32位量的頂部一半上時才復(fù)制。<
      <p>并行選擇操作不使用標(biāo)度;必須將這些指令的標(biāo)度字段設(shè)置為0。
      乘累加指令不允許指定8位循環(huán)立即數(shù)。該字段的位10用來部分地指定使用哪一累加器。源2蘊含16位操作數(shù)。
      11 10 98 7 6 54 3 2 1 0
      SRC2_MULA乘雙倍指令不允許使用常量。只能指定一個16位寄存器。該字段的位10用來部分地指定使用哪一個累加器。
      11 10 9 8 7 6 5 4 3 2 1 0
      SRC2_MULD某些指令總是蘊含32位操作(如ADDADD),并在這些情況中應(yīng)將大小位設(shè)置為1,高/低位用來有選擇地互換32位操作數(shù)的兩個16位一半。某些指令總是蘊含16位操作(如MUL)并應(yīng)將大小位設(shè)置為0。而高/低位選擇所使用的寄存器的哪一半(假定清除了失去的大小位)。乘累加指令允許獨立說明源累加器與目的地寄存器。對于這些指令,大小位用來指示源累加器,而大小位則由指令類型為0來蘊含。
      當(dāng)讀取16位值時(通過A或B總線)自動進行符號擴展將其擴展成32位量。如果讀取48位寄存器(通過A或B總線),在總線上只出現(xiàn)底部32位。從而在所有情況中都將源1與源2轉(zhuǎn)換成32位值。只有使用總線C的累加指令能存取累加器寄存器的整個48位。
      如果置位再填充位,使用后便將該寄存器標(biāo)記為空的并將由通常的再填充機制從ROB再填充(見關(guān)于ROB的節(jié))。除非在進行再填充以前該寄存器再一次用作源操作數(shù),Piccolo不會停止運行。在再填無的數(shù)據(jù)有效以前的最小周期數(shù)(最佳情況 數(shù)據(jù)等待在ROB頭部)為1或2。因此建議在再填充請求后面的指令上不要使用再填充的數(shù)據(jù)。如果能避免在后面兩條指令上使用操作數(shù),應(yīng)當(dāng)這樣做,由于這可防止深層流水線實現(xiàn)上的性能損失。
      在匯編程序中通過在寄存器號上加上后綴“^”來指定再填充位。標(biāo)記為空的寄存器段取決于寄存器操作數(shù)??蓪⒏骷拇嫫鞯膬砂霕?biāo)記為獨立地再填充的(例如X0.l^只標(biāo)記再填充X0的底部一半,X0^則標(biāo)記再填充整個X0)。當(dāng)再填充48位寄存器的頂部“一半”(位4716)時,將16位數(shù)據(jù)寫入位3116并符號擴展到位47。
      如果試圖再填充同一寄存器兩次(如ADD X0,X0^,X0^),只進行一次填充。匯編程序只允許語法ADD X1,X0,X0^。
      如果在再填充一寄存器之前試圖讀該寄存器,Piccolo停止運行等待再填充該寄存器。如果標(biāo)記寄存器為再填充,而在讀取再填充的值之前更新了該寄存器,結(jié)果是不可預(yù)測的(例如ADD X0,X0^,X1是不可預(yù)測的,由于它標(biāo)記X0再填充,然后通過將X0與X1之和放置在其中來再填充)。
      4位標(biāo)度字段編碼14種標(biāo)度類型-ASR #0, 1, 2, 3, 4, 6, 8, 10-ASR #12至16-LSL #1并行最大/最小指令不提供標(biāo)度,因此不使用源2的6位常量變型(匯編程序設(shè)置為0)。
      在重復(fù)指令內(nèi)支持寄存器重新映射,允許重復(fù)指令訪問寄存器的移動‘窗口’而不回繞循環(huán)。下面更詳細(xì)描述這一點。
      目的地操作數(shù)具有以下7位格式
      252423 22 212019
      這一基本編碼有10種變型匯編程序助記符 25 24 23 22 21 20 19
      寄存器號(DX)指示正在尋址的是16個寄存器中哪一個。高/低位與大小位一起工作來尋址作為一對16位寄存器的各32位寄存器。大小位定義如何設(shè)置指令類型中所定義的適當(dāng)標(biāo)志,不論將結(jié)果是否寫入寄存器組與/或輸出FIFO,這允許構(gòu)成比較及類似指令。帶累加的加法類指令必須將結(jié)果寫回寄存器。
      下表示出各編碼的表現(xiàn)<
      在所有情況中,任何操作寫回寄存器或插入輸出FIFO之前的結(jié)果為48位量。存在著兩種情況如果寫是16位的,通過選擇底部16位[150]將48位量減少到16位量。如果指令飽和,則值將飽和在范圍-2^15至2^15-1中。然后將16位值寫回到指定的寄存器,如果設(shè)置了寫FIFO位,則寫到輸出FIFO。如果將其寫到輸出FIFO,則將其保持到直到寫入下一個16位值將這兩個值配對并作為單一的32位值放入輸出FIFO中時。
      對于32位寫,通過選擇底部32位[310]將48位量減少到32位量。
      對于32位與48位寫兩者,如果指令飽和,便將48位值轉(zhuǎn)換成范圍-2^31-1至2^31中的32位值。接著該飽和-如果執(zhí)行寫回到累加器,則寫入整個48位。
      -如果執(zhí)行寫回到32位寄存器,則寫位[310].
      -如果指示寫回到FIFO,又一次寫位[310].
      目的地大小是由匯編程序在寄存器號后面用.l或.h指定的。如果不執(zhí)行寄存器寫回,則寄存器是不重要的,因此省略目的地寄存器來指示不寫到寄存器或使用^來指示只寫入輸出FIFO。例如,SUB,X0,Y0等效于CMP X0,Y0而ADD^,X0,Y0將X0+Y0之值放入輸出FIFO中。
      如果輸出FIFO沒有值的空間,Piccolo停止運行等待空間成為可利用的。
      如果寫出16位值,例如ADD X0.h^,X1,X2,則鎖存該值直到寫第二個16位值。然后將兩個值組合并作為一個32位數(shù)放入輸出FIFO中。寫入的第一個16位值總是出現(xiàn)在32位字的低位一半。將進入輸出FIFO的數(shù)據(jù)標(biāo)記為16或32位數(shù)據(jù),以允許在大結(jié)尾系統(tǒng)上校正結(jié)尾。
      如果在兩次16位寫之間寫入32位值,則操作是未定義的。
      重復(fù)指令內(nèi)支持寄存器重新映射,允許重復(fù)指令訪問寄存器的移動‘窗口’而不回繞循環(huán)。下面更詳細(xì)地描述這一點。
      在本發(fā)明的較佳實施例中,重復(fù)指令提供修改在循環(huán)中指定寄存器操作數(shù)的方式的機制。在這一機制下,要訪問的寄存器是用指令中的寄存器操作數(shù)及在寄存器組中的編移量的一個函數(shù)來確定的。該偏移量是以可編程方式改變的,最好在各指令循環(huán)的末尾。該機制可獨立地在位于X、Y與Z組中的寄存器上操作。在較佳實施例中,這一設(shè)施對于A組中的寄存器不能利用。
      可使用邏輯與物理寄存器的概念。指令操作數(shù)為邏輯寄存器引用,然后將其映射到標(biāo)識特定Piccolo寄存器10的物理寄存器引用。包含再填充在內(nèi)的所有操作都在物理寄存器上操作。只在Piccolo指令流一側(cè)出現(xiàn)寄存器重新映射-加載進Piccolo的數(shù)據(jù)總是指派給物理寄存器而不執(zhí)行重新映射。
      進一步參照圖5討論重新映射機制,圖5為示出Piccolo協(xié)處理器4的若干內(nèi)部部件的方框圖。將ARM核2從存儲器中檢索到的數(shù)據(jù)項放在重定序緩沖器12中,而Piccolo寄存器10則以較早參照圖2描述的方式從重定序緩沖器12再填充。將存儲在高速緩沖存儲器6中的Piccolo指令傳遞給在Piccolo 4內(nèi)的指令解碼器50,在那里在將它們傳遞給Piccolo處理器核54之前進行解碼。Piccolo處理器核54包含較早參照圖3討論的乘法器/加法器電路20、累加/累減電路22及定標(biāo)/飽和電路24。
      如果指令解碼器50正在處理構(gòu)成用重復(fù)指令標(biāo)識的指令循環(huán)的一部分的指令,而該重復(fù)指令指示了應(yīng)進行若干寄存器的重新映射,便利用寄存器重新映射邏輯52來執(zhí)行必要的重新映射。可將寄存器重新映射邏輯52認(rèn)為是指令解碼器50的一部分,雖然熟悉本技術(shù)的人員清楚可將寄存器重新映射邏輯設(shè)置成完全與指令解碼器50分開的實體。
      指令中通常包含標(biāo)識包含指令所需的數(shù)據(jù)項的寄存器的一個或多個操作數(shù)。例如,典型的指令可包含兩個源操作數(shù)及一個目的地操作數(shù),標(biāo)識包含該指令所需的數(shù)據(jù)項的兩個寄存器及應(yīng)將指令的結(jié)果放入其中的寄存器。寄存器重新映射邏輯52從指令解碼器50接收指令的操作數(shù),這些操作數(shù)標(biāo)識邏輯寄存器引用。根據(jù)邏輯寄存器引用,寄存器重新映射邏輯確定應(yīng)不應(yīng)施加重新映射,然后根據(jù)需要將重新映射作用在物理寄存器引用上。如果確定不應(yīng)施加重新映射,便提供邏輯寄存器引用作為物理寄存器引用。稍后將詳細(xì)討論執(zhí)行重新映射的較佳方式。
      將來自寄存器重新映射邏輯的各輸出物理寄存器引用傳遞給Piccolo處理器核54,使得隨后處理器核能將指令作用在由物理寄存器引用標(biāo)識的特定寄存器10中的數(shù)據(jù)項上。
      較佳實施例的重新映射機制允許將各寄存器組分成兩部分,即可以重新映射的寄存器部分及保持它們原來的寄存器引用不重新映射的寄存器部分。較佳實施例中,重新映射部分起始于重新映射的寄存器組的底部。
      重新映射機制采用若干參數(shù),這些參數(shù)將參照圖6詳細(xì)討論,圖6為示出寄存器重新映射邏輯22如何使用各種參數(shù)的方框圖。應(yīng)指出這些參數(shù)是相對于正在重新映射的組內(nèi)的一點的給定值,這一點為例如該組的底部。
      可認(rèn)為寄存器重新映射邏輯52包括兩個主要邏輯塊,即重新映射塊56及基更新塊58。寄存器重新映射邏輯52采用提供加在邏輯寄存器引用上的偏移值的基指針,由基更新決58將這一基指針值提供給重新映射塊56。
      可用基起始(BASESTART)信號來定義基指針的初始值,例如這通常是零,雖然一些其它值也可指定。將這一基起始信號傳遞給基更新塊58內(nèi)的多路復(fù)用器60。在指令循環(huán)的第一次重復(fù)中,多路復(fù)用器60將基起始信號傳遞給存儲單元66,而對于循環(huán)的后面的重復(fù),由多路復(fù)用器60將下一基指針值提供給存儲單元66。
      將存儲單元66的輸出作為當(dāng)前基指針值傳遞給重新映射邏輯56,并且還傳遞給基更新邏輯58內(nèi)的加法器62的輸入之一。加法器62還接收提供基增量值的基增量(BASEINC)信號。加法器62配置成將存儲單元66所提供的當(dāng)前基指針值增加該基增量值,并將結(jié)果傳遞給模電路64。
      這一模電路還接收基環(huán)繞(BASEWRAP)值并將這一值與來自加法器62的輸出基指針信號比較。如果增量后的基指針值等于或大于基環(huán)繞值,便將新基指針繞回到新的偏移值。這時模電路64的輸出便是要存儲在存儲單元66中的下一基指針值。將這一輸出提供給多路復(fù)用器60,并從那里到存儲單元66。
      然而,在存儲單元66從管理重復(fù)指令的循環(huán)硬件接收到基更新(BASEUPDATE)信號之前不能將這一下一個基指針值存儲在存儲單元66中。循環(huán)硬件周期性地生成基更新信號,例如每當(dāng)要重復(fù)指令循環(huán)時。當(dāng)存儲單元66接收到基更新信號時,存儲單元便用多路復(fù)用器60提供的下一基指針值改寫前一基指針值。以這一方式,提供給重新映射邏輯58的基指針值將改變成新基指針值。
      要在寄存器組的重新映射的部分內(nèi)存取的物理寄存器由包含在指令的操作數(shù)內(nèi)的邏輯寄存器引用與基更新邏輯58提供的基指針值之和確定。這一加法是由加法器68執(zhí)行的并將輸出傳遞給模電路70。在較佳實施例中,模電路70還接收寄存器環(huán)繞值,如果來自加法器68的輸出信號(邏輯寄存器引用與基指針值之和)超過寄存器環(huán)繞值,結(jié)果將環(huán)繞回到重新映射區(qū)的底部。然后將模電路70的輸出提供給多路復(fù)用器72。
      將寄存器計數(shù)(REGCOUNT)值提供給重新映射塊56內(nèi)的邏輯74,標(biāo)識組中要重新映射的寄存器的數(shù)目。邏輯74將這一寄存器計數(shù)值與邏輯寄存器引用比較,并根據(jù)比較結(jié)果將控制信號傳遞給多路復(fù)用器72。多路復(fù)用器72作為其兩個輸入接收邏輯寄存器引用及模電路70的輸出(重新映射的寄存器引用)。本發(fā)明的較佳實施例中,如果邏輯寄存器引用小于寄存器計數(shù)值,邏輯74便指令多路復(fù)用器72輸出重新映射的寄存器引用作為物理寄存器引用。然而,如果邏輯寄存器引用大于或等于寄存器計數(shù)值,邏輯74便指令多路復(fù)用器直接輸出邏輯寄存器引用作為物理寄存器引用。
      如上所述,在較佳實施例中,重復(fù)指令調(diào)用重新映射機制。如稍后要詳細(xì)討論的,重復(fù)指令在硬件中提供四個零周期循環(huán)。這些硬件循環(huán)作為指令解碼器50的一部分示出在圖5中。每一次指令解碼器50請求來自高速緩沖存儲器6的指令時,高速緩沖存儲器便將該指令返回給指令解碼器,此時指令解碼器判定返回的指令是否是重復(fù)指令。如果是,便配置硬件循環(huán)之一來處理該重復(fù)指令。
      各重復(fù)指令指定循環(huán)中的指令數(shù)及環(huán)繞循環(huán)的次數(shù)(它是常量或讀自Piccolo寄存器)。提供了兩個操作碼‘重復(fù)’(REPEAT)及下一個(NEXT)來定義硬件循環(huán),‘下一個’操作碼只用作分界符并不匯編成指令。重復(fù)從循環(huán)的起點開始,而‘下一個’界定循環(huán)的結(jié)束,允許匯編程序計算循環(huán)體中的指令數(shù)。在較佳實施例中,重復(fù)指令可包含要由寄存器重新映射邏輯52使用的諸如寄存器計數(shù)(REGCOUNT)、基增量(BASEINC)、基環(huán)繞(BASEWRAP)及寄存器環(huán)繞(REGWRAP)參數(shù)等重新映射參數(shù)。
      可設(shè)置若干寄存器來存儲寄存器重新映射邏輯所使用的重新映射參數(shù)。在這些寄存器內(nèi),可提供若干組預(yù)定義的重新映射參數(shù),同時保留一些寄存器供存儲用戶定義的重新映射參數(shù)。如果用重復(fù)指令指定的重新映射參數(shù)等于預(yù)定義的重新映射參數(shù)組之一,則采用適當(dāng)?shù)闹貜?fù)編碼,這一編碼導(dǎo)致多路復(fù)用器之類將適當(dāng)?shù)闹匦掠成鋮?shù)直接從寄存器提供給寄存器重新映射邏輯。反之,如果重新映射參數(shù)與任何預(yù)定義的重新映射參數(shù)組都不同,則匯編程序生成重新映射參數(shù)傳送指令(RMOV),它允許配置用戶定義的寄存器重新映射參數(shù),RMOV指令后面是重復(fù)指令。最好RMOV指令將用戶定義的重新映射指令放置在為存儲這種用戶定義的重新映射參數(shù)留出的寄存器中,然后將多路復(fù)用器編程為將這些寄存器的內(nèi)容傳遞給寄存器重新映射邏輯。
      在較佳實施例中,寄存器計數(shù)、基增量、基環(huán)繞及寄存器環(huán)繞參數(shù)取下表中確定的值之一
      參見圖6,重新映射塊56如何使用各種參數(shù)的示例如下(在本例中,邏輯與物理寄存器值是相對于特定組的)if(邏輯寄存器<REGCOUNT)物理寄存器=(邏輯寄存器+基)MOD REGCOUNTelse物理寄存器=邏輯寄存器end if在循環(huán)結(jié)束處,在循環(huán)的下一次重復(fù)開始前,基更新邏輯58執(zhí)行對基指針的下述更新基=(基+BASEINC)MOD BASEWRAP在重新映射循環(huán)結(jié)束處,關(guān)閉寄存器重新映射,然后作為物理寄存器存取所有寄存器。較佳實施例中,任何一個時間上只有一個重新映射REPEAT(重復(fù))是活躍的。循環(huán)還可嵌套,但在任何特定時刻只有一個循環(huán)能更新重新映射變量。然而如果需要,可以嵌套重新映射重復(fù)。
      為了展示作為采用按照本發(fā)明的較佳實施例的重新映射機制的結(jié)果所達到的關(guān)于代碼密度的好處,下面討論典型的塊過濾算法。首先參照圖7討論阻塞過濾器算法的原理。如圖7中所示,將累加器寄存器A0配置成累加若干次乘法運算的結(jié)果,乘法運算為系數(shù)C0乘以數(shù)據(jù)項d0的乘法,系數(shù)c1乘以數(shù)據(jù)項d1的乘法,系數(shù)c2乘以數(shù)據(jù)項d2的乘法等。寄存器A1累加類似的乘法運算組的結(jié)果,但這時系數(shù)集合已移位使得c0現(xiàn)在乘以d1,c1乘以d2,c2乘以d3等。類似地,寄存器A2累加數(shù)據(jù)值乘以又向右移位一步的系數(shù)值的結(jié)果,使得c0乘以d2,c1乘以d3,c2乘以d4等。然后重復(fù)這一移位、乘及累加進程,將結(jié)果放在寄存器A3中。
      如果不采用按照本發(fā)明的較佳實施例的寄存器重新映射,則需要下面的指令循環(huán)來執(zhí)行塊過濾指令;以4個新數(shù)據(jù)值開始ZERO{A0-A3};清零累加器REPEAT Z1 ;Z1=(系數(shù)個數(shù)/4);在第一輪進行下面四個系數(shù); a0 += d0*c0+d1*c1+d2*c2+d3*c3; a1 += d1*c0+d2*c1+d3*c2+d4*c3; a2 += d2*c0+d3*c1+d4*c2+d5*c3; a3 += d3*c0+d4*c1+d5*c2+d6*c3MULA A0,X0.l^,Y0.l,A0; a0 += d0*c0,及加載d4MULA A1,X0 h, Y0.l,A1; a1 += d1*c0MULAA2, X1.l, Y0.l, A2; a2 += d2*c0MULAA3, X1.h, Y0.l^,A3; a3 += d3*c0,及加載c4MULAA0, X0.h^, Y0.h, A0; a0 += d1*c1,及加載d5MULAA1, X1.l, Y0.h, A1; a1 += d2*c1MULAA2, X1.h, Y0.h, A2; a2 += d3*c1MULAA3, X0.l, Y0.h^,A3; a3 += d4*c1,及加載c5MULAA0, X1.1^, Y1.l, A0; a0 += d2*c2,及加載d6MULAA1, X1.h, Y1.l, A1; a1 += d3*c2MULAA2, X0.l, Y1.l, A2; a2 += d4*c2MULAA3, X0.h, Y1.l^,A3; a3 += d5*c2,及加載c6MULAA0, X1.h^, Y1.h, A0; a0 += d3*c3,及加載d7MULAA1, X0.l, Y1.h, A1; a1 += d4*c3MULAA2, X0.h, Y1.h, A2; a2 += d5*c3MULAA3, X1.l, Y1.h^,A3; a3 += d6*c3,及加載c7NEXT
      在本例中,將數(shù)據(jù)值放在X寄存器組中而將系數(shù)值放在Y寄存器組中。作為第一步,將四個累加器寄存器A0、A1、A2與A3設(shè)置為零。一旦復(fù)位了累加器寄存器,便進入指令循環(huán),該循環(huán)是用‘重復(fù)’(REPEAT)及‘下一個’(NEXT)指令定界的。值Z1確定指令循環(huán)應(yīng)重復(fù)的次數(shù),為了下面將要討論的原因,它實際上等于系數(shù)(c0,c1,c2等)的個數(shù)除以4。
      指令循環(huán)包括16條乘累加指令(MULA),在第一次通過循環(huán)之后這些提令將導(dǎo)致在寄存器A0,A1,A2,A3中包含上述重復(fù)與第一條MULA指令之間的代碼中所示的計算結(jié)果。為了說明乘累加指令如何操作,我們將考慮前四條MULA指令。第一條指令將X組寄存器0的第一或低16位的數(shù)據(jù)值乘以Y組寄存器0中的低16位,并將結(jié)果加到累加器寄存器A0中。同時用再填充位標(biāo)記X組寄存器0的低16位,這指示該寄存器的該部分現(xiàn)在可用新數(shù)據(jù)值再填充。以這一方式標(biāo)記是因為從圖7中可看出,一旦將數(shù)據(jù)項d0乘以系數(shù)c0(由第一條MULA指令表示),對于其余塊過濾指令d0便不再需要,因此能用新數(shù)據(jù)值取代。
      然后第二條MULA指令將X組寄存器0的第二或高16位乘以Y組寄存器0的低16位(這表示圖7中所示的乘法d1×c0)。類似地,第三與第四條MULA指令分別表示乘法d2×c0及d3×c0。從圖7中可見,一旦執(zhí)行過這四個計算,系數(shù)c0便不再需要,因此用再填充位標(biāo)記寄存器Y0.l使它能用另一系數(shù)(c4)改寫。
      下面四條MULA指令分別表示計算d1×c1、d2×c1、d3×c1與d4×c1。一旦執(zhí)行過d1×c1,使用再填充位標(biāo)記寄存器x0.h,因為不再需要d1。類似地,一旦執(zhí)行過全部四條指令,便將寄存器Y0.h標(biāo)記為供再填充,因為不再需要系數(shù)c1。類似地,下面四條MULA指令對應(yīng)于計算d2×c2、d3×c2、d4×c2及d5×c2,而最后四條指令則對應(yīng)于計算d3×c3、d4×c3、d5×c3及d6×c3。
      在上述實施例中,由于寄存器是不能重新映射的,各乘法運算必須用操作數(shù)中指定的所需特定寄存器明顯地再生。一旦執(zhí)行過16條MULA指令,便能為系數(shù)c4至c7及數(shù)據(jù)項d4至d10重復(fù)這一指令循環(huán)。并且由于每一次重復(fù)該循環(huán)在四個系數(shù)值上操作。所以系數(shù)值的數(shù)目必須是4的倍數(shù)并必須計算Z1=系數(shù)數(shù)/4。
      通過采用按照本發(fā)明的較佳實施例的重新映射機制,可以極大地縮小指令循環(huán),使得它只包含4條乘累加指令而不是否則所需要的16條乘累加指令。采用重新映射機制,將代碼編寫成如下所列;以4個新數(shù)據(jù)值開始ZERO{A0-A3};清零累加器REPEAT Z1,X++ n4 w4 r4,Y++ n4 w4 r4 ;Z1=(系數(shù)的個數(shù));對X與Y組進行重新映射;重新映射這些組中四個16位寄存器;在循環(huán)的每一次重復(fù)上將兩組的基指針遞增。
      ;當(dāng)基指針到達該組中第四個寄存器時便繞回。
      MULA A0,X0.l^,Y0.l, A0; a0 += d0*c0,及加載d4MULA A1,X0 h, Y0.l, A1; a1 += d1*c0MULA A2,X1.l, Y0.l, A2; a2 += d2*c0MULA A3,X1.h, Y0.l^, A3; a3 += d3*c0,及加載c4NEXT ;繞回到循環(huán)并進行重新映射如上所述,第一步將四個累加器寄存器A0-A3設(shè)置成0。然后進入用‘重復(fù)’與‘下一個’操作碼定界的指令循環(huán)。重復(fù)指令擁有與之關(guān)聯(lián)的若干參數(shù),它們是X++指示對于X寄存器組基增量為“1”。
      n4指示寄存器計數(shù)為“4”,因此要重新映射前四個X組寄存器X0.l至X1.hw4指示對于X寄存器組基環(huán)繞為“4”r4指示對于X寄存器組寄存器環(huán)繞為“4”Y++指示對于Y寄存器組基增量為“1”n4指示寄存器計數(shù)為“4”因此要重新映射前4個Y組寄存器Y0.l至Y1.h。
      w4指示對于Y寄存器組基環(huán)繞為“4”r4指示對于Y寄存器組寄存器環(huán)繞為“4”還應(yīng)指出,現(xiàn)在值Z1等于系數(shù)數(shù)目而不是先有技術(shù)示例中等于系數(shù)數(shù)目/4。
      對于指令循環(huán)的第一次循環(huán),基指針值為0,因此無重新映射。然而下一次執(zhí)行循環(huán)時,對于X與Y組基指針值都將是“1”,因此將操作數(shù)重新映射如下X0.l成為X0.hX0.h成為X1.lX1.l成為X1.hX1.h成為X0.l(由于基環(huán)繞為“4”)Y0.l成為Y0.hY0.h成為Y1.lY1.l成為Y1.hY1.h成為Y0.l(由于基環(huán)繞為“4”)因此,在第二次重復(fù)時可看出,四條MULA指令實際上執(zhí)行較早討論的不包含本發(fā)明的重新映射的示例中用第五至第八條MULA指令所指示的計算。類似地,第三與第四次重復(fù)通過循環(huán)執(zhí)行前面用先有技術(shù)代碼的第九至第12及第13至第16條MULA指令執(zhí)行的計算。
      因此可以看出上述代碼執(zhí)行與先有技術(shù)代碼完全相同的塊過濾算法,但將循環(huán)體內(nèi)的代碼密度改進了一個因子4,由于只需要提供4條指令而不是先有技術(shù)所需的16條。
      通過采用按照本發(fā)明的較佳實施例的寄存器重新映射技術(shù),能實現(xiàn)下述優(yōu)點1.改進代碼密度;2.在一定場合中隱藏從標(biāo)記寄存器為空到Piccolo的重定序緩沖器再填充該寄存器的等待時間。這可以以增加代碼大小的代價通過解開循環(huán)來達到。
      3.能存取可變數(shù)目的寄存器-通過改變執(zhí)行的循環(huán)重復(fù)次數(shù),可改變存取的寄存器數(shù)目;以及4.便于算法展開。對于適當(dāng)?shù)乃惴?,程序員可為算法的第n階段生成一段代碼,然后利用寄存器重新映射將公式應(yīng)用在一個滑動數(shù)據(jù)組上。
      很明顯可以不脫離本發(fā)明的范圍對上述寄存器重新映射機制作出某些改變。例如,有可能為寄存器組10提供比程序員在指令操作數(shù)中所能指定的更多的物理寄存器。這些額外的寄存器不能直接存取,而寄存器重新映射機制能利用這些寄存器。例如,考慮早先討論的X寄存器組具有程序員可利用的4個32位寄存器并因而可用邏輯寄存器引用指定8個16位寄存器的示例。有可能使X寄存器組實際上包含例如6個32位寄存器,在這一情況中將有4個附加的16位寄存器不能由程序員直接存取。然而,這四個額外的寄存器能被重新映射機制利用,借此為存儲數(shù)據(jù)項提供附加的寄存器。
      可使用以下的匯編程序語法>>表示邏輯右移,或者在移位操作數(shù)為負(fù)時左移(見下面&lt;lscale&gt;)。
      ->>表示算術(shù)右移,或者在移位操作數(shù)為負(fù)時左移(見下面&lt;scale&gt;)。
      ROR表示循環(huán)右移SAT(a)表示a的飽和值(取決于目的地寄存器的大小飽和到16或32位)。具體地,為了飽和到16位,任何大于+0x7fff的值用+0x7fff代替,而任何小于-0x8000的值則用-0x8000代替。類似地飽和到32位用極限+0x7fffffff與-0x80000000。如果目的地寄存器為48位,飽和仍然在32位上。
      源操作數(shù)1可用下述格式之一&lt;Src1&gt;將用作[Rn|Rn.l|Rn.h|Rn.x][^]的簡寫。換言之,源說明符的所有7位都有效,并作為(可選擇地互換的)32位值或16位符號擴展的值讀取寄存器。對于累加器只讀取底部32位。^指示寄存器再填充。
      &lt;src1_16&gt;是[Rn.l|Rn.h][^]的簡寫。只能讀取16位值。
      &lt;src1_32&gt;是[Rn|Rn.X][^]的簡寫。只能讀取32位值,高與低一半有選擇地互換。
      &lt;src_2&gt;(源操作數(shù)2)可以是下述格式之一&lt;src2&gt;是三種選項的簡寫-形式[Rn|Rn.l|Rn.h|Rn.x][^]的源寄存器,加上最終結(jié)果的標(biāo)度(&lt;scale&gt;)。
      -可選擇的移位的8位常量(&lt;immed_8&gt;),但無最終結(jié)果的標(biāo)度。
      -6位常量(&lt;immed_6&gt;)加上最終結(jié)果的標(biāo)度(&lt;scale&gt;)。
      &lt;src2_maxmin&gt;與&lt;src2&gt;相同但不允許定標(biāo)。
      &lt;src2_shift&gt;提供&lt;src2&gt;的有限子集的移位指令。見上述詳細(xì)情況。
      &lt;src2_par&gt;在&lt;src2_shift&gt;方面對于指定第三操作數(shù)的指令&lt;acc&gt;四個累加器寄存器[A0|A1|A2|A3]中任何一個的簡寫。讀取全部48位。不能指定再填充。
      目的地寄存器具有格式&lt;dest&gt;它是[Rn| Rn.l|Rn.h|.l|][^]的簡寫。不帶“.”擴展寫入整個寄存器(在累加器情況中為48位)。在不需要寫回到寄存器的情況中,所使用的寄存器是不重要的。匯編程序支持省略目的地寄存器來指示不需要寫回,或用“.l”來指示不需要寫回,但應(yīng)設(shè)置標(biāo)志,猶如結(jié)果為16位量。^表示將值寫到輸出FIFO中。
      &lt;scale&gt;表示若干算術(shù)標(biāo)度??梢岳玫挠?4種標(biāo)度ASR #0,1,2,3,4,6,8,10ASR #12至16LSL #1
      &lt;immed-8&gt;代表不帶符號的8位立即值。這包含循環(huán)左移0,8,16或24的一個字節(jié)。因此能為任何YZ編碼值0xYZ000000、0x00YZ0000、0x0000YZ00、及0x000000YZ。循環(huán)是作為2位的量編碼的。
      &lt;imm_6&gt;代表不帶符號的6位立即數(shù)。
      &lt;PARAMS&gt;用來指定寄存器重新映射并具有下述格式&lt;RANK&gt;&lt;BASEINC&gt;n&lt;RENUMBER&gt;w&lt;BASEWRAP&gt;&lt;BANK&gt; 可以是[X|Y|Z]&lt;BASEINC&gt;可以是[++|+1|+2|+4]&lt;RENUMBER&gt; 可以是
      &lt;BASEWRAP&gt; 可以是[2|4|8]表達式&lt;cond&gt;為下述狀態(tài)碼中任何一種。注意編碼與ARM稍有不同,因為不帶符號的LS與HI碼已被更有用的帶符號的上溢/下溢測試所替代。Piccolo上的V與N標(biāo)志的設(shè)置與ARM的不同,因此從狀態(tài)測試到標(biāo)志檢驗的翻譯與ARM也不同。0000 EQ Z=0 上一次結(jié)果為0.0001 NE Z=1 上一次結(jié)果非0。0010 CS C=1 在移位/最大操作后使用。0011 CC C=00100 MI/LTN=1上一次結(jié)果為負(fù)0101 PL/GEN=0上一次結(jié)果為正0110 VS V=1 上一次結(jié)果帶符號溢出/飽和0111 VC V=0 上一次結(jié)果無溢出/飽和1000 VP V=1&amp;N=0上一次結(jié)果正溢出1001 VN V=1&amp;N=1上一次結(jié)果負(fù)溢出1010 保留1011 保留1100 GT N=0&amp;Z=01101 LE N=1|Z=11110 AL1111 保留由于Piccolo處理帶符號的量,棄掉不帶符號的LS與HI狀態(tài)而用描述任何溢出的方向的VP與VN來代替。由于ALU的結(jié)果為48位寬,MI與LT現(xiàn)在執(zhí)行相同功能,類似地PL與GE。這留下3個空槽供未來擴展。
      除非另有說明,所有運算都是帶符號的。
      一級與二級狀態(tài)碼各包含N-負(fù)。
      Z-零。
      C-進位/不帶符號溢出。
      V-帶符號溢出。
      算術(shù)指令可分成兩類并行與“全寬度”。“全寬度”指令只設(shè)置一級標(biāo)志,而并行運算符根據(jù)結(jié)果的高與低16位一半設(shè)置一級與二級標(biāo)志。
      在已施加定標(biāo)但寫到目的地之前,N、Z與V標(biāo)志是根據(jù)整個ALU結(jié)果計算的。ASR將總是減少存儲結(jié)果所需位數(shù),而ASL則增加位數(shù)。為了防止在施加ASL定標(biāo)時Piccolo截尾48位結(jié)果,將位數(shù)限制在必須進行零檢測與溢出上。
      N標(biāo)志是假設(shè)正在進行帶符號算術(shù)運算時計算的。這是因為在發(fā)生溢出時,結(jié)果的最高位是C標(biāo)志或N標(biāo)志之一,這取決于輸入操作數(shù)是帶符號還是不帶符號的。
      V標(biāo)志指示作為將結(jié)果寫到選擇的目的地的結(jié)果是否出現(xiàn)任何精度損失。如果選擇了不寫回,仍然蘊含‘大小’,并正確地設(shè)置溢出標(biāo)志。在下述情況中出現(xiàn)溢出-當(dāng)結(jié)果不在范圍-2^15至2^15-1中時寫入16位寄存器。
      -當(dāng)結(jié)果不在范圍-2^31至2^31-1中時寫入32位寄存器。
      并行加/減指令在結(jié)果的高與低一半上獨立地設(shè)置N、Z與V標(biāo)志。
      當(dāng)寫入累加器時和寫入32位寄存器一樣設(shè)置V標(biāo)志。這是允許飽和指令使用累加器作為32位寄存器。
      飽和絕對值指令(SABS)在輸入操作數(shù)的絕對值不符合指定的目的地時也設(shè)置溢出標(biāo)志。
      進位標(biāo)志由加與減指令設(shè)置并由MAX/MIN、SABS及CLB指令用作‘二進制’標(biāo)志。包含乘法運算在內(nèi)的所有其它指令保留進位標(biāo)志。
      對于加與減運算,根據(jù)目的地是32還是16位寬,進位便是由位31或位15或結(jié)果生成的。
      根據(jù)如何設(shè)置標(biāo)志,可將標(biāo)準(zhǔn)算術(shù)指令分成若干類型在加與減指令的情況中,如果N位是置位的則保持所有標(biāo)志。如果N位不置位則將標(biāo)志更新如下如果全48位結(jié)果為0便置位Z。
      如果全48位結(jié)果中位47置位(是負(fù)的)則置位N。
      如果下述條件之一成立則置位V目的地寄存器為16位而帶符號的結(jié)果放不進16位寄存器中(不在范圍-2^15<=x<2^15內(nèi))。
      目的地寄存器為32/48位寄存器而帶符號的結(jié)果放不進32位中。
      如果在求和&lt;src1&gt;與&lt;src2&gt;時從位31有進位或者從&lt;src1&gt;減去&lt;src2&gt;時位31不出現(xiàn)借位,則如果&lt;dest&gt;為32或48位寄存器時便置位C標(biāo)志(與ARM上的所期望的相同進位值)。如果&lt;dest&gt;為16位寄存器,別如果和的位31進位便置位C標(biāo)志。
      保留二級標(biāo)志(SZ、SN、SV、SC)。
      在從48位寄存器執(zhí)行乘法或累加指令的情況中。
      如果全48位結(jié)果為0便置位Z。
      如果全48位結(jié)果中位47置位(是負(fù)的),則置位N。
      如果(1)目的地寄存器為16位而帶符號的結(jié)果放不進16位寄存器(不在范圍-2^15<=x<2^15內(nèi))或(2)目的地寄存器為32/48位寄存器而帶符號的結(jié)果放不進32位中,便置位V。
      保留C。
      保留二級標(biāo)志(SZ、SN、SV、SC)。
      下面討論包含邏輯運算、并行加與減、最大與最小、移位等在內(nèi)的其它指令。
      加與減指令將兩個寄存器相加或相減,定標(biāo)該結(jié)果,然后存儲回到一個寄存器。將操作數(shù)作為帶符號的值對待。對于非飽和變型,標(biāo)志更新是供選用的,并可通過在指令尾部附加一個N來抑制標(biāo)志更新。
      31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0<
      OPC指定指令的類型操作(OPC)100N0dest=(src1+src2)(->>scale)(,N)110N0dest=(src1-src2)(->>scale)(,N)10001dest=SAT((src1+src2)(->>scale))11001dest=SAT((src1-src2)(->>scale))01110dest=(src2-src1)(->>scale)01111dest=SAT((src2-src1)(->>scale))101N0dest=(src1+src2+Carry)(->>scale)(,N)111N0dest=(src1-src2+Carry-1)(->>scale)(,N)助記符100N0ADD{N}&lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;{,&lt;scale&gt;}110N0SUB{N}&lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;{,&lt;scale&gt;}10001SADD &lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;{,&lt;scale&gt;}11001SSUB &lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;{,&lt;scale&gt;}01110RSB &lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;{,&lt;scale&gt;}01111SRSB &lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;{,&lt;scale&gt;}101N0ADC{N}&lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;{,&lt;scale&gt;}111N0SBC{N}&lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;{,&lt;scale&gt;}匯編程序支持下述操作碼CMP&lt;src1&gt;,&lt;src2&gt;,CMN&lt;src1&gt;,&lt;src2&gt;,CMP為減法,它設(shè)置標(biāo)志并禁止寄存器寫。CMN為加法,它設(shè)置標(biāo)志并禁止寄存器寫。
      標(biāo)志上面已討論過。
      包含的理由在移位/最大/最小操作之后將進位插入寄存器底部ADC是有用的。它也用來進行32/32位除法。它也提供擴充精度加法。N位加法給出更精密的標(biāo)志控制,特別是進位。這使得32/32位除法能在每位2個周期上進行。
      G.729等需要飽和的加與減。
      增量/減量計數(shù)器。RSB對于計算移位是有用的(x=32-x是常用運算)。對于飽和的求反(用在G.729中)需要飽和的RSB。
      加/減累計指令執(zhí)行帶累計與定標(biāo)/飽和的加法與減法。與乘累加指令不同,不能獨立于目的地寄存器指定累加器號。目的地寄存器的底部兩位給出要累計到其中的48位累加器號acc。因此ADDA X0,X1,X2,A0與ADDA A3,X1,X2,A3是有效的,而ADDA X1,X1,X2,A0則無效。對于這類指令,必須將結(jié)果寫回寄存器-不允許目的地字段的不寫回編碼。31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      OPC指定指令的類型。下面的acc為(DEST[10])。Sa位指示飽和。
      操作(OPC)0dest={SAT}(acc+(src1+src2)){->>scale}1dest={SAT}(acc+(src1-src2)){->>scale}助記符0{S}ADDA&lt;dest&gt;、&lt;src1&gt;,&lt;src2&gt;、&lt;acc&gt;{,&lt;scale&gt;}1{S}SUBA&lt;dest&gt;、&lt;src1&gt;、&lt;src2&gt;、&lt;acc&gt;{,&lt;scale&gt;
      命令前面的S表示飽和。
      標(biāo)志見上面。
      包含的理由ADDA(加累計)指令對于用累加器每一周期求和整數(shù)數(shù)組的兩個字是有用的(例如找出它們的平均值)。SUBA(減累計)指令在計算差之和(用于相關(guān))中是有用的;它將兩個獨立的值相減并將差加到第三寄存器中。
      帶四舍五入的加法可用與&lt;acc&gt;不同的&lt;dest&gt;進行。例如,X0=(X1+X2+16384)>>15可通過將16384保持在A0中而在一個周期中完成。帶四舍五入的常量的加法可用ADDA X0,X1,#16384,A0來完成。
      對于((a_i*b_j)>>k)之和(在TrueSpeech中相當(dāng)常用)的位精確實現(xiàn)標(biāo)準(zhǔn)Piccolo代碼為MUL t1,a_0,b_0,ASR#KADD ans,ans,t1MUL t2,a_1,b_1,ASR#kADD ans,ans,t2這一代碼有兩個問題它太長以及不是加到48位精度,因此不能用保護位。較好的解決方法為使用ADDAMUL t1,a_0,b_0,ASR#kMUL t2,a_1,b_1,ASR#kADDA ans,t1,t2,ans這提高25%速度并保持48位精度。
      并行加/減指令在成對保持在32位寄存器中的兩個帶符號的16位量上執(zhí)行加法與減法。一級狀態(tài)碼標(biāo)志從高16位的結(jié)果設(shè)置,而二級標(biāo)志則從低位一半更新。只能指定32位寄存器作為這些指令的源,雖然這些值是可以半字互換的。將各寄存器的各個一半作為帶符號的值對待。計算與定標(biāo)是不損失精度完成的。因此ADD ADD X0,X1,X2,ASR#1將在X0的高位與低位一半中產(chǎn)生正確的平均值。為必須置位Sa位的各指令提供了選用的飽和。31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0<
      >
      OPC定義操作。
      操作(OPC)000 dest.h=(src1.h+src2.h)->>{scale},dest.l=(src1.l+src2.l)->>{scale}001 dest.h=(src1.h+src2.h)->>{scale},dest.l=(src1.l-src2.l)->>{scale}100 dest.h=(src1.h-src2.h)->>{scale},dest.l=(src1.l+src2.l)->>{scale}101 dest.h=(src1.h-src2.h)->>{scale},dest.l=(src1.l-src2.l)->>{scale}如果置位了Sa位,各和/差是獨立飽和的。助記符000 {S}ADDADD&lt;dest&gt;,&lt;src1_32&gt;,&lt;src2_32&gt;{,&lt;scale&gt;}001 {S}ADDSUB&lt;dest&gt;,&lt;src1_32&gt;,&lt;src2_32&gt;{,&lt;scale&gt;}100 {S}SUBADD&lt;dest&gt;,&lt;src1_32&gt;,&lt;src2_32&gt;{,&lt;scale&gt;}101 {S}SUBSUB&lt;dest&gt;,&lt;src1_32&gt;,&lt;src2_32&gt;{,&lt;scale&gt;}命令前的S表示飽和。匯編程序還支持CMNCMN&lt;dest&gt;,&lt;src1_32&gt;,&lt;src2_32&gt;{,&lt;scale&gt;}CMNCMP&lt;dest&gt;,&lt;src1_32&gt;,&lt;src2_32&gt;{,&lt;scale&gt;}CMPCMN&lt;dest&gt;,&lt;src1_32&gt;,&lt;src2_32&gt;{,&lt;scale&gt;}CMPCMP&lt;dest&gt;,&lt;src1_32&gt;,&lt;src2_32&gt;{,&lt;scale&gt;}它們是不帶寫回的標(biāo)準(zhǔn)指令生成的。
      標(biāo)志C如果在相加兩個高16位一半時從位15進位,便置位。
      Z如果高16位一半之和為0,便置位。
      N如果高16位一半之和為負(fù),便置位。
      V如果高16位一半的帶符號的17位和不能裝入16位中(定標(biāo)后),便置位。
      類似地為低16位一半置位SZ、SN、SV與SC。
      包含的理由并行加與減指令對于在保持在單個32位寄存器中的復(fù)數(shù)上執(zhí)行運算是有用的。它們用在FFT(快速傅里葉變換)核心中。它對于16位數(shù)據(jù)的簡單矢量加法/減法也是有用的,允許在一個周期中處理兩個元素。
      轉(zhuǎn)移(條件)指令允許控制流中的條件改變。Piccolo占用三個周期來執(zhí)行所取的轉(zhuǎn)移。
      31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7-6 5 4 3 2 1 0
      操作如果根據(jù)一級標(biāo)志&lt;cond&gt;成立,用偏移量轉(zhuǎn)移。
      偏移量為帶符號的16位字?jǐn)?shù)。當(dāng)前偏移的范圍限制在-32768至+32767個字。
      執(zhí)行的地址計算是目標(biāo)地址=轉(zhuǎn)移指令地址+4+偏移量助記符B&lt;cond&gt;&lt;destination_label&gt;
      標(biāo)志不受影響。
      包含的理由在大多數(shù)例程中高度有用。
      條件加或減指令有條件地將src1加在src2上或從src1中減去src2。31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      >OPC指定指令的類型。
      操作(OPC)如果(進位置位)temp=src1-src2否則temp=src1+src2dest=temp{->>scale}如果(進位置位)temp=src1-src2否則temp=src1+src2dest=temp{->>scale}但是如果定標(biāo)是左移位則將(來自src1-src2或src1+src2的)進位的新值移位進底部中。
      助記符0 CAS &lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;,{,&lt;scale&gt;}1 CASC &lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;,{,&lt;scale&gt;}標(biāo)志見上面包含的理由條件加或減指令使高效除法代碼能構(gòu)成。
      例1將X0中的32位不帶符號值除以X1中的16位不帶符號值(假設(shè)X0<(X1<<1 6)及X1.h=0)。
      LSL X1,X1,#15; 上移除數(shù)SUB X1,X1,#0 ; 置位進位標(biāo)志REPEAT#16CASC X0,X0,X1,LSL#1NEXT在循環(huán)末尾,X0.l保持除法的商。取決于進位的值可從X0.h恢復(fù)余數(shù)。
      例2將X0中的32位正值除以X1中的32位正值,帶早結(jié)束。
      MOVX2,#0 ;清除商LOGZ0,X0 ;X0可移位的位數(shù)LOGZ1,X1 ;X1可移位的位數(shù)SUBS Z0,Z1,Z0 ;X1向上移位因此1匹配BLTdiv end;X1>X0因此答數(shù)為0LSLX1,X1,Z0 ;匹配前面的1ADDZ0,Z0,#1 ;進行的測試數(shù)SUBS Z0,Z0,#0 ;置位進位REPEAT Z0CASX0,X0,X1,LSL#1ADCN X2,X2,X2NEXTdiv_end在結(jié)束處,X2保持商而余數(shù)可從X0恢復(fù)。
      計數(shù)前導(dǎo)位指令使數(shù)據(jù)能正規(guī)化。31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0<
      >操作將dest設(shè)定為為了使位31與位30不同而src1中的值必須左移的位數(shù)。這是范圍0-30中的一個值,但除外src1為-1或0的特殊情況,這時返回31。
      助記符CLB &lt;dest&gt;,&lt;src1&gt;
      標(biāo)志Z 如果結(jié)果為0,便置位。
      N 是消除的。
      C 如果src1為-1或0之一,便置位。
      V 保持。
      包含的理由正規(guī)化需要的步驟。
      設(shè)置了停止與斷點指令用于停止Piccolo的執(zhí)行31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      OPC指定指令的類型。
      操作(OPC)0 Piccolo執(zhí)行被停止并在Piccolo狀態(tài)寄存器中置位停止位。
      1 Piccolo執(zhí)行停止,并在Piccolo狀態(tài)寄存器中置位中斷位,并中斷ARM報告已到達斷點。
      助記符0 HALT1 BREAK標(biāo)志不受影響。
      邏輯運算指令在32或16位寄存器上執(zhí)行邏輯運算。將操作數(shù)作為不帶符號值對待。
      31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      OPC編碼要執(zhí)行的邏輯運算操作(OPC)00 dest=(src1&amp;src2){->>scale}01 dest=(src1|src2){->>scale}10 dest=(src1&amp;-src2){->>scale}11 dest=(src1^src2){->>scale}助記符00AND &lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;{,&lt;scale&gt;}01ORR &lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;{,&lt;scale&gt;}10BIC &lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;{,&lt;scale&gt;}11EOR &lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;{,&lt;scale&gt;}匯編程序支持下述操作碼TST&lt;src1&gt;,&lt;src2&gt;
      TEQ&lt;src1&gt;,&lt;src2&gt;
      TST為禁止寄存器寫的“與”。TEQ為禁止寄存器寫的“EOR”。
      標(biāo)志Z如果結(jié)果為全0,便置位N、C、V 保持SZ、SN、SC、SV 保持包含的理由話音壓縮算法采用組合位字段來編碼信息。位屏蔽指令協(xié)助抽取/組合這些字段。
      Max與Min操作指令執(zhí)行最大與最小值運算。31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      OPC指定指令的類型。
      操作(OPC)0 dest=(src1<=src2)?src1src21 dest=(src1>src2)?src1src2助記符0MIN&lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;
      1MAX&lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;
      標(biāo)志Z如果結(jié)果為0,便置位。
      N如果結(jié)果為負(fù),便置位。
      C對于Max如果src2>=src1(dest=src1情況),置位C對于Min如果src2>=src1(dest=src2情況),置位CV保持包含的理由為了找出信號強度,許多算法掃描樣本來找出樣本的絕對值的最大/最小值。對此,MAX與MIN是無價之寶。取決于要找出信號中第一還是最后的最大值,操作數(shù)src1與src2可以互換。
      MAX X0,X0,#0將X0轉(zhuǎn)換成從下面修剪掉的正數(shù)。
      MIN X0,X0,#255從上面修剪掉。這對于圖形處理有用。
      并行指令中的Max與Min運算在并行的16位數(shù)據(jù)上執(zhí)行最大值與最小值運算。
      31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      OPC指定指令的類型。操作(OPC)0 dest.l=(src1.l<=src2.l)?src1.lsrc2.ldest.h=(src1.h<=src2.h)?src1.hsrc2.h1 dest.l=(src1.l>src2.l)?src1.lsrc2.ldest.h=(src1.h>src2.h)?src1.hsrc2.h助記符0MINMIN &lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;
      1MAXMAX &lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;
      標(biāo)志Z 如果結(jié)果的高16位為0,便置位。
      N 如果結(jié)果的高16位為負(fù),便置位。
      C 對于Max如果src2.h>=src1.h(dest=src1情況),置位C對于Min如果src2.h=src1.h(dest=src2情況),置位C。
      V保持。
      SZ、SN、SC、SV類似地為低16位一半置位。
      包含的理由關(guān)于32位Max及Min。
      傳送長立即數(shù)操作指令允許將寄存器設(shè)置成任何帶符號的16位、符號延伸的值。兩條這種指令能將32位寄存器設(shè)置成任何值(通過順序存取高位與低位一半)。對于寄存器之間的傳送見選擇操作。
      31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 432 1 0
      助記符MOV &lt;dest&gt;,#&lt;imm_16&gt;
      匯編程序利用MOV指令提供非互鎖的NOP(空操作)操作,即,NOP等效于MOV,#0。
      標(biāo)志標(biāo)志不受影響。
      包含的理由初始化寄存器/計數(shù)器。
      乘累加運算指令執(zhí)行帶符號乘法與累加或累減(de-accumulation),定標(biāo)與飽和。
      31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      字段OPC指定指令的類型。
      操作(OPC)00 dest=(acc+(src1*src2)){->>scale}01 dest=(acc-(src1*src2)){->>scale}在各情況中,如果置位了Sa位,在寫到目的地之前將結(jié)果飽和。
      助記符00{S}MULA&lt;dest&gt;,&lt;src1_16&gt;,&lt;src2_16&gt;,&lt;acc&gt;{,&lt;scale&gt;}01{S}MULS&lt;dest&gt;,&lt;src1_16&gt;,&lt;src2_16&gt;,&lt;acc&gt;{,&lt;scale&gt;}命令前的S指示飽和。
      標(biāo)志見上節(jié)。
      包含的理由對于FIR代碼需要單周期持續(xù)的MULA。MULS用在FFT蝶形電路中。對于帶四舍五入的乘法MULA也是有用的。例如通過將16384保持在另一累加器(例如A1)中可在一個周期中完成A0=(X0*X1+16384)>>15。對于FFT核心還需要不同的&lt;dest&gt;與&lt;acc&gt;。
      乘雙倍運算(Multiply Double Operation)指令執(zhí)行單符號乘法,在累加或累減、定標(biāo)與飽和之前將結(jié)果加倍。31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0<
      OPC指定指令的類型。
      操作(OPC)0 dest=SAT((acc+SAT(2*src1*src2)){->>scale})1 dest=SAT((acc-SAT(2*src1*src2)){->>scale})
      助記符0SMLDA&lt;dest&gt;,&lt;src1_16&gt;,&lt;src2_16&gt;,&lt;acc&gt;{,&lt;scale&gt;}1SMLDS&lt;dest&gt;,&lt;src1_16&gt;,&lt;src2_16&gt;,&lt;acc&gt;{,&lt;scale&gt;}標(biāo)志見上節(jié)。
      包含的理由G.729及使用小數(shù)算術(shù)運算的其它算法需要MLD指令。大多數(shù)DSP提供能在累加或?qū)懟刂霸诔朔ㄆ鞯妮敵錾献笠埔晃坏男?shù)模式。作為特定的指令支持它提供更大的編程靈活性。等價于某些G系列基本運算的名稱為L_msu=>SMLDSL_mac=>SMLDA在左移一位時它們利用乘法器的飽和。如果需要一序列的小數(shù)乘累加而不損失精度,可采用MULA,其和保持在33.14格式中。必要時,可在結(jié)束時利用左移及飽和轉(zhuǎn)換到1.15格式。
      乘法運算指令執(zhí)行帶符號乘法,及選用的定標(biāo)/飽和。將源寄存器(只是16位)作為帶符號數(shù)對待。31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      OPC指定指令的類型。
      操作(OPC)0 dest=(src1*src2){->>scale}1 dest=SAT((src1*src2){->>scale})助記符
      0MUL&lt;dest&gt;,&lt;src1_16&gt;,&lt;src2&gt;{,&lt;scale&gt;}1SMUL&lt;dest&gt;,&lt;src1_16&gt;,&lt;src2&gt;{,&lt;scale&gt;}標(biāo)志見上節(jié)。
      包含的理由許多處理需要帶符號與飽和的乘法。
      寄存器列表操作用來在一組寄存器上執(zhí)行操作。提供了空與零指令用于在例程之前或之間復(fù)位選擇的寄存器。提供了輸出指令將列出的寄存器的內(nèi)容存儲到輸出FIFO中。
      31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 4 3 2 1 0
      OPC指定指令的類型。
      操作(OPC)000 對于(k=0;k<16;k++)如果置位了寄存器列表的位k,則將寄存器k標(biāo)記為空。
      001 對于(k=0;k<16;k++)如果置位了寄存器列表的位k,則將寄存器k設(shè)置成包含0。
      010 未定義011 未定義100 對于(k=0;k<16;k++)如果置位了寄存器列表的位k,則將(寄存器k->>scale)寫到輸出FIFO中。
      101 對于(k=0;k<16;k++)如果置位了寄存器列表的位k,則將(寄存器k->>scale)寫入到輸出FIFO中并將寄存器k標(biāo)記為空。
      110 對于(k=0;k<16;k++)如果置位了寄存器列表的位k,則將SAT(寄存器k->>scale)寫到輸出FIFO中。
      111 對于(k=0;k<16;k++)如果置位了寄存器列表的位k,則將SAT(寄存器k->>scale)寫到輸出FIFO中并將寄存器k標(biāo)記為空。助記符000EMPTY &lt;register_list&gt;
      001ZERO &lt;register_list&gt;
      010Unused011Unused100OUTPUT&lt;register_list&gt;{,&lt;scale&gt;}101OUTPUT&lt;register_list&gt;^{,&lt;scale&gt;}110SOUTPUT &lt;register_list&gt;{,&lt;scale&gt;}111SOUTPUT &lt;register_list&gt;^{,&lt;scale&gt;}標(biāo)志不受影響示例EMPTY {A0,A1,X0-X3}ZERO {Y0-Y3}OUTPUT{X0-Y1}^匯編程序還支持語法OUTPUT Rn在這一情況中,利用MOV^,Rn指令輸出一個寄存器。EMPTY指令將停止直到所有要清空的寄存器包含有效數(shù)據(jù)
      (即不空)。
      寄存器列表操作不得在重新映射REPEAT(重復(fù))循環(huán)內(nèi)使用。
      輸出(OUTPUT)指令最多只能指定輸出8個寄存器。
      包含的理由例程結(jié)束后,下一個例程期望所有寄存器是空的以便它能從ARM接收數(shù)據(jù)。需要EMPTY指令來做到這一點。在執(zhí)行FIR或過濾器之前,需要將所有累加器及部分結(jié)果清零。ZERO(零)指令協(xié)助做到這一點。通過取代一系列單個寄存器傳送,兩者都設(shè)計成改善代碼密度。包含OUTPUT(輸出)指令通過取代一系列MOV^,Rn指令來改善代碼密度。
      提供了重新映射參數(shù)傳送指令RMOV來允許配置用戶定義的寄存器重新映射參數(shù)。
      該指令編碼如下
      各PARAMS字段包含以下的項6 5 4 3 21 0
      這些項的含義如下
      助記符RMOV&lt;PARAMS&gt;,[&lt;PARAMS&gt;]&lt;PARAMS&gt;字段具有以下格式&lt;PARAMS&gt;∷=&lt;BANK&gt;&lt;BASEINC&gt;n&lt;RENUMBER&gt;w&lt;BASEWRAP&gt;
      &lt;BANK&gt; ∷=[X|Y|Z]&lt;BASEINC&gt;∷=[-|+1|+2|+4]&lt;R ENUMBER&gt; ∷=
      &lt;BASEWRAP&gt; ∷=[2|4|8]如果使用RMOV指令同時重新映射是活動的,其行為是UNPREDICTABLE(不可預(yù)測)。
      標(biāo)志不受影響重復(fù)指令提供硬件中的4個零周期循環(huán)。重復(fù)指令定義新的硬件循環(huán)。Piccolo為第一條重復(fù)指令利用硬件循環(huán)0,為嵌套在第一重復(fù)指令內(nèi)的重復(fù)指令利用硬件循環(huán)1等等。重復(fù)指令不需要指定正在使用哪一個循環(huán)。重復(fù)循環(huán)必須嚴(yán)格嵌套。如果試圖嵌套循環(huán)到大于4的深度,則行為是不可預(yù)測的。
      各重復(fù)指令指定循環(huán)中的指令數(shù)(緊接在重復(fù)指令后面的)及通過循環(huán)的次數(shù)(它是常量或讀自Piccolo寄存器)。
      如果循環(huán)中的指令數(shù)較少(1或2)則Piccolo可用額外周期來建立循環(huán)。
      如果循環(huán)計數(shù)是寄存器指定的,則蘊含32位存取(S1=1),但只認(rèn)為底部16位是有效的并且數(shù)字是不帶符號的。如果循環(huán)計數(shù)為0,則循環(huán)的操作是未定義的。采取循環(huán)計數(shù)的復(fù)制,因此立即可以重用該寄存器(甚至再填充)而不影響循環(huán)。
      重復(fù)指令提供修改指定循環(huán)內(nèi)的寄存器操作數(shù)的方式的機制。細(xì)節(jié)上面已描述過。
      帶有寄存器指定的循環(huán)數(shù)的重復(fù)的編碼31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0<
      <p>帶固定的循環(huán)數(shù)的重復(fù)的編碼31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      >RFIELD操作數(shù)指定在循環(huán)內(nèi)使用16種重新映射參數(shù)配置的哪一種。<
      >匯編程序提供兩個操作碼REPEAT與NEXT來定義硬件循環(huán),REPEAT在循環(huán)開始時而NEXT界定循環(huán)的結(jié)束,允許匯編程序計算循環(huán)體內(nèi)的指令數(shù)。至于REPEAT,它只須作為常量或寄存器指定循環(huán)次數(shù)。例如REPEATX0MULA A0,Y0.l,Z0.l,A0MULA A0,Y0.h^,Z0.h^,A0NEXT這將執(zhí)行兩條MULA指令X0次。同時,REPEAT#10MULA A0,X0^,Y0^,A0NEXT將執(zhí)行10次乘累加。匯編程序支持語法
      REPEAT#iterations[,&lt;PARAMS&gt;]以指定重復(fù)所用的重新映射參數(shù)。如果所需的重新映射參數(shù)等于預(yù)定義的參數(shù)組之一,則使用適當(dāng)?shù)腞EPEAT編碼。如果不是,則匯編程序?qū)⑸蒖MOV來加載用戶定義的參數(shù),后面跟隨REPEAT指令。見上面的節(jié)中的RMOV指令及重新映射參數(shù)格式的細(xì)節(jié)。
      如果循環(huán)的重復(fù)次數(shù)為0則REPEAT的操作是不可預(yù)測的。
      如果將指令字段的數(shù)字設(shè)置為0則REPEAT的操作是不可預(yù)測的。
      循環(huán)只包含一條指令而該指令為轉(zhuǎn)移時,則具有不可預(yù)測的表現(xiàn)。
      從REPEAT循環(huán)界內(nèi)轉(zhuǎn)移到該循環(huán)的界外是不可預(yù)測的。
      飽和絕對值指令計算源1的飽和的絕對值。
      31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      操作dest=SAT((src1>=0)?src1-src1)。該值總是飽和的。具體地,0x80000000的絕對值為0x7fffffff而不是0x80000000 !助記符SABS&lt;dest&gt;,&lt;src1&gt;
      標(biāo)志Z 如果結(jié)果為0,便置位。
      N 保持。
      C 如果src1<0(dest=-src1情況),便置位。
      V 如果出現(xiàn)飽和,便置位。
      包含的理由在許多DSP應(yīng)用中有用。
      選擇操作(條件傳送)用來有條件地將源1或源2傳送到目的地寄存器中。選擇總是等效于傳送。還有在并行加/減以后使用的并行操作。
      注意為了實現(xiàn)的原因,可讀取兩個源操作數(shù),如果其中之一為空,指令將停止,不管該操作數(shù)是否是嚴(yán)格需要的。
      31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      OPC指定指令的類型。操作(OPC)00 如果&lt;cond&gt;對一級標(biāo)志成立則dest=src1否則dest=src201 如果&lt;cond&gt;對一級標(biāo)志成立 則 dest.h=src1.h否則dest.h=src2.h如果&lt;cond&gt;對二極標(biāo)志成立則dest.l=src1.l否則dest.l=src2.l10 如果&lt;cond&gt;對一級標(biāo)志成立則dest.h=src1.h否則dest.h=src2.h如果&lt;cond&gt;對二級標(biāo)志成立 則 dest.l=src1.l否則dest.l=src2.l11 保留助記符00 SEL&lt;cond&gt; &lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;
      01 SELTT&lt;cond&gt;&lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;
      10 SELTF&lt;cond&gt;&lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;
      11不用如果將寄存器標(biāo)記為再填充,無條件將其再填充。匯編程序還提供下列助記符
      MOV&lt;cond&gt; &lt;dest&gt;,&lt;src1&gt;
      SELFT&lt;cond&gt;&lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;
      SELFF&lt;cond&gt;&lt;dest&gt;,&lt;src1&gt;,&lt;src2&gt;
      MOV&lt;cond&gt;A,B等效于SEL&lt;cond&gt;A,B,A。通過互換src1與src2及使用SELTF、SELTT得到SELFT及SELFF。
      標(biāo)志保持所有標(biāo)志以便可以執(zhí)行一序列選擇。
      包含的理由用于在線作出簡單決定而無須依靠轉(zhuǎn)移。用于Viterbi算法及在樣本或矢量中掃描最大元素時。
      移位操作指令提供邏輯左與右移,算術(shù)右移及循環(huán)指定的量。認(rèn)為移位量是取自寄存器內(nèi)容的低8位的-128與+127之間的帶符號整數(shù)或者在范圍+1至+31中的立即數(shù)。負(fù)數(shù)量的移位導(dǎo)致反方向上移位ABS(移位量)。
      將輸入操作數(shù)符號擴展到32位;在寫回前將得出的32位輸出符號擴展到48位從而寫到48位寄存器表現(xiàn)合理。
      31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      OPC指定指令的類型。操作(OPC)00dest=(src2>=0)?src1<<src2src1>>-src201dest=(src2>=0)?src1>>src2src1<<-src210dest=(src2>=0)?src1->>src2src1<<-src211dest=(src2>=0)?src1 ROR src2src1 ROL -src2
      助記符00 ASL&lt;dest&gt;,&lt;src1&gt;,&lt;src2_16&gt;
      01 LSR&lt;dest&gt;,&lt;src1&gt;,&lt;src2_16&gt;
      10 ASR&lt;dest&gt;,&lt;src1&gt;,&lt;src2_16&gt;
      11 ROR&lt;dest&gt;,&lt;src1&gt;,&lt;src2_16&gt;
      標(biāo)志Z 如果結(jié)果為0,便置位。
      N 如果結(jié)果為負(fù),便置位。
      V 保持C 設(shè)置成移位出來的最后一位的值(和在ARM上一樣)寄存器指定的移位的行為為-LSL移位32得出結(jié)果0,C設(shè)置為src1的位0。
      -LSL移位32以上得出結(jié)果0,C設(shè)置為0。
      -LSR移位32得出結(jié)果0,C設(shè)置為src1的位31。
      -LSR移位32以上得出結(jié)果0,C設(shè)置為0。
      -ASR移位32或以上得出用src1的位31填充及C設(shè)置為src1的位31。
      -ROR移位32具有結(jié)果等于src1并將C設(shè)置成src1的位31。
      -ROR移位n位,其中n大于32,給出執(zhí)行ROR移位n-32位相同的結(jié)果;因此從n中重復(fù)減去32直到該量在1至32范圍中為止,見上。
      包含的理由用2的冪乘/除。位與字段抽取。串行寄存器。
      將未定義的指令在指令集清單中陳述如上。它們的執(zhí)行將導(dǎo)致Piccolo停止執(zhí)行,并置位狀態(tài)寄存器中的U位,及禁止它本身(似乎清除了控制寄存器中的E位)。這允許截獲指令集的任何未來擴充并在現(xiàn)有實現(xiàn)上有選擇地仿真。
      從ARM訪問Piccolo狀態(tài)如下。狀態(tài)訪問模式用來觀察/修改Piccolo的狀態(tài)。為兩種目的設(shè)置這一機制-上下文切換。
      -調(diào)試。
      通過執(zhí)行PSTATE指令將Piccolo置于狀態(tài)訪問模式中。這一模式允許用一序列STC與LDC指令保存及恢復(fù)所有Piccolo狀態(tài)。當(dāng)進入狀態(tài)訪問模式時,將Piccolo協(xié)處理器ID PICCOLO1的使用修改成允許訪問Piccolo的狀態(tài)。有7組Piccolo狀態(tài)??梢杂脝我坏腖DC或STC加載與存儲特定組中的所有數(shù)據(jù)。
      組0專用寄存器。
      -一個32位字,包含Piccolo ID寄存器的值(只讀)。
      -一個32位字,包含控制寄存器的狀態(tài)。
      -一個32位字,包含狀態(tài)寄存器的狀態(tài)。
      -一個32位字,包含程序計數(shù)器的狀態(tài)。
      組1通用寄存器(GPR)-16個32位字,包含通用寄存器狀態(tài)。
      組2累加器-4個32位字,包含累加器寄存器的高32位(注意,為了恢復(fù)的目的,以GPR狀態(tài)進行復(fù)制是必要的-否則會蘊含該寄存器組上的另一次寫使能)。
      組3寄存器/Piccolo ROB/輸出FIFO狀態(tài)。
      -一個32位字,指示哪些寄存器標(biāo)記為再填充(每一個32位寄存器2位)。
      -8個32位字,包含ROB標(biāo)簽的狀態(tài)(存儲在位7至0中的8個7位項)。
      -3個32位字,包含不對齊的ROB鎖存器的狀態(tài)(位17至0)。
      -一個32位字,指示輸出移位寄存器中哪些槽包含有效數(shù)據(jù)(位4表示空,位3至0編碼所用項的號碼)。
      -一個32位字,包含輸出FIFO保持鎖存器的狀態(tài)(位17至0)。
      組4ROB輸入數(shù)據(jù)。
      -8個32位數(shù)據(jù)值。
      組5輸出FIFO數(shù)據(jù)。
      -8個32位數(shù)據(jù)值。
      組6循環(huán)硬件。
      -4個32位字,包含循環(huán)起始地址。
      -4個32位字,包含循環(huán)結(jié)束地址。
      -4個32位字,包含循環(huán)計數(shù)(位15至0)。
      -一個32位字,包含用戶定義的重新映射參數(shù)及其它重新映射狀態(tài)。
      LDC指令用于在Piccolo在狀態(tài)訪問模式中時加載Piccolo狀態(tài)。BANK字段指示正在加載哪一個組。31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      以下序列加載來自寄存器R0中的地址的所有Piccolo狀態(tài)。
      LDP B0,[R0],#16 ??;專用寄存器LDP B1,[R0],#64 ??;加載通用寄存器LDP B2,[R0],#16 !;加載累加器LDP B3,[R0],#56 ??;加載寄存器/ROB/FIFO狀態(tài)LDP B4,[R0],#32 ??;加載ROB數(shù)據(jù)LDP B5,[R0],#32 ??;加載輸出FIFO數(shù)據(jù)LDP B6,[R0],#52 ??;加載循環(huán)硬件STC指令用于在Piccolo在狀態(tài)訪問模式中時存儲Piccolo狀態(tài)。BANK字段指定正在存儲哪一個組。31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
      以下序列將所有Piccolo狀態(tài)存儲到寄存器R0中的地址。
      STP B0,[R0],#16 ?。槐4鎸S眉拇嫫鱏TP B1,[R0],#64 ?。槐4嫱ㄓ眉拇嫫鱏TP B2,[R0],#16 ??;保存累加器STP B3,[R0],#56 ??;保存寄存器/ROB/FIFO狀態(tài)STP B4,[R0],#32 ?。槐4鍾OB數(shù)據(jù)STP B5,[R0],#32 ?。槐4孑敵鯢IFO數(shù)據(jù)
      STP B6,[R0],#52 !;保存循環(huán)硬件調(diào)試模式-Piccolo需要響應(yīng)與ARM所支持的相同的調(diào)試機制,即軟件通過Demon與Angel,以及帶有嵌入的ICE的硬件,下面是調(diào)試Piccolo系統(tǒng)的若干機制-ARM指令斷點。
      -數(shù)據(jù)斷點(觀察點)。
      -Piccolo指令斷點。
      -Piccolo軟件斷點。
      ARM指令與數(shù)據(jù)斷點是由ARM嵌入的ICE模塊處理的;Piccolo指令斷點是由Piccolo嵌入的ICE模塊處理的;Piccolo軟件斷點是由Piccolo核處理的。
      硬件斷點系統(tǒng)可配置成使ARM與Piccolo兩者都有斷點。
      軟件斷點由Piccolo指令(停機或中斷)處理,導(dǎo)致Piccolo停止執(zhí)行,進入調(diào)試模式(置位狀態(tài)寄存器中的B位)及禁止本身(似乎已用PDISABLE指令禁止Piccolo)。程序計數(shù)器保持有效,允許恢復(fù)斷點地址。Piccolo不再執(zhí)行指令。
      單步進Piccolo可通過在Piccolo指令流上設(shè)定一個斷點接一個斷點來完成。
      軟件調(diào)試-Piccolo提供的基本功能便是在狀態(tài)訪問模式中通過協(xié)處理器指令加載與保存所有狀態(tài)到存儲器中的能力。這允許調(diào)試程序?qū)⑺袪顟B(tài)保存在存儲器中,讀取與/或更新它及恢復(fù)到Piccolo中。Piccolo存儲狀態(tài)機制是非破壞性的,即Piccolo的存儲狀態(tài)操作不會破壞任何Piccolo內(nèi)部狀態(tài)。這意味著Piccolo在轉(zhuǎn)儲其狀態(tài)之后不首先再一次恢復(fù)它便能重新起動。
      要確定找出Piccolo高速緩沖存儲器的狀態(tài)的機制。
      硬件調(diào)試-硬件調(diào)試由Piccolo的協(xié)處理器接口上的掃描鏈提供。然后可將Piccolo置于狀態(tài)訪問模式中并通過該掃描鏈檢驗/修改其狀態(tài)。
      Piccolo狀態(tài)寄存器包含單一的位來指示它已執(zhí)行了斷點指令。在執(zhí)行斷點指令時,Piccolo置位狀態(tài)寄存器中的B位,并停止執(zhí)行。為了能查詢Piccolo,調(diào)試程序必須啟動Piccolo并通過在能出現(xiàn)隨后的存取之前寫入其控制寄存器而將其置于狀態(tài)訪問模式中。
      圖4示出響應(yīng)高/低位及大小位將選擇的寄存器的適當(dāng)?shù)囊话肭袚Q到Piccolo數(shù)據(jù)路徑上的多路復(fù)用器配置。如果大小位指示16位,則符號擴展電路用適當(dāng)?shù)?或1填充數(shù)據(jù)路徑的高位。第二節(jié)圖8示出圖1的系統(tǒng)的一個修改和擴展的版本。該中央處理單元核2包括一個指令譯碼器80,一個指令流水線82,一個寄存器組84和一個存儲器控制器86。在操作中,由存儲器控制器86從存儲器8中檢索CPU指令,并且提供給指令流水線82。指令沿著指令流水線82前進,直到它們到達接近該指令譯碼器80的那一級。在該級,完成該指令的譯碼用于執(zhí)行。該指令譯碼器80使用邏輯電路響應(yīng)在該指令中的位字段,以提供控制信號,用于配置和驅(qū)動該中央處理單元核2的其他部分以執(zhí)行該所需要的數(shù)據(jù)處理操作。在實際上,該中央處理單元核2包括許多功能塊,諸如一個算術(shù)邏輯單元,一個乘法器,一個高速緩存和一個存儲器管理單元。
      在當(dāng)前的情況下,在該指令譯碼器80解碼一條協(xié)處理器存儲器訪問指令時,就在該寄存器組84中指定一個寄存器,該寄存器保存一個地址值,該地址值用作該存儲器8中的一個存儲單元的地址指針。通過該存儲器控制器將該地址值驅(qū)動到至存儲器8的地址總線上,以啟動突發(fā)模式的傳送。被傳送的數(shù)據(jù)不用于中央處理單元核2,而是用于協(xié)處理器4。相應(yīng)地,除了產(chǎn)生存儲器8的適當(dāng)?shù)牡刂?,該中央處理單元?不響應(yīng)在該存儲器8和協(xié)處理器4之間的數(shù)據(jù)總線上確立的數(shù)據(jù)字。該指令譯碼器80也產(chǎn)生協(xié)處理器控制信號(CP Control),該信號被傳遞到協(xié)處理器4。這些協(xié)處理器控制信號向協(xié)處理器4指示一個協(xié)處理器存儲器訪問指令正在被執(zhí)行,并且相應(yīng)地該協(xié)處理器4應(yīng)當(dāng)采取適當(dāng)?shù)膭幼鲗?shù)據(jù)驅(qū)動到數(shù)據(jù)總線上,或者從該數(shù)據(jù)總線上讀取數(shù)據(jù)。傳遞到該協(xié)處理器4的協(xié)處理器控制信號包括正在執(zhí)行的協(xié)處理器存儲器訪問指令中的尋址方式信息的至少一部分。更具體地說,至少將P標(biāo)記,U標(biāo)記和偏移值M傳遞到該協(xié)處理器4。
      該協(xié)處理器4通過對這些位執(zhí)行一個異或(EOR)操作譯碼P標(biāo)記和U標(biāo)記。根據(jù)這一異或操作的執(zhí)行結(jié)果,協(xié)處理器確定在當(dāng)前突發(fā)模式中要傳送的數(shù)據(jù)字的數(shù)量是否由傳遞到它并且存儲在該寄存器88中的偏移值M確定,或者是一個數(shù)據(jù)字的缺省值。該協(xié)處理器傳送控制器90響應(yīng)該寄存器88的輸出和該異或操作的結(jié)果,以對在該數(shù)據(jù)總線上接收到的數(shù)據(jù)字進行計數(shù),并且在接收到指定數(shù)量的數(shù)據(jù)字時,確立一個突發(fā)傳送結(jié)束信號(be),該信號返回給該存儲器8和該中央處理單元核2以終結(jié)由所執(zhí)行的該協(xié)處理器存儲器訪問指令啟動的傳送。該協(xié)處理器4從該數(shù)據(jù)總線接收到的任何數(shù)據(jù)字被加載進該重定序緩沖區(qū)12,然后由該協(xié)處理器核92進行處理。作為一種替換,該協(xié)處理器4可將該突發(fā)長度直接提供給該存儲器8(對于一些存儲器,例如同步DRAM,這是有用的)。
      圖9示意了上述的一個協(xié)處理器存儲器訪問指令的操作。
      該過程從步驟94開始,然后前進到步驟96,在該步驟中央處理單元讀取嵌在該協(xié)處理器存儲器訪問指令中的尋址方式信息,而同時該協(xié)處理器讀取這一同樣的尋址方式的至少一部分,以從中確定在該次傳送中的數(shù)據(jù)字的數(shù)量。
      在步驟98,該CPU產(chǎn)生尋址開始地址,該地址被提供給存儲器8。在步驟100,進行該存儲器8和該協(xié)處理器4之間的直接的數(shù)據(jù)字的傳送。在每次傳送一個數(shù)據(jù)字時,該協(xié)處理器4在步驟102確定由該協(xié)處理器存儲器訪問指令指定的所有數(shù)據(jù)字是否已經(jīng)被傳送。
      如果該傳送沒有完成,則該操作繼續(xù),在步驟104該中央處理單元核2執(zhí)行任何對該地址的任何必要的更新,并且該流程返回到步驟100。
      如果該次數(shù)據(jù)傳送結(jié)束,則該系統(tǒng)前進到步驟106,在該步驟,協(xié)處理器通過確立該突發(fā)結(jié)束信號(be)終止該次傳送,該信號被傳遞到存儲器8和中央處理單元核2。在步驟108,中央處理單元核2通過該協(xié)處理器存儲器訪問指令指定的方式更新地址指針(這也可以在該過程中的另一點進行)。該過程在步驟110結(jié)束。
      為了改進性能,該傳送可以以一種更加并行的方式進行,例如該協(xié)處理器甚至在傳送第一個字開始之前將向該中央處理單元指示是否要傳送第二個數(shù)據(jù)字。
      下面根據(jù)本發(fā)明的一個實施例詳細(xì)描述各種協(xié)處理器存儲器訪問指令操作的細(xì)節(jié)。從控制傳送的數(shù)據(jù)字的數(shù)量的角度來看,根據(jù)P標(biāo)記和U標(biāo)記的譯碼這些指令的所有操作可以總結(jié)成下面的地址傳送模式中的一種。
      傳送開始 在地址寄存器中 所傳送的數(shù)據(jù)字地址值 的最后值的數(shù)量(i) Rn Rn-(WL*M) 1(ii) Rn Rn M(iii)Rn Rn+(WL*M) M(iv) Rn-(WL*M) Rn M(v) Rn-(WL*M) Rn-(WL*M) M(vi) Rn+(WL*M) Rn 1(vii)Rn+(WL*M) Rn+(WL*M) 1另外的一個可能性是在該基寄存器是ARM程序計數(shù)器寄存器(PC或R15)時使傳送數(shù)據(jù)字的數(shù)量為1。這將修改對于P EOR(U或(基寄存器是PC))確定傳送一個數(shù)據(jù)字的邏輯。將存儲器的數(shù)據(jù)加載進該重定序緩沖區(qū)格式總結(jié)提供了用于以存儲器的數(shù)據(jù)填充該重定序緩沖區(qū)的兩個主要的指令格式-LDP-LPM這兩種指令格式都被編碼為ARM LDC指令。該LDP指令類總是從存儲器傳送一個32位的數(shù)據(jù)字。該LPM指令類可用于傳送多個數(shù)據(jù)字。在該指令位模式的層次上,用所使用的尋址方式位區(qū)別LDP和LPM;對于LDP和LPM匯編程序語法使用不同的助記符,幫助人們編寫或者閱讀關(guān)于指向一個或多個字傳送的代碼。下列的格式可用于該兩類指令LDP{cond}[32|16]dest,addressLDP{cond}16Ubank,addressLPM{cond}[A|D][32|16]Rn{!},[&lt;Rlist&gt;]{,#&lt;wordcount&gt;}LPM{cond}[A|D]16 Rn{!},&lt;bank0.l&gt;,#&lt;wordcount&gt;其中{} 指示一個選項字段。cond 該ARM指令條件代碼字段。32|16指示該被加載的數(shù)據(jù)是否作為16位的數(shù)據(jù),以及所采取的結(jié)尾特定的動作(見較早的有關(guān)STP 16和STP 32的描述),或者作為32位的數(shù)據(jù)。dest 指定Piccolo目的寄存器(A0-Z3)address可以是[Rn][Rn,#+ve_offset]{!}[Rn],#-ve_offsetRn是計算有效的ARM寄存器號的表達式。!指示該所計算的地址應(yīng)被回寫到基寄存器。#+ve_offset是一個計算一個偏移值的表達式,該表達式可以表示為+&lt;8_bit_offset&gt;*4。這一偏移加值到該基寄存器上以形成該加載地址,即該地址被預(yù)變址。#-ve_offset是一個計算一個偏移值的表達式,該表達式可以表示為-&lt;8_bit_offset&gt;*4。該加載地址是基寄存器Rn的值,從Rn中減去該偏移值,并且將該結(jié)果回寫到Rnbank 指示該3個非累加器Piccolo組之一(X|Y|Z)。A|D指示先增(遞增)或者后減(遞減)尋址方式。&lt;Rlist&gt;Piccolo寄存器號的一個遞增表,用′{}′括起,例如{X0,X1}。 對于Piccolo的第一個版本,最多可指定8個寄存器。該表可以通過該寄存器組的頂部而回繞。例如{Y2,Y3,A0,A1}是一個有效的寄存器表。bank0.l 指示4個16位Piccolo寄存器(A0.l|X0.1|Y0.l|Z0.l)中的一個。Wordcount用于在一個所選定的寄存器范圍內(nèi)進行回繞加載,其指示傳送的數(shù)據(jù)項的總數(shù)量。對于Piccolo的第一個版本,在一個LPM指令中可以傳送不超過8個數(shù)據(jù)項。
      在使用該&lt;list&gt;格式時,用&lt;list&gt;指定的寄存器表必須以(A0,X0,Y0,Z0)中的一個開始,并且該寄存器表可以指示1,2或者4個寄存器,即{X0}{x0,x1}{X0,X1,X2,X3}是X寄存器組的有效的&lt;list&gt;組合,&lt;wordcount&gt;必須大于(Rlist)的長度。LPM的指令的這一格式將傳送總共&lt;wordcount&gt;個數(shù)據(jù)項,在到達&lt;Rlist&gt;的結(jié)尾時,對于在&lt;Rlist&gt;中的每個寄存器依次標(biāo)記它們以回繞到該&lt;Rlist&gt;的開始。在使用&lt;bank0.l&gt;格式時,對于Piccolo的第一個版本,&lt;wordcount&gt;可以在范圍(1-8)。LPM指令的這一格式將加載2*&lt;wordcount&gt;個16位的數(shù)據(jù)項,標(biāo)記寄存器&lt;bank0.l&gt;的所有數(shù)據(jù)。例子LDPNE32 A1,[R0] ;如果Z標(biāo)記=0,以mem(R0)加載A1,;將數(shù)據(jù)作為32位對待。LDP16 X0,[R0,#16]! ;以mem(R0+16(字節(jié))))加載X0,;回寫R0+16到 R0。將數(shù)據(jù);作為壓縮的16位對待。LDP32 Y2,[R0],#-4 ;以mem(R0)加載Y2,;回寫(R0-#4)至R0。LDP16U X,[R0,#4];以mem(R0+#4(字節(jié)))填充X組非對齊鎖存器。LPMEQA32 R0 !,{X2,X3,Y0,Y1} ;如果Z標(biāo)記=1,則在;存儲器中從[R0]以上升;的順序加載4個字,將它;們標(biāo)記為寄存器X2,X3,;Y0,Y1?;貙懙絉0。LPMA16 Ri!,{X0,X1},#8 ;在存儲器從[R1]以上升的順序;加載8個字的壓縮的16位數(shù)據(jù),;將它們標(biāo)記為寄存器X0,X1,;X0,X1,X0,X1,X0,X1指令編碼LDP指令LDP指令從存儲器傳送一個32位的字。這些指令中的一些執(zhí)行回寫,但是,根據(jù)匯編程序的語法,不用“!”進行標(biāo)記,因為后變址總是隱含著回寫。有兩種變化LDP{cond}[32|16] dest,[Rn],#-ve_offsetLDP{cond}[32|16] dest,[Rn,#+ve_offset]{!}該尋址方式由P,U和W位確定。在該指令中這些位分別是位24,23,和21。
      使用組合P=0,U=0和W=1來編碼下列格式的指令LDP{cond}[32|16]dest,[Rn],#-ve_offset從地址[Rn]只傳送一個字。在傳送開始以后,將該基寄存器減少8_bit_offset*4。該N位指示LDP32(1)或者LDP16(0)。&lt;8_bit_offset&gt;編碼mod(#-ve_offset)/4。對于向后經(jīng)過數(shù)據(jù)結(jié)構(gòu)每次提取一個特定的字,這一特殊的指令是有用的。類似的所希望的功能由其他的指令相配。3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-----+---+-+---+-------+-------+-------+---------------+| cond |1 1 0|0 0|N|1 1| Rn | dest | pic_1 | 8_bit_offset |+-------+-----+---+-+---+-------+-------+-------+---------------+組合P=1,U=1用于編碼下列形式的指令LDP{cond}[32|16)dest,[Rn,#+ve_offset]{!}從地址[Rn+#+ve_offset]只傳送一個字。如果該W位被設(shè)置,該基寄存器就遞增8_bit_offset*4,即具有由所存在的可選項“!”指示的回寫的形式。如果W=0,則不發(fā)生回寫,“!”不存在。該N位指示LDP32(1)或者LDP16(0)。&lt;8_bit_offset&gt;編碼#+ve_offset/4。Pic_1(和后面引用的Pic_2)是標(biāo)識該協(xié)處理器是一個Piccolo協(xié)處理器的標(biāo)識數(shù)字。Piccolo具有兩個標(biāo)識數(shù)字,它們根據(jù)所考慮的指令被使用。3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-----+---+-+-+-+-------+-------+-------+---------------+| cond |1 1 0|1 1|N|W|1| Rn|dest | pic_1 | 8_bit_offset |+-------+-----+---+-+-+-+-------+-------+-------+---------------+LDP16ULDP16U指令用來填充3個非對齊保持鎖存器中的一個。它具有下列變化LDP{cond}U16 bank,[Rn],#-ve_offsetLDP{cond}U16 bank,[Rn,#+ve_offset]{!}該尋址方式由P和U位確定。組合P=0,U=0 and W=1用來編碼下列形式的指令LDP{cond}U16 dest,[Rn],#-ve_offset從地址[Rn]只傳送一個字。在該傳送之后,用#-ve_offset修改該基寄存器。3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-----+---+-+-+-+-------+---+---+-------+---------------+| cond |1 1 0|0 0|0|1|1| Rn |bnk|0 0| pic_2 | 8_bit_offset |+-------+-----+---+-+-+-+-------+---+---+-------+---------------+&lt;bnk&gt;指示要開啟非對齊方式的組。對于組X,Y或Z,它可取1-3。組合P=1和U=1用來編碼下列形式的指令LDP{cond}U16dest, [Rn, #+ve_offset]{!}從地址[Rn+#+ve_offset]只傳送一個字。如果設(shè)置了W位,用#+ve_offset修改該基寄存器。如果W=0,則沒有回寫。3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-----+---+-+-+-+-------+---+---+-------+---------------+| cond |1 1 0|1 1|0|W|1| Rn |bnk|0 0| pic_2 | 8_bit_offset |+-------+-----+---+-+-+-+-------+---+---+-------+---------------+&lt;bnk&gt;指示要開啟非對齊方式的組。對于組X,Y或Z,它可取值1-3。LPM指令LPM指令從存儲器傳送多個字。該指令具有下列變形LPM{cond}[A|D][32|16]Rn{!}, [&lt;RList&gt;]LPM{cond}[A|D][32|16]Rn{!}, [&lt;Rlist&gt;], #&lt;wordcount&gt;LPM{cond}[A|D]16 Rn{!}, &lt;bank0.l&gt;, #&lt;wordcount&gt;對于LPMA變形P=0,U=1,該指令被編碼為3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-----+---+-+-+-+-------+-------+-------+---------------+| cond |1 1 0|0 1|N|W|1| Rn |basereg| pic_1 | 8_bit_offset |+-------+-----+---+-+-+-+-------+-------+-------+---------------+其中該N位指定LPMA32(1)或者LPMA16(0)。
      如果W=1,該W位指示basereg=offset*4向該基寄存器的回寫。&lt;basereg&gt;指示在&lt;Rlist&gt;中的第一個Piccolo。&lt;8_bit_offset&gt;指示傳送的寄存器的數(shù)量。對于LPMD變形P=1,U=0,該指令編碼為3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-----+---+-+-+-+-------+-------+-------+---------------+| cond |1 1 0|1 0|N|W|1| Rn |basereg| pic_1 | 8_bit_offset |+-------+-----+---+-+-+-+-------+-------+-------+---------------+LPM{cond}[A|D][32|16] Rn{!}, &lt;Rlist&gt;, #&lt;wordcount&gt;
      對于LPMA變形P=0,U=1,該指令(在這一實例中以及以后,使用該pic_2,bnk,和wrp格式)編碼為3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-----+---+-+-+-+-------+---+---+-------+---------------+|cond |1 1 0|0 1|N|W|1| Rn |bnk|wrp| pic_2 | 8_bit_offset |+-------+-----+---+-+-+-+-------+---+---+-------+---------------+其中該N位指示LPMD32(1)或LPMD16(0)。
      如果W=1,該W位指示basereg+offset*4向該基寄存器的回寫。
      &lt;bnk&gt;指示&lt;Rlist&gt;中的第一個寄存器,該寄存器必須位于一個組的一個基寄存器(即A0,X0,Y0或Z0)。其取值0-3以分別指示組A-Z。&lt;wrp&gt;指示回繞點,其可以取1-3,以分別表示一個2,4或8個16位寄存器的回繞值。&lt;8_bit_offset&gt;指示傳送的數(shù)據(jù)項的數(shù)量。其可以取值&lt;wordcount&gt;/4。對于LPMD變形P=1,U=0,該指令編碼為3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-----+---+-+-+-+-------+---+---+-------+---------------+| cond |1 1 0|1 0|N|W|1| Rn |bnk|wrp| pic_2 | 8_bit_offset |+-------+-----+---+-+-+-+-------+---+---+-------+---------------+LPM{cond}{A| D}16 Rn{!},&lt;bank0.l&gt;,#&lt;wordcount&gt;對于LPMA變形P=0,U=1,該編碼為3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-----+---+-+-+-+-------+---+---+-------+---------------+| cond |1 1 0|0 1|0|W|1| Rn |bnk|0 1| pic_2 | 8_bit offset |+-------+-----+---+-+-+-+-------+---+---+-------+---------------+其中W位指示向基寄存器(1)的回寫。&lt;bnk&gt;指示傳送到的Piccolo組。其取值0-3以分別表示A,X,Y或Z組。&lt;8_bit_offset&gt;指示傳送的數(shù)據(jù)項的數(shù)量。其取值&lt;wordcount&gt;/4。對于LPMD變形P=0,U=1,該編碼為3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-----+---+-+-+-+-------+---+---+-------+---------------+| cond |1 1 0|0 1|0|W|1| Rn |bnk|0 1| pic_2 | 8_bit_offset |+-------+-----+---+-+-+-+-------+---+---+-------+---------------+以ARM寄存器的數(shù)據(jù)加載該重定序緩沖區(qū)格式總結(jié)提供該MPR指令格式以從一個ARM寄存器向該Piccolo重定序緩沖器傳送一個數(shù)據(jù)字。下列格式可用于MPR指令MPR{cond} dest, RnMPR{cond}W dest, Rn其中{} 指示一個選項字段。cond是該ARM指令條件代碼字段。dest指示Piccolo目標(biāo)寄存器(A0-Z3)。Rn 是一個計算一個有效的ARM寄存器號的表達式。W 指示應(yīng)當(dāng)將從該ARM寄存器傳送的數(shù)據(jù)作為兩個16位的值處理,并且標(biāo)記為Piccolo寄存器dest0.l。指令編碼將MPR指令編碼為一個ARM MCR指令。MPR{cond} dest, Rn3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-------+-------+-------+-------+-------+-----+-+-------+| cond |1 1 1 0|0 0 1 0| dest | Rn | pic_1 |0 0 0|1|0 0 0 0|+-------+-------+-------+-------+-------+-------+-----+-+-------+MPR{cond}W dest, Rn3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-------+-------+-------+-------+-------+-----+-+-------+| cond |1 1 1 0|0 0 1 0| dest | Rn | pic_2 |0 0 0|1|0 0 0 0|+-------+-------+-------+-------+-------+-------+-----+-+-------+從輸出FIFO向存儲器存儲數(shù)據(jù)格式的總結(jié)提供兩個主要的指令格式以從輸出FIFO向存儲器存儲數(shù)據(jù)項。-STP-SPM將兩個指令格式編碼為ARM STC指令。該STP指令類總是從輸出FIFO向存儲器存儲一個32位的數(shù)據(jù)字。該SPM指令類可以用于向存儲器存儲多個字。下列格式可用于該兩個指令STP{cond}[32|16] 地址SPM{cond}[A|D][32|16]Rn{!},#&lt;wordcount&gt;其中{} 指示一個選項字段。Cond是該ARM指令條件代碼字段。32|16 指示正在存儲的數(shù)據(jù)是否作為16位數(shù)據(jù)處理,以及所采取的結(jié)尾特定的動作(見前面的描述),或者作為32位的數(shù)據(jù)。地址可以是[Rn][Rn,#+ve_offset]{!}[Rn],#-ve_offsetRn 是一個計算一個有效的ARM寄存器號的表達式。! 指示所計算的地址是否回寫到該基寄存器。#+ve_offset是一個計算一個偏移值的表達式,該偏移值可以表示為+&lt;8_bit_offset&gt;*4。將這一偏移值加到該基寄存器上以形成該存儲地址。#-ve_offset 是一個計算一個偏移值的表達式,該偏移值可以表示為-&lt;8_bit_offset&gt;*4。將這一偏移值從該基寄存器上減去以形成該后存儲地址。A|D 指示先增(增加)或者后減(減少)尋址方式。wordcount指示傳送的數(shù)據(jù)項的總數(shù)量。對于Piccolo的第一個版本,在一個SPM指令中可傳送不超過8個數(shù)據(jù)項。指令編碼STP指令STP指令向存儲器傳送一個32位的字。其有兩種變形STP{cond}[32|16]dest, [Rn], #-ve_offsetSTP{cond}[32|16]dest, [Rn, #+ve_offset]{!}該尋址方式由P和U位確定。STP{cond}[32|16][Rn], #-ve_offset (P=0|U=0|W=1)組合P=0,U=0和W=1用于編碼下列形式的指令STP{cond}[32|16] [Rn], #-ve_offset向地址[Rn]只傳送一個字。在該傳送發(fā)生后,將該基寄存器減少8_bit_offset*4。該N位指示STP32(1)或STP16(0)。不允許W=0的編碼。&lt;8_bit_offset&gt;編碼mod(#-ve_offset)/4。3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-----+---+-+---+-------+-------+-------+---------------+| cond |1 1 0|0 0|N|1 0| Rn |0 0 0 0| pic_1 | 8_bit_offset |+-------+-----+---+-+---+-------+-------+-------+---------------+STP{cond}[32|16]dest,[Rn,#+ve_offset]{!} (P=1|U=1)組合P=1和U=1用于編碼下列形式的指令STP{cond}[32|16] dest,[Rn,#+ve_offset]{!)只傳送一個字到地址[Rn+#+ve_offset]。如果設(shè)置了W位,將該基寄存器增加8_bit_offset*4。該N位指示STP32(1)或者STP16(0)。&lt;8_bit_offset&gt;編碼#+ve_offset/4。3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-----+---+-+-+-+-------+-------+-------+---------------+| cond |1 1 0|1 1|N|W|0| Rn |0 0 0 0| pic_1 | 8_bit_offset |+-------+-----+---+-+-+-+-------+-------+-------+---------------+SPM指令SPM指令從存儲器傳送多個字。其具有下列變形SPM{cond}[A|D][32|16]Rn{!},#&lt;wordcount&gt;SPM{cond}[A|D][32|16]Rn{!},#&lt;wordcount&gt;對于SPMA變形P=0,U=1,該指令編碼為3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-----+---+-+-+-+-------+-------+-------+---------------+| cond |1 1 0|0 1|N|W|0| Rn |0 0 0 0| pic_1 | 8_bit offset |+-------+-----+---+-+-+-+-------+-------+-------+---------------+其中該N位指示SPMA32(1)或SPMA16(0)。該W位指示向基寄存器(1)的回寫。&lt;8_bit_offset&gt;指示傳送的數(shù)據(jù)項的數(shù)量。
      對于LPMD變形P=1,U=0,該指令編碼為3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 11 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-----+---+-+-+-+-------+---+---+-------+---------------+| cond |1 1 0|1 0|N|W|0| Rn |0 0 0 0| pic_1 | 8_bit_offset |+-------+-----+---+-+-+-+-------+---+---+-------+---------------+其中該N位指示SPMD32(1)或SPMD16(0)。從輸出FIFO向ARM傳送數(shù)據(jù)格式的總結(jié)提供該MRP指令以從輸出FIFO向一個ARM寄存器傳送一個數(shù)據(jù)字。下列格式可用于該MRP指令MRP{cond}Rn其中{} 指示一個選項字段。cond是該ARM指令條件代碼字段。Rn是計算一個有效的ARM寄存器號的表達式。指令編碼該MRP指令編碼為一個ARM MRC指令。MRP{cond}Rn3 3 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 13 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0 9 8 7 6 5 4 3 2 1 0+-------+-------+-------+-------+-------+-------+-----+-+-------+| cond |1 1 1 0|0 0 1 1| dest | Rn | pic_1 |0 0 0|1|0 0 0 0|+-------+-------+-------+-------+-------+-------+-----+-+-------+保留的選項在一個全面的層次上,將會注意到編碼P=0,U=0和W=0是上述情況所不允許的,并且保留供將來使用。
      權(quán)利要求
      1.一種用于處理數(shù)據(jù)的裝置,該裝置包括一個中央處理單元,用于執(zhí)行中央處理單元指令,以執(zhí)行數(shù)據(jù)處理操作,所述中央處理單元指令包括協(xié)處理器存儲器訪問指令;一個連接到所述中央處理單元用于保存數(shù)據(jù)字的存儲器;一個連接到所述中央處理單元和所述存儲器的協(xié)處理器,在所述中央處理單元執(zhí)行的所述協(xié)處理器存儲器訪問指令的控制下使用多個尋址方式中的一個尋址要由所述協(xié)處理器處理的所述存儲器中的數(shù)據(jù)字;其中,至少一個協(xié)處理器存儲器訪問指令包括尋址方式信息,該信息用于控制所述中央處理單元使用所述多個尋址方式中的哪一個來訪問所述存儲器,所述協(xié)處理器使用所述尋址方式信息中的至少一部分來控制根據(jù)所述至少一個協(xié)處理器存儲器訪問指令在所述存儲器和所述協(xié)處理器之間傳送多少數(shù)據(jù)字。
      2.根據(jù)權(quán)利要求1的裝置,其中所述至少一個協(xié)處理器存儲器訪問指令引用所述中央處理單元中保存一個地址值的寄存器,以及所述地址方式信息包括一個偏移字段,其中在執(zhí)行所述至少一個協(xié)處理器存儲器訪問指令時從所述地址值和所述偏移值至少之一中確定所述存儲器中要訪問的一個開始地址。
      3.根據(jù)權(quán)利要求2的裝置,其中對所述地址值的所述改變產(chǎn)生一個最終地址值,該最終地址值存回所述寄存器。
      4.根據(jù)權(quán)利要求2或3的裝置,其中所述協(xié)處理器使用所述偏移字段的至少一部分,以控制在所述存儲器和所述協(xié)處理器之間傳送多少數(shù)據(jù)字。
      5.根據(jù)權(quán)利要求4的裝置,其中所述尋址方式信息包括一個或者多個標(biāo)記,所述標(biāo)記用于控制使用所述多個尋址方式中的哪個方式,以及也用來控制在確定在所述存儲器和所述協(xié)處理器之間要傳送多少數(shù)據(jù)字時所述協(xié)處理器是否要使用所述偏移字段。
      6.根據(jù)權(quán)利要求5的裝置,其中在確定在所述存儲器和所述協(xié)處理器之間要傳送多少數(shù)據(jù)字時所述協(xié)處理器不使用所述偏移字段時,在所述存儲器和所述協(xié)處理器之間傳送一個固定數(shù)目的數(shù)據(jù)字。
      7.根據(jù)權(quán)利要求5的裝置,其中所述寄存器存儲一個地址值Rn,一個數(shù)據(jù)字長度是WL個字節(jié),以及所述偏移值是M,所述一個或者多個標(biāo)記包括3個或者多個數(shù)值位,該數(shù)值位選擇所述至少一個協(xié)處理器存儲器訪問指令以根據(jù)下列情況之一進行操作傳送開始 地址寄存器要傳送的地址值中的最終值數(shù)據(jù)字?jǐn)?shù)量(i) Rn Rn-(WL*M)(固定數(shù)量)(ii) Rn RnM(iii)Rn Rn+(WL*M)M(iv)Rn-(WL*M) RnM(v) Rn-(WL*M)Rn-(WL*M)M(vi)Rn+(WL*M) Rn(固定數(shù)量)(vii) Rn+(WL*M)Rn+(WL*M)(固定數(shù)量)
      8.根據(jù)權(quán)利要求7的裝置,其中所述多個標(biāo)記包括(i)一個標(biāo)記位P,它指示所述開始地址值是否是原先存儲在所述寄存器中的所述地址值或者是由所述偏移字段指示所改變的一個地址值;(ii)一個標(biāo)記位U,它指示所述改變是否是從原先存儲在所述寄存器中的所述地址值加上或減去在所述偏移字段中指示的一個值;以及(iii)一個標(biāo)記位W,它指示在所述地址寄存器中的所述最終值是否應(yīng)當(dāng)存回所述寄存器中。
      9.根據(jù)權(quán)利要求8的裝置,其中所述協(xié)處理器計算P EOR U以確定是傳送一個數(shù)據(jù)字還是M個數(shù)據(jù)字。
      10.根據(jù)權(quán)利要求8的裝置,其中所述寄存器可以是所述中央處理單元的一個程序計數(shù)寄存器PC,所述協(xié)處理器計算P EOR(U OR(寄存器是PC))以確定是傳送一個數(shù)據(jù)字還是M個數(shù)據(jù)字。
      11.根據(jù)上述任一權(quán)利要求的裝置,所述中央處理單元和所述協(xié)處理器執(zhí)行數(shù)字信號處理操作,并且在所述存儲器和所述協(xié)處理器之間傳送的所述數(shù)據(jù)字包括來自存儲在所述存儲器中的一組系數(shù)值的多個系數(shù)值。
      12.根據(jù)權(quán)利要求6或7-11之一的裝置,其中所述固定數(shù)目的數(shù)據(jù)字包括僅一個數(shù)據(jù)字。
      13.一種處理數(shù)據(jù)的方法,所述方法包括下列步驟以一個中央處理單元執(zhí)行中央處理單元指令,以執(zhí)行數(shù)據(jù)處理操作,所述中央處理單元指令包括協(xié)處理器存儲器訪問指令;將數(shù)據(jù)字保存在連接到所述中央處理單元的存儲器中;在由所述中央處理單元執(zhí)行的協(xié)處理器存儲器訪問指令的控制下,利用所述多個尋址方式之一在所述存儲器中尋址要由連接到所述中央處理單元和所述存儲器的一個協(xié)處理器處理的數(shù)據(jù)字;其中,至少一個所述協(xié)處理器存儲器訪問指令包括尋址方式信息,該信息用于控制所述中央處理單元使用所述多個尋址方式中的哪一個來訪問所述存儲器,所述協(xié)處理器使用所述尋址方式信息中的至少一部分來控制根據(jù)所述至少一個協(xié)處理器存儲器訪問指令在所述存儲器和所述協(xié)處理器之間傳送多少數(shù)據(jù)字。
      全文摘要
      一個數(shù)字信號處理系統(tǒng)包括一個中央處理單元核(2),一個存儲器(8)和一個協(xié)處理器(4),該協(xié)處理器使用協(xié)處理器存儲器訪問指令(例如LDC,STC)進行操作。在這些協(xié)處理器存儲器訪問指令(P,U,W,偏移值)中的該尋址方式信息不僅控制該中央處理單元核(2)所使用的尋址方式,還由該協(xié)處理器(4)使用以確定在所指示的傳送中數(shù)據(jù)字的數(shù)量,使得協(xié)處理器(4)可以在適當(dāng)?shù)臅r候終止該傳送。在一些總線系統(tǒng)中事先知道在一次傳送中的數(shù)據(jù)字的數(shù)量也是有利的,諸如那些可以具有同步DRAM的總線系統(tǒng)。在該指令中的偏移字段可用于指示在由該中央處理單元核(2)在執(zhí)行一個特定的指令時所提供的值中所進行的改變,并且也指示在該傳送中的字的數(shù)量。這種裝置可很好地適用于對諸如數(shù)字信號處理操作中的一個規(guī)則的數(shù)據(jù)組。如果不使用該偏移字段,則要傳送的數(shù)據(jù)字的數(shù)量可缺省定為1。
      文檔編號G06F9/355GK1260054SQ98806108
      公開日2000年7月12日 申請日期1998年1月12日 優(yōu)先權(quán)日1997年6月10日
      發(fā)明者R·約克, D·J·西爾, D·賽姆斯 申請人:Arm有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1