改進(jìn)以太網(wǎng)網(wǎng)絡(luò)的系統(tǒng)的制作方法
【專利摘要】一種改進(jìn)聚合式增強(qiáng)型以太網(wǎng)光纖通道(FCoCEE)網(wǎng)絡(luò)的系統(tǒng)可以包括FCoCEE網(wǎng)絡(luò)中的發(fā)送器,在該FCoCEE網(wǎng)絡(luò)中具有不同數(shù)據(jù)鏈路層結(jié)構(gòu)的數(shù)據(jù)分組在單個(gè)數(shù)據(jù)鏈路層上被該發(fā)送器發(fā)送。該系統(tǒng)還可以包括在數(shù)據(jù)鏈路層上接收數(shù)據(jù)分組以及響應(yīng)數(shù)據(jù)分組中的序列號(hào)發(fā)送ACK和/或NAK的接收器。該系統(tǒng)可以進(jìn)一步包括重發(fā)數(shù)據(jù)分組的重傳緩沖器,其中該重傳緩沖器的大小由單條數(shù)據(jù)鏈路的長(zhǎng)度、數(shù)據(jù)鏈路的數(shù)據(jù)速率、發(fā)送器和/或接收器上的ACK和/或NAK處理時(shí)間、和/或發(fā)送和/或接收數(shù)據(jù)分組的閾值時(shí)間決定。
【專利說(shuō)明】改進(jìn)以太網(wǎng)網(wǎng)絡(luò)的系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)聯(lián)網(wǎng)的領(lǐng)域,尤其涉及計(jì)算聯(lián)網(wǎng)。
【背景技術(shù)】
[0002]人們已經(jīng)制定出以太網(wǎng)光纖通道(“FCoE”)標(biāo)準(zhǔn),以便能夠使用以太網(wǎng)光纖通道網(wǎng)絡(luò)。另外,聚合式增強(qiáng)型以太網(wǎng)(“CEE”)規(guī)范可以包括FCoE,并且被稱為FCoCEE。
【發(fā)明內(nèi)容】
[0003]按照本發(fā)明的一個(gè)示例性實(shí)施例,一種改進(jìn)FCoCEE網(wǎng)絡(luò)的系統(tǒng)可以包括重傳緩沖器,用于在聚合式增強(qiáng)型以太網(wǎng)光纖通道(FCoCEE)網(wǎng)絡(luò)中重發(fā)數(shù)據(jù)分組,其中具有不同數(shù)據(jù)鏈路層結(jié)構(gòu)的數(shù)據(jù)分組在數(shù)據(jù)鏈路層上被發(fā)送器發(fā)送和被接收器接收。在這種系統(tǒng)中,該接收器響應(yīng)數(shù)據(jù)分組中的序列號(hào)發(fā)送應(yīng)答信號(hào)(ACK)和/或無(wú)應(yīng)答信號(hào)(NAK)。而且,該重傳緩沖器的大小由單條數(shù)據(jù)鏈路的長(zhǎng)度、發(fā)送器和/或接收器上的ACK和/或NAK處理時(shí)間、和/或發(fā)送和/或接收數(shù)據(jù)分組的閾值時(shí)間決定。該重傳緩沖器可以工作在FCoCEE網(wǎng)絡(luò)的物理層上。
[0004]該系統(tǒng)可以進(jìn)一步包括指示附加可靠鏈路層序列號(hào)字節(jié)的定界符。如果啟用可靠鏈路層,則可以將順序分組序列號(hào)一起分組成共同業(yè)務(wù)類別和/或這種幀類型和/或這種ACK類型的給定優(yōu)先級(jí)。該重傳緩沖器可以提供對(duì)啟用鏈路層恢復(fù)的多個(gè)優(yōu)先組的分配以避免溢出。
[0005]該發(fā)送器可以修改數(shù)據(jù)分組的以太網(wǎng)類型(Ethertype)字段,因此每個(gè)數(shù)據(jù)分組都包含序列號(hào)。該接收器根據(jù)序列號(hào)比較核實(shí)和/或發(fā)送ACK和/或NAK。
[0006]該重傳緩沖器可以重發(fā)無(wú)應(yīng)答的數(shù)據(jù)分組。該發(fā)送器可以因數(shù)據(jù)鏈路故障和/或?yàn)閿?shù)據(jù)鏈路恢復(fù)而清除該重傳緩沖器和/或刷新序列號(hào)。
[0007]本發(fā)明的另一個(gè)示例性方面是改進(jìn)FCoCEE網(wǎng)絡(luò)的方法。該方法包括:在接收器上接收通過(guò)聚合式增強(qiáng)型以太網(wǎng)光纖通道(FCoCEE)、經(jīng)由發(fā)送器在數(shù)據(jù)鏈路層上的單條數(shù)據(jù)鏈路上發(fā)送的、具有不同數(shù)據(jù)鏈路層結(jié)構(gòu)的數(shù)據(jù)分組,以及響應(yīng)數(shù)據(jù)分組中的序列號(hào)重發(fā)ACK和/或NAK。該方法可以進(jìn)一步包括:經(jīng)由重傳緩沖器重發(fā)數(shù)據(jù)分組,該重傳緩沖器的大小由數(shù)據(jù)鏈路的長(zhǎng)度、發(fā)送器和/或接收器上的ACK和/或NAK處理時(shí)間、和/或發(fā)送和/或接收數(shù)據(jù)分組的閾值時(shí)間決定。
[0008]該方法還可以包括在FCoCEE網(wǎng)絡(luò)的物理層上操作該重傳緩沖器。該方法可以進(jìn)一步包括經(jīng)由該發(fā)送器修改數(shù)據(jù)分組的以太網(wǎng)類型字段,因此每個(gè)數(shù)據(jù)分組都包含序列號(hào)。
[0009]該方法另外可以包括經(jīng)由定界符指示附加可靠鏈路層序列號(hào)字節(jié),以及如果啟用可靠鏈路層,則可以將順序分組序列號(hào)一起分組成共同業(yè)務(wù)類別和/或這種幀類型和/或這種ACK類型的給定優(yōu)先級(jí)。該方法還可以包括根據(jù)該接收器進(jìn)行的序列號(hào)比較核實(shí)和/或發(fā)送ACK和/或NAK。該方法還可以包括經(jīng)由該重傳緩沖器重發(fā)無(wú)應(yīng)答的數(shù)據(jù)分組,和/或經(jīng)由該發(fā)送器因數(shù)據(jù)鏈路故障和/或?yàn)閿?shù)據(jù)鏈路恢復(fù)而清除該重傳緩沖器和/或刷新序列號(hào)。
[0010]本發(fā)明的另一個(gè)示例性方面是改進(jìn)FCoCEE網(wǎng)絡(luò)的與有形介質(zhì)耦合的計(jì)算機(jī)可讀程序代碼。該計(jì)算機(jī)可讀程序代碼可以配置成使程序可以在接收器上接收通過(guò)FCoCEE)、經(jīng)由發(fā)送器在數(shù)據(jù)鏈路層上的單條數(shù)據(jù)鏈路上發(fā)送的、具有不同數(shù)據(jù)鏈路層結(jié)構(gòu)的數(shù)據(jù)分組,以及響應(yīng)數(shù)據(jù)分組中的序列號(hào)重發(fā)ACK和/或NAK。該計(jì)算機(jī)可讀程序代碼可以進(jìn)一步經(jīng)由重傳緩沖器重發(fā)數(shù)據(jù)分組,該重傳緩沖器的大小由數(shù)據(jù)鏈路的長(zhǎng)度、鏈路的數(shù)據(jù)速率、發(fā)送器和/或接收器上的ACK和/或NAK處理時(shí)間、和/或發(fā)送和/或接收數(shù)據(jù)分組的閾值時(shí)間決定。
[0011]該計(jì)算機(jī)可讀程序代碼還可以在FCoCEE網(wǎng)絡(luò)的物理層上操作該重傳緩沖器。該計(jì)算機(jī)可讀程序代碼另外可以經(jīng)由該發(fā)送器修改數(shù)據(jù)分組的以太網(wǎng)類型字段,因此每個(gè)數(shù)據(jù)分組都包含序列號(hào)。
[0012]該計(jì)算機(jī)可讀程序代碼還可以經(jīng)由定界符指示附加可靠鏈路層序列號(hào)字節(jié),以及如果啟用可靠鏈路層,則可以將順序分組序列號(hào)一起分組成共同業(yè)務(wù)類別和/或這種幀類型和/或這種ACK類型的給定優(yōu)先級(jí)。該計(jì)算機(jī)可讀程序代碼另外還可以經(jīng)由該接收器根據(jù)序列號(hào)比較核實(shí)和/或發(fā)送ACK和/或NAK。
【專利附圖】
【附圖說(shuō)明】
[0013]圖1是例示依照本發(fā)明的實(shí)施例改進(jìn)FCoCEE網(wǎng)絡(luò)的系統(tǒng)的框圖;
[0014]圖2是例示按照本發(fā)明的實(shí)施例的方法方面的流程圖;
[0015]圖3是例示按照?qǐng)D2的方法的方法方面的流程圖;
[0016]圖4是例示按照?qǐng)D2的方法的方法方面的流程圖;
[0017]圖5是例示按照?qǐng)D2的方法的方法方面的流程圖;
[0018]圖6是例示按照?qǐng)D2的方法的方法方面的流程圖;
[0019]圖7是例示按照?qǐng)D2的方法的方法方面的流程圖;
[0020]圖8是例示依照本發(fā)明的實(shí)施例對(duì)現(xiàn)有幀類型所作的修改的框圖;
[0021]圖9是例示依照本發(fā)明的實(shí)施例對(duì)現(xiàn)有幀應(yīng)答所作的修改的框圖;以及
[0022]圖10是例示依照本發(fā)明的實(shí)施例改進(jìn)FCoCEE網(wǎng)絡(luò)的示范性做法的框圖。
【具體實(shí)施方式】
[0023]現(xiàn)在,在下文中將參考示出本發(fā)明的優(yōu)選實(shí)施例的附圖更全面地描述本發(fā)明。在附圖中相同標(biāo)號(hào)自始至終表示相同元件。
[0024]現(xiàn)在參考圖1,首先描述改進(jìn)FCoCEE網(wǎng)絡(luò)12的系統(tǒng)10。在一個(gè)實(shí)施例中,系統(tǒng)10包括FCoCEE網(wǎng)絡(luò)12中的發(fā)送器14,在該FCoCEE網(wǎng)絡(luò)12中具有不同數(shù)據(jù)鏈路層結(jié)構(gòu)的數(shù)據(jù)分組在單條數(shù)據(jù)鏈路26上被該發(fā)送器發(fā)送。系統(tǒng)10還包括FCoCEE網(wǎng)絡(luò)12中的接收器18,該接收器18在數(shù)據(jù)鏈路層上接收數(shù)據(jù)分組,以及響應(yīng)數(shù)據(jù)分組中的序列號(hào)發(fā)送ACK和/或NAK。系統(tǒng)10進(jìn)一步包括FCoCEE網(wǎng)絡(luò)12中重發(fā)數(shù)據(jù)分組的重傳緩沖器20,其中該重傳緩沖器的大小由單條數(shù)據(jù)鏈路16的長(zhǎng)度、鏈路的數(shù)據(jù)速率、發(fā)送器14和/或接收器18上的ACK和/或NAK處理時(shí)間、和/或發(fā)送和/或接收數(shù)據(jù)分組的閾值時(shí)間決定。該重傳緩沖器可以操作在FCoCEE網(wǎng)絡(luò)12的物理層上。
[0025]在一個(gè)實(shí)施例中,系統(tǒng)10進(jìn)一步包括指示附加的可靠鏈路層序列號(hào)字節(jié)的定界符22。在另一個(gè)實(shí)施例中,如果啟用可靠鏈路層,則可以將順序的分組序列號(hào)(PacketSequence Number) 一起分組成共同業(yè)務(wù)類別和/或這種巾貞類型和/或這種ACK類型的給定優(yōu)先級(jí)。在另一個(gè)實(shí)施例中,重傳緩沖器20提供對(duì)啟用鏈路層恢復(fù)的多個(gè)優(yōu)先組的分配以避免溢出。
[0026]在一個(gè)實(shí)施例中,發(fā)送器14修改數(shù)據(jù)分組的以太網(wǎng)類型(EtherType)字段,因此每個(gè)數(shù)據(jù)分組都包含序列號(hào)。在另一個(gè)實(shí)施例中,接收器18根據(jù)序列號(hào)比較核實(shí)和/或發(fā)送ACK和/或NAK。
[0027]在一個(gè)實(shí)施例中,重傳緩沖器20重發(fā)無(wú)應(yīng)答的數(shù)據(jù)分組。在另一個(gè)實(shí)施例中,發(fā)送器14因數(shù)據(jù)鏈路故障和/或?yàn)閿?shù)據(jù)鏈路恢復(fù)而清除重傳緩沖器20和/或刷新序列號(hào)。
[0028]本發(fā)明的另一個(gè)示例性方面是現(xiàn)在參考圖2的流程圖24描述的改進(jìn)FCoCEE網(wǎng)絡(luò)的方法。該方法從方框26開(kāi)始,可以包括在方框28上,在FCoCEE網(wǎng)絡(luò)中,經(jīng)由發(fā)送器在單條數(shù)據(jù)鏈路上發(fā)送具有不同數(shù)據(jù)鏈路層結(jié)構(gòu)的數(shù)據(jù)分組。該方法還可以包括在方框30上,在接收器上,在數(shù)據(jù)鏈路層上接收數(shù)據(jù)分組,以及響應(yīng)數(shù)據(jù)分組中的序列號(hào)重發(fā)ACK和/或NAK。該方法可以進(jìn)一步包括在方框32上,經(jīng)由重傳緩沖器重發(fā)數(shù)據(jù)分組,該重傳緩沖器的大小由數(shù)據(jù)鏈路的長(zhǎng)度、鏈路的數(shù)據(jù)速率、發(fā)送器和/或接收器上的ACK和/或NAK處理時(shí)間、和/或發(fā)送和/或接收數(shù)據(jù)分組的閾值時(shí)間決定。在方框34上結(jié)束該方法。
[0029]在現(xiàn)在參考圖3的流程圖36描述的另一個(gè)方法實(shí)施例中,該方法從方框38開(kāi)始。該方法可以包括圖2在方框28,30和32上的步驟。該方法可以進(jìn)一步包括在方框40上,在FCoCEE網(wǎng)絡(luò)的物理層上操作重傳緩沖器。在方框42上結(jié)束該方法。
[0030]在現(xiàn)在參考圖4的流程圖44描述的另一個(gè)方法實(shí)施例中,該方法從方框46開(kāi)始。該方法可以包括圖2在方框28,30和32上的步驟。該方法可以進(jìn)一步包括在方框48上,經(jīng)由發(fā)送器修改數(shù)據(jù)分組的以太網(wǎng)類型字段,因此每個(gè)數(shù)據(jù)分組都包含序列號(hào)。在方框50上結(jié)束該方法。
[0031]在現(xiàn)在參考圖5的流程圖52描述的另一個(gè)方法實(shí)施例中,該方法從方框54開(kāi)始。該方法可以包括圖2在方框28,30和32上的步驟。該方法可以進(jìn)一步包括在方框56上,經(jīng)由定界符指示附加的可靠鏈路層序列號(hào)字節(jié),以及如果啟用可靠鏈路層,則可以將順序分組序列號(hào)一起分組成共同業(yè)務(wù)類別和/或這種幀類型和/或這種ACK類型的給定優(yōu)先級(jí)。在方框58上結(jié)束該方法。
[0032]在現(xiàn)在參考圖6的流程圖60描述的另一個(gè)方法實(shí)施例中,該方法從方框62開(kāi)始。該方法可以包括圖2在方框28,30和32上的步驟。該方法可以進(jìn)一步包括在方框64上,根據(jù)該接收器進(jìn)行的序列號(hào)比較核實(shí)和/或發(fā)送ACK和/或NAK。在方框66上結(jié)束該方法。
[0033]在現(xiàn)在參考圖7的流程圖68描述的另一個(gè)方法實(shí)施例中,該方法從方框70開(kāi)始。該方法可以包括圖2在方框28,30和32上的步驟。該方法可以進(jìn)一步包括在方框72上,經(jīng)由重傳緩沖器重發(fā)無(wú)應(yīng)答的數(shù)據(jù)分組,和/或發(fā)送器因數(shù)據(jù)鏈路故障和/或?yàn)閿?shù)據(jù)鏈路恢復(fù)而清除該重傳緩沖器和/或刷新序列號(hào)。在方框74上結(jié)束該方法。
[0034]本發(fā)明的另一個(gè)示例性方面是改進(jìn)FCoCEE網(wǎng)絡(luò)12的與有形介質(zhì)耦合的計(jì)算機(jī)可讀程序代碼。該計(jì)算機(jī)可讀程序代碼可以配置成使程序可以在FCoCEE網(wǎng)絡(luò)12中,經(jīng)由發(fā)送器14在單條數(shù)據(jù)鏈路16上發(fā)送具有不同數(shù)據(jù)鏈路層結(jié)構(gòu)的數(shù)據(jù)分組。該計(jì)算機(jī)可讀程序代碼還可以在接收器18上,在數(shù)據(jù)鏈路層上接收數(shù)據(jù)分組,以及響應(yīng)數(shù)據(jù)分組中的序列號(hào)重發(fā)ACK和/或NAK。該計(jì)算機(jī)可讀程序代碼可以進(jìn)一步經(jīng)由重傳緩沖器20重發(fā)數(shù)據(jù)分組,該重傳緩沖器的大小由單條數(shù)據(jù)鏈路16的長(zhǎng)度、鏈路的數(shù)據(jù)速率、發(fā)送器14和/或接收器18上的ACK和/或NAK處理時(shí)間、和/或發(fā)送和/或接收數(shù)據(jù)分組的閾值時(shí)間決定。
[0035]在一個(gè)實(shí)施例中,該計(jì)算機(jī)可讀程序代碼還可以在FCoCEE網(wǎng)絡(luò)12的物理層上操作重傳緩沖器20。在另一個(gè)實(shí)施例中,該計(jì)算機(jī)可讀程序代碼另外可以經(jīng)由發(fā)送器14修改數(shù)據(jù)分組的以太網(wǎng)類型字段,因此每個(gè)數(shù)據(jù)分組都包含序列號(hào)。
[0036]在一個(gè)實(shí)施例中,該計(jì)算機(jī)可讀程序代碼還可以經(jīng)由定界符22指示附加可靠鏈路層序列號(hào)字節(jié),以及如果啟用可靠鏈路層,則將順序分組序列號(hào)一起分組成共同業(yè)務(wù)類別和/或這種幀類型和/或這種ACK類型的給定優(yōu)先級(jí)。
[0037]在另一個(gè)實(shí)施例中,該計(jì)算機(jī)可讀程序代碼另外可以經(jīng)由接收器18,根據(jù)序列號(hào)比較核實(shí)和/或發(fā)送ACK和/或NAK。
[0038]鑒于上述情況,系統(tǒng)10提供了 FCoCEE網(wǎng)絡(luò)12的改進(jìn)操作。例如,聚合式增強(qiáng)型以太網(wǎng)聚合式光纖通道(FCoCEE)網(wǎng)絡(luò)未將輸送相同數(shù)據(jù)完整性水平的機(jī)制定義成它們打算取代的網(wǎng)絡(luò)。其結(jié)果是,系統(tǒng)10在與新FCoCEE特征兼容的物理層上提供了鏈路層重試功能。
[0039]在一個(gè)實(shí)施例中,系統(tǒng)10在鏈路16的發(fā)送側(cè)提供了重傳緩沖器20,其以若干方式修改數(shù)據(jù)鏈路層。在一個(gè)實(shí)施例中,每個(gè)數(shù)據(jù)分組都具有序列號(hào)。在另一個(gè)實(shí)施例中,由接收器18核實(shí)和應(yīng)答數(shù)據(jù)分組(允許ACK合并(Coalescing))。
[0040]在一個(gè)實(shí)施例中,取決于序列號(hào)比較,接收器18發(fā)送ACK和NAK。在另一個(gè)實(shí)施例中,發(fā)送器14暫停無(wú)應(yīng)答的分組并重發(fā)數(shù)據(jù)分組。
[0041]在一個(gè)實(shí)施例中,按包含數(shù)據(jù)鏈路16的最大長(zhǎng)度、鏈路的數(shù)據(jù)速率、鏈路兩端的Ack/Nak處理時(shí)間、和最大發(fā)送和接收時(shí)間(必須接收整個(gè)分組以便核實(shí)錯(cuò)誤校驗(yàn),以及發(fā)送Ack/Nak可能必須隨著數(shù)據(jù)分組而發(fā)生)的需要,確定重傳緩沖器20的大小。例如,在100米的IOG鏈路上,系統(tǒng)10的估計(jì)首標(biāo)額外開(kāi)銷(xiāo)需要大約9K字節(jié);對(duì)于更長(zhǎng)距離,該緩沖器可能擴(kuò)展到32K字節(jié)。系統(tǒng)10有意避免與通常在入站路徑中實(shí)現(xiàn)和專門(mén)用于流量控制的虛擬通道(“VL”)緩沖器相交。在另一個(gè)實(shí)施例中,鏈路可靠性使用出站重傳緩沖器20來(lái)重發(fā)決不會(huì)到達(dá)VL緩沖器的分組。
[0042]在一個(gè)實(shí)施例中,系統(tǒng)10提供了指示附加的可靠鏈路層序列號(hào)字節(jié)的定界符22。在另一個(gè)實(shí)施例中,系統(tǒng)10通過(guò)識(shí)別是否啟用了可靠鏈路層,修改像優(yōu)選流量控制和增強(qiáng)發(fā)送選擇(“ETS”)那樣的FCoCEE特征。如果是,則系統(tǒng)10將順序分組序列號(hào)一起分組成共同業(yè)務(wù)類別,并賦予這種幀類型和這種ACK類型以優(yōu)先級(jí)。對(duì)于啟用鏈路層恢復(fù)的多個(gè)優(yōu)先級(jí)組,系統(tǒng)10將管理緩沖器分配以避免溢出。
[0043]系統(tǒng)10提供了在大型CEE和/或FCoCEE聚合式網(wǎng)絡(luò)12中、在鏈路層上實(shí)現(xiàn)增強(qiáng)可靠性的方法和裝置。CEE和FCoCEE是修改傳統(tǒng)以太網(wǎng)網(wǎng)絡(luò)的新出現(xiàn)協(xié)議,致力于將以太網(wǎng)定位成所有類型的數(shù)據(jù)中心業(yè)務(wù)的優(yōu)選聚合式架構(gòu)。主要變化包括加入了物理層上的基于信用流量控制、擁塞檢測(cè)和數(shù)據(jù)速率限制,以及加入了服務(wù)品質(zhì)差異化的虛擬通道。[0044]未來(lái)數(shù)據(jù)中心內(nèi)聚合式架構(gòu)的出現(xiàn)旨在啟用像云計(jì)算那樣,將多種服務(wù)器、存儲(chǔ)體、和其它資源商品化并附在提供顯著增加功能價(jià)值的網(wǎng)絡(luò)上的體系結(jié)構(gòu)。這種做法也被稱為聚合式以太網(wǎng)、低延遲以太網(wǎng)、增強(qiáng)型以太網(wǎng)、或各種其它名稱。
[0045]云計(jì)算手段部分通過(guò)允許帶有聚合式架頂式(“TOR”)交換機(jī)的刀片式服務(wù)器和存儲(chǔ)體來(lái)實(shí)現(xiàn)。在這種環(huán)境下,在單個(gè)數(shù)據(jù)中心內(nèi)可以存在大量交換機(jī),形成復(fù)雜性與外部長(zhǎng)距離網(wǎng)絡(luò)相媲美的巨大網(wǎng)絡(luò)。
[0046]重要的是要注意到,CEE和FCoCEE不采用TCP/IP協(xié)議,致力于創(chuàng)建不需要卸載處理或加速器的更簡(jiǎn)單、低成本手段。由于聚合式架構(gòu)旨在沒(méi)有TCP/IP協(xié)議的額外開(kāi)銷(xiāo)地運(yùn)行,所以它們有效地沒(méi)有周?chē)谄渲械倪\(yùn)輸級(jí)恢復(fù),系統(tǒng)10提供了提供更健壯鏈路層以便對(duì)此加以補(bǔ)償?shù)脑鰪?qiáng)手段。
[0047]以太網(wǎng)標(biāo)準(zhǔn)的以前版本依靠丟棄或丟失的分組來(lái)啟動(dòng)數(shù)據(jù)的恢復(fù)或重發(fā),或依靠用于端到端恢復(fù)的TCP/IP協(xié)議。這樣網(wǎng)絡(luò)的位錯(cuò)率(“BER”)已經(jīng)變成設(shè)計(jì)帶有許多交換機(jī)的大型網(wǎng)絡(luò)的限制因素,因?yàn)槊總€(gè)數(shù)據(jù)分組都需要橫跨多條鏈路才能到達(dá)其目的地。例如,32節(jié)點(diǎn)交換架構(gòu)中的lOGb/s以太網(wǎng)鏈路可能需要每一個(gè)帶有8個(gè)端口的12臺(tái)交換機(jī),典型的分組在到達(dá)其目的地之前將至少經(jīng)歷交換機(jī)之間的4次跳轉(zhuǎn)。由于每個(gè)數(shù)據(jù)分組可能需要橫跨存在更多交換機(jī)內(nèi)跳轉(zhuǎn)的多條鏈路才能到達(dá)其目的地,尤其當(dāng)數(shù)據(jù)中心架構(gòu)支持共享公用服務(wù)面的多個(gè)服務(wù)器機(jī)架時(shí),BER概率增大。而且,BER隨著數(shù)據(jù)速率增大而增大,因?yàn)樵S多鏈路能力代價(jià)與數(shù)據(jù)速率成比例,以及許多聚合式網(wǎng)絡(luò)將以10、40、或IOOGb/s數(shù)據(jù)速率運(yùn)行。
[0048]為了消除這些擔(dān)憂,為以太網(wǎng)機(jī)架的第3-4層提出了端到端鏈路恢復(fù)機(jī)制。但是,這種做法取決于適當(dāng)設(shè)置存在幾個(gè)實(shí)際問(wèn)題的網(wǎng)絡(luò)超時(shí)值。將超時(shí)值設(shè)置得太短會(huì)引起耗盡服務(wù)器和網(wǎng)絡(luò)資源的大量重試嘗試,這也可能增加網(wǎng)絡(luò)擁塞和陷入總架構(gòu)崩潰之中。另一方面,將超時(shí)值設(shè)置得太低也將延長(zhǎng)恢復(fù)時(shí)間,因此減小網(wǎng)絡(luò)的吞吐量。超時(shí)值在較大網(wǎng)絡(luò)中趨于增大,為了克服局部交換機(jī)擁塞問(wèn)題,它們也增大。端到端技術(shù)還需要多個(gè)重傳緩沖器,通過(guò)架構(gòu)的每條連線各一個(gè)。像正向糾錯(cuò)(“FEC”)編碼那樣的更復(fù)雜恢復(fù)方案需要相當(dāng)大的額外開(kāi)銷(xiāo),而且只恢復(fù)某些類型的錯(cuò)誤(在高BER環(huán)境下起不到好的作用)。
[0049]系統(tǒng)10提供了將序列號(hào)與端到端層次上的超時(shí)機(jī)制組合在一起用于可靠鏈路發(fā)送的新技術(shù)。系統(tǒng)10因此將檢測(cè)和恢復(fù)加入聚合式架構(gòu)物理層中。這使由架構(gòu)擁塞引起的假重試嘗試最少,并且不影響性能地使端到端超時(shí)時(shí)段顯著增大。
[0050]在系統(tǒng)10中,通過(guò)將重傳緩沖器20加入發(fā)送節(jié)點(diǎn)中在硬件層上進(jìn)行鏈路恢復(fù)。這種重傳緩沖器20只需大到足以適應(yīng)數(shù)據(jù)鏈路16的距離、鏈路的數(shù)據(jù)速率、ACK/NAK處理時(shí)間、和最大MTU發(fā)送和接收時(shí)間。在一個(gè)實(shí)施例中,重傳緩沖器20是低成本、只寫(xiě)緩沖器號(hào),例如,有效載荷4K的IOOm長(zhǎng)lOGb/s鏈路可能需要大約9K緩沖器。
[0051]在一個(gè)實(shí)施例中,每個(gè)數(shù)據(jù)分組都具有序列號(hào),隨著它們到達(dá),由接收器18核實(shí)和應(yīng)答分組。取決于序列號(hào)比較結(jié)果,接收器18返回ACK或NAK響應(yīng)。在另一個(gè)實(shí)施例中,發(fā)送器14暫停無(wú)應(yīng)答的分組,并根據(jù)需要從其重傳緩沖器20重發(fā)。這種特征可以在架構(gòu)中的所有鏈路上實(shí)現(xiàn),或可以與聚合式架構(gòu)服務(wù)層次結(jié)合,只在架構(gòu)中的一些鏈路上實(shí)現(xiàn)。
[0052]在一個(gè)實(shí)施例中,系統(tǒng)10將信息加入CEE和/或FCoCEE分組首標(biāo)中的現(xiàn)有字段中來(lái)指示是否啟用這種特征。允許與以前IEEE以太網(wǎng)標(biāo)準(zhǔn)的向后兼容。預(yù)計(jì)這種估計(jì)比可替代實(shí)施例更快并更健壯,可以對(duì)包括異常高BER的任何類型鏈路惡化作出響應(yīng)。
[0053]系統(tǒng)10提供了可以在數(shù)據(jù)中心交換架構(gòu)中實(shí)現(xiàn)以便在鏈路層次上加入可靠性特征的幾種不同功能。在一個(gè)實(shí)施例中,系統(tǒng)10通過(guò)加入鏈路層重試提高鏈路層可靠性。在另一個(gè)實(shí)施例中,不再使位錯(cuò)浮現(xiàn)到端到端重試機(jī)制中。
[0054]在一個(gè)實(shí)施例中,可以急劇地增加端到端超時(shí)。在另一個(gè)實(shí)施例中,系統(tǒng)10減少由架構(gòu)擁塞引起的假重試。在另一個(gè)實(shí)施例中,系統(tǒng)10通過(guò)在發(fā)送側(cè)加入重傳緩沖器20擴(kuò)展鏈路層,并且加入大量鏈路層增強(qiáng)手段。
[0055]在一個(gè)實(shí)施例中,系統(tǒng)10重新調(diào)整重傳緩沖器20的大小。在另一個(gè)實(shí)施例中,重傳緩沖器20需要包容數(shù)據(jù)鏈路16的總長(zhǎng)度、鏈路的數(shù)據(jù)速率、鏈路兩端的Ack/Nak處理時(shí)間、和最大發(fā)送和接收時(shí)間,例如,必須接收整個(gè)分組以便核實(shí)校驗(yàn),以及在一些情況下發(fā)送Ack/Nak可能必須隨著數(shù)據(jù)分組而發(fā)生。作為一個(gè)典型例子,跨越100米的lOGb/s鏈路可能需要大約9k字節(jié)緩沖器。
[0056]在一個(gè)實(shí)施例中,重傳緩沖器20的大小不必針對(duì)長(zhǎng)鏈路而設(shè)計(jì),而是針對(duì)存在多次跳轉(zhuǎn)的較大交換架構(gòu)而設(shè)計(jì)。其意圖是避免與入站路徑上用于長(zhǎng)距離鏈路的流量控制緩沖器相交。但是,這種做法適用于長(zhǎng)距離鏈路,例如,為了災(zāi)難恢復(fù)使數(shù)據(jù)中心架構(gòu)延伸數(shù)十公里所需的那些。
[0057]在另一個(gè)實(shí)施例中,系統(tǒng)10將新定界符22加入DCE首標(biāo)字段中來(lái)指示可靠鏈路層,例如,萬(wàn)一不超過(guò)兩個(gè)額外字節(jié),則優(yōu)選的是處在以太網(wǎng)類型字段中,但可替代地包括在定界符的幀開(kāi)頭(“S0F”)中。
[0058]在一個(gè)實(shí)施例中,在現(xiàn)有硬件結(jié)構(gòu)和鏈路協(xié)議的頂部構(gòu)建系統(tǒng)10。在另一個(gè)實(shí)施例中,系統(tǒng)10可以使新硬件局限于鏈路協(xié)議引擎(LPE)。在另一個(gè)實(shí)施例中,系統(tǒng)10可選地使用系統(tǒng)依靠選擇性重發(fā)以及突發(fā)重發(fā)(返回到N做法)、不需要按次序ACK/NAK發(fā)送的混合方案。
[0059]在一個(gè)實(shí)施例中,系統(tǒng)10用于提高跨過(guò)公用服務(wù)面與服務(wù)器刀片緊密耦合的TOR交換機(jī)解決方案的性能(將可靠鏈路層屬性與由交換機(jī)或服務(wù)器設(shè)置的服務(wù)層次的質(zhì)量結(jié)合)。系統(tǒng)10還在利用與以太網(wǎng)架構(gòu)互連的系統(tǒng)Z和刀片式處理器的組合的所建議混合系統(tǒng)體系結(jié)構(gòu)中提供增強(qiáng)的可靠性。當(dāng)不犧牲鏈路可靠性地將傳統(tǒng)上高RAS(可靠性、可用性、和可服務(wù)性)的平臺(tái)與大多數(shù)成本劃算商品化平臺(tái)互連時(shí),這可能尤其重要。
[0060]要注意的是,F(xiàn)CoCEE網(wǎng)絡(luò)應(yīng)該保持通過(guò)傳統(tǒng)數(shù)據(jù)通信網(wǎng)絡(luò)建立的相同水平數(shù)據(jù)完整性,以及在FCoCEE網(wǎng)絡(luò)中可能使位錯(cuò)率升高。還要注意的是,較大數(shù)據(jù)中心網(wǎng)絡(luò)(如果完全配備的話,IOG的5000-10000個(gè)端口)通常需要較多交換機(jī),這意味著每個(gè)分組需要橫跨更多條鏈路,這使每個(gè)分組更易發(fā)生鏈路位錯(cuò)。
[0061]TOR到核心鏈路數(shù)據(jù)速率可能顯著高于當(dāng)今(40-80G),這使數(shù)據(jù)速率相關(guān)噪聲更嚴(yán)重,并且使位錯(cuò)率升高。另外,F(xiàn)C數(shù)據(jù)的封裝導(dǎo)致更易出現(xiàn)數(shù)據(jù)損壞的較大幀。
[0062]當(dāng)前,缺乏迅速的端到端恢復(fù)。當(dāng)前為以太網(wǎng)定義的唯一機(jī)制是在較大網(wǎng)絡(luò)中變得很長(zhǎng)的超時(shí)。局部交換架構(gòu)擁塞使所需超時(shí)值進(jìn)一步增大。將超時(shí)設(shè)置得太短會(huì)引起進(jìn)一步增加擁塞和可以導(dǎo)致總架構(gòu)崩潰的無(wú)用重試,將超時(shí)設(shè)置得太長(zhǎng)會(huì)延長(zhǎng)使吞吐量降低的恢復(fù)時(shí)間。
[0063]在一個(gè)實(shí)施例中,系統(tǒng)10通過(guò)在物理層上加入鏈路層重試提供了提高的鏈路層可靠性。例如,不再使位錯(cuò)浮現(xiàn)到端到端重試機(jī)制中,這使端到端超時(shí)間隔最小以及使由架構(gòu)擁塞引起的假重試最少。
[0064]在一個(gè)實(shí)施例中,系統(tǒng)10通過(guò)在發(fā)送側(cè)14加入重傳緩沖器20擴(kuò)展鏈路層。在另一個(gè)實(shí)施例中,鏈路可靠性使用出站重傳緩沖器20重發(fā)決不會(huì)到達(dá)VL緩沖器號(hào)的分組。要注意的是,鏈路可靠性可以獨(dú)立于VL。
[0065]在一個(gè)實(shí)施例中以及另外參考圖8,如系統(tǒng)10所使用的對(duì)現(xiàn)有幀類型的修改用插圖編號(hào)76和78指示。這樣,系統(tǒng)10保持與當(dāng)前幀的向后兼容。
[0066]在一個(gè)實(shí)施例中以及另外參考圖9,如系統(tǒng)10所使用的對(duì)現(xiàn)有幀應(yīng)答的修改用圖符80指不。這樣,系統(tǒng)10保持與當(dāng)如巾貞的向后兼各。在另個(gè)實(shí)施例中,在圖10中例不了系統(tǒng)10的可選鏈路層數(shù)據(jù)流。
[0067]本領(lǐng)域的技術(shù)人員應(yīng)該懂得,本發(fā)明可以實(shí)現(xiàn)為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。而且,本發(fā)明可以采取在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上含有實(shí)現(xiàn)在該介質(zhì)中的計(jì)算機(jī)可讀程序代碼的計(jì)算機(jī)程序產(chǎn)品的形式。
[0068]可以利用任何適當(dāng)計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)。該計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)可以是,例如,但不限于,電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置、器件、或傳播介質(zhì)。計(jì)算機(jī)可讀介質(zhì)的更具體例子(非窮舉列表)包括如下:具有一條或多條導(dǎo)線的電連線、便攜式計(jì)算機(jī)盤(pán)、硬盤(pán)、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦式可編程只讀存儲(chǔ)器(EPR0M或閃存)、光纖、便攜式緊湊盤(pán)只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)器件、或磁存儲(chǔ)器件。
[0069]執(zhí)行本發(fā)明的操作的計(jì)算機(jī)程序代碼可以用像Java、Smalltalk、C++等那樣的面向?qū)ο蟪绦蛟O(shè)計(jì)語(yǔ)言縮寫(xiě)。執(zhí)行本發(fā)明的操作的計(jì)算機(jī)程序代碼也可以用像“C”程序設(shè)計(jì)語(yǔ)言或類似程序設(shè)計(jì)語(yǔ)言那樣的傳統(tǒng)過(guò)程式程序設(shè)計(jì)語(yǔ)言縮寫(xiě)。
[0070]程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在后一種情形中,遠(yuǎn)程計(jì)算機(jī)可以通過(guò)局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如,利用因特網(wǎng)服務(wù)提供商以及通過(guò)因特網(wǎng))。上面參照按照本發(fā)明實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的例示性流程圖和/或框圖描述了本發(fā)明。應(yīng)當(dāng)理解,例示性流程圖和/或框圖的每個(gè)方框以及例示性流程圖和/或框圖中各方框的組合都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機(jī)器,使得這些計(jì)算機(jī)程序指令在通過(guò)計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器執(zhí)行時(shí),產(chǎn)生了實(shí)現(xiàn)流程圖和/或框圖中的一個(gè)或多個(gè)方框中規(guī)定的功能/動(dòng)作的裝置。也可以把這些計(jì)算機(jī)程序指令存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)器中,這些指令可以指示計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置以特定方式工作,從而使存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生出包括實(shí)現(xiàn)流程圖和/或框圖中的一個(gè)或多個(gè)方框中規(guī)定的功能/動(dòng)作的指令的制造品。
[0071]也可以將計(jì)算機(jī)程序指令裝載到計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置上,使一系列操作步驟在計(jì)算機(jī)或其它可編程裝置上得到執(zhí)行,形成計(jì)算機(jī)實(shí)現(xiàn)過(guò)程,以便在計(jì)算機(jī)或其它可編程裝置上執(zhí)行的指令提供實(shí)現(xiàn)在流程圖和/或框圖中的一個(gè)或多個(gè)方框中規(guī)定的功能/動(dòng)作的步驟。[0072]應(yīng)當(dāng)注意到,在一些可替換實(shí)現(xiàn)中,標(biāo)注在流程圖方框中的功能也可以以不同于標(biāo)在附圖中的順序發(fā)生。例如,兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,或它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定,因?yàn)楸疚拿枥L的流程圖僅僅是例子。本文所述的這些圖形或步驟(或操作)可以不偏離本發(fā)明的精神地存在許多變種。例如,可以并行地和/或以不同順序執(zhí)行這些步驟,或可以添加,刪除,和/或修改這些步驟。所有這些變種都被認(rèn)為是所要求保護(hù)的發(fā)明的一部分。
[0073]本文所使用的術(shù)語(yǔ)只是為了描述具體實(shí)施例的目的而無(wú)意限制本發(fā)明。如本文所使用,單數(shù)形式“一個(gè)”、“一種”和“該”也有意包括復(fù)數(shù)形式,除非上下文另有明確指示。還要明白,術(shù)語(yǔ)“包含”當(dāng)用在本說(shuō)明書(shū)中,規(guī)定存在所述的特征、整數(shù)、步驟、操作、元件、和/或組件,但不排除存在或附加一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件、和/或它們的群體。
[0074]所附權(quán)利要求書(shū)中的所有部件或步驟以及功能元件的相應(yīng)結(jié)構(gòu)、材料、動(dòng)作以及等價(jià)物旨在包括如具體要求保護(hù)結(jié)合其他所要求保護(hù)的元件執(zhí)行功能的任何結(jié)構(gòu)、材料或動(dòng)作。展示本發(fā)明的描述是為了例示和描述的目的,但不是窮盡性的或使本發(fā)明限于所公開(kāi)的形式。許多修改和變化對(duì)本領(lǐng)域普通技術(shù)人員來(lái)說(shuō)是明顯的,不偏離本發(fā)明的范圍和精神。選擇和描述實(shí)施例是為了最佳地說(shuō)明本發(fā)明的原理和實(shí)際應(yīng)用,并使本領(lǐng)域普通技術(shù)人員能夠針對(duì)如適于設(shè)想的特定用途地作出各種修改的各種實(shí)施例理解本發(fā)明。
[0075]雖然已經(jīng)描述了本發(fā)明的優(yōu)選實(shí)施例,但要明白的是,無(wú)論現(xiàn)在還是將來(lái),本領(lǐng)域的普通技術(shù)人員都可以作出在所附權(quán)利要求的范圍之內(nèi)的改進(jìn)和改善。這個(gè)權(quán)利要求書(shū)應(yīng)該理解為保持對(duì)首先描述的本發(fā)明的適當(dāng)保護(hù)。
【權(quán)利要求】
1.一種方法,包含: 使用計(jì)算機(jī)處理器,在接收器上接收通過(guò)聚合式增強(qiáng)型以太網(wǎng)光纖通道(FCoCEE)、經(jīng)由發(fā)送器在數(shù)據(jù)鏈路層上的單條數(shù)據(jù)鏈路上發(fā)送的、具有不同數(shù)據(jù)鏈路層結(jié)構(gòu)的數(shù)據(jù)分組,以及響應(yīng)數(shù)據(jù)分組中的序列號(hào)發(fā)送應(yīng)答信號(hào)(ACK)和無(wú)應(yīng)答信號(hào)(NAK)的至少一種;以及 經(jīng)由重傳緩沖器重發(fā)數(shù)據(jù)分組,該重傳緩沖器的大小由以下的至少一種決定:單條數(shù)據(jù)鏈路的長(zhǎng)度、單條數(shù)據(jù)鏈路的數(shù)據(jù)速率、發(fā)送器或接收器的任一上的ACK和NAK處理時(shí)間的至少一種、和發(fā)送和接收數(shù)據(jù)分組的閾值時(shí)間的至少一種。
2.如權(quán)利要求1所述的方法,進(jìn)一步包含在FCoCEE網(wǎng)絡(luò)的物理層上操作該重傳緩沖器。
3.如權(quán)利要求1所述的方法,進(jìn)一步包含經(jīng)由該發(fā)送器修改數(shù)據(jù)分組的以太網(wǎng)類型字段,因此每個(gè)數(shù)據(jù)分組包含序列號(hào)。
4.如權(quán)利要求1所述的方法,進(jìn)一步包含經(jīng)由定界符指示附加的可靠鏈路層序列號(hào)字節(jié),以及如果啟用可靠鏈路層,則將順序分組序列號(hào)一起分組成以下的至少一種:共同業(yè)務(wù)類別、和這種幀類型和這種ACK類型的至少一種的給定優(yōu)先級(jí)。
5.如權(quán)利要求1所述的方法,進(jìn)一步包含以下的至少一種:根據(jù)該接收器進(jìn)行的序列號(hào)比較核實(shí)和發(fā)送ACK和NAK的至少一種。
6.如權(quán)利要求1所述的方法,進(jìn)一步包含以下的至少一種:經(jīng)由該重傳緩沖器重發(fā)未應(yīng)答的數(shù)據(jù)分組,和發(fā)送器由于數(shù)據(jù)鏈路故障和數(shù)據(jù)鏈路恢復(fù)的至少一種而清除該重傳緩沖器和刷新序列號(hào)。
7.一種包含適合執(zhí)行按照前面任何一項(xiàng)方法權(quán)利要求所述的方法的所有步驟的裝置的系統(tǒng)。
8.一種包含指令的計(jì)算機(jī)程序,當(dāng)在計(jì)算機(jī)系統(tǒng)上執(zhí)行所述計(jì)算機(jī)程序時(shí),所述指令執(zhí)行按照前面任何一項(xiàng)方法權(quán)利要求所述的方法的所有步驟。
【文檔編號(hào)】H04L12/70GK103959722SQ201280056884
【公開(kāi)日】2014年7月30日 申請(qǐng)日期:2012年11月1日 優(yōu)先權(quán)日:2011年11月17日
【發(fā)明者】C.德卡薩蒂斯, T.格里格, R.克里什納穆西 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司