存儲(chǔ)系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及存儲(chǔ)技術(shù)領(lǐng)域,尤其涉及一種存儲(chǔ)系統(tǒng)。
【背景技術(shù)】
[0002]不同的應(yīng)用對(duì)存儲(chǔ)資源的容量、帶寬、每秒進(jìn)行讀寫操作的次數(shù)(Input/outputPer Second,10PS)及可靠性有不同的需求,這給存儲(chǔ)系統(tǒng)的設(shè)計(jì)帶來了挑戰(zhàn)。目前的存儲(chǔ)系統(tǒng)通常有以下幾種實(shí)現(xiàn)方案:本地存儲(chǔ),磁盤陣列+全閃存陣列,混合磁盤陣列。其中,本地存儲(chǔ)是在服務(wù)器本地配備存儲(chǔ)資源,但是由于不同磁盤的尺寸、形態(tài)、接口各異,需要針對(duì)不同應(yīng)用設(shè)計(jì)不同的存儲(chǔ)系統(tǒng),可擴(kuò)展性差,無法池化共享。磁盤陣列+全閃存陣列以及混合磁盤陣列方案中,需要經(jīng)過映射或抽象,并在前端以互聯(lián)網(wǎng)協(xié)議(Internet Protocol,IP)存儲(chǔ)區(qū)域網(wǎng)絡(luò)(Storage Area Network, SAN)或者網(wǎng)狀通道(Fibre Channel,F(xiàn)C) SAN形式對(duì)外提供存儲(chǔ)資源,在靈活性、帶寬及成本等方面都存在不足。
【發(fā)明內(nèi)容】
[0003]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0004]為此,本發(fā)明的一個(gè)目的在于提出一種存儲(chǔ)系統(tǒng),該系統(tǒng)可以提高靈活性,提高存儲(chǔ)資源的訪問速度,并降低成本。
[0005]為達(dá)到上述目的,本發(fā)明實(shí)施例提出的存儲(chǔ)系統(tǒng),包括:計(jì)算資源節(jié)點(diǎn)、存儲(chǔ)資源節(jié)點(diǎn)和PCIe網(wǎng)絡(luò);其中,所述計(jì)算資源節(jié)點(diǎn)和所述存儲(chǔ)資源節(jié)點(diǎn)在物理上分離設(shè)置,分別連接到所述PCIe網(wǎng)絡(luò)上,以及,所述PCIe網(wǎng)絡(luò)與所述計(jì)算資源節(jié)點(diǎn)和所述存儲(chǔ)資源節(jié)點(diǎn)在物理上分離設(shè)置,且,所述計(jì)算資源節(jié)點(diǎn),所述存儲(chǔ)資源節(jié)點(diǎn)和所述PCIe網(wǎng)絡(luò)都是可擴(kuò)展的。
[0006]本發(fā)明實(shí)施例提出的存儲(chǔ)系統(tǒng),通過將計(jì)算資源節(jié)點(diǎn)和存儲(chǔ)資源節(jié)點(diǎn)物理分離,二者通過獨(dú)立設(shè)置的PCIe網(wǎng)絡(luò)互聯(lián),且這些組成部分是可擴(kuò)展的,可以提高靈活性;直接通過PCIe網(wǎng)絡(luò)將存儲(chǔ)資源節(jié)點(diǎn)分配給計(jì)算資源節(jié)點(diǎn),可以提高存儲(chǔ)資源的訪問速度,并降低成本
[0007]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0008]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0009]圖1是本發(fā)明一實(shí)施例提出的存儲(chǔ)系統(tǒng)的結(jié)構(gòu)示意圖;
[0010]圖2是本發(fā)明實(shí)施例中一種PCIe網(wǎng)絡(luò)的示意圖;
[0011]圖3是本發(fā)明實(shí)施例中另一種PCIe網(wǎng)絡(luò)的示意圖;
[0012]圖4是本發(fā)明另一實(shí)施例提出的存儲(chǔ)系統(tǒng)的結(jié)構(gòu)不意圖;
[0013]圖5是本發(fā)明實(shí)施例中一種資源分配的示意圖;
[0014]圖6是本發(fā)明實(shí)施例中另一種資源分配的示意圖;
[0015]圖7是本發(fā)明實(shí)施例中另一種資源分配的示意圖;
[0016]圖8是本發(fā)明實(shí)施例中另一種資源分配的示意圖;
[0017]圖9是本發(fā)明實(shí)施例中另一種資源分配的示意圖;
[0018]圖10是本發(fā)明實(shí)施例中另一種資源分配的示意圖。
【具體實(shí)施方式】
[0019]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。相反,本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0020]圖1是本發(fā)明一實(shí)施例提出的存儲(chǔ)系統(tǒng)的結(jié)構(gòu)示意圖,該存儲(chǔ)系統(tǒng)包括:
[0021]計(jì)算資源節(jié)點(diǎn)11、存儲(chǔ)資源節(jié)點(diǎn)12和PCIe網(wǎng)絡(luò)13 ;PCIe是PC1-express的簡稱,PCI 是外設(shè)部件互連標(biāo)準(zhǔn)(Peripheral Component Interconnect, PCI)。
[0022]其中,所述計(jì)算資源節(jié)點(diǎn)11和所述存儲(chǔ)資源節(jié)點(diǎn)12在物理上分離設(shè)置,分別連接到所述PCIe網(wǎng)絡(luò)13上,以及,所述PCIe網(wǎng)絡(luò)與所述計(jì)算資源節(jié)點(diǎn)和所述存儲(chǔ)資源節(jié)點(diǎn)在物理上分離設(shè)置,且,所述計(jì)算資源節(jié)點(diǎn),所述存儲(chǔ)資源節(jié)點(diǎn)和所述PCIe網(wǎng)絡(luò)都是可擴(kuò)展的。
[0023]計(jì)算資源節(jié)點(diǎn)的個(gè)數(shù)可以是一個(gè)或者多個(gè),存儲(chǔ)資源節(jié)點(diǎn)的個(gè)數(shù)可以是一個(gè)或者多個(gè)。計(jì)算資源節(jié)點(diǎn)可以具體是PCIe主機(jī)(PCIe Host) ο
[0024]傳統(tǒng)的本地存儲(chǔ)方案中,通常將將中央處理器(Central Processing Unit,CPU),機(jī)械硬盤(Hard Disk Drive,HDD),固態(tài)硬盤(Solid State Disk, SSD)等集中在單一的物理機(jī)箱中,其無法靈活擴(kuò)展變更以滿足不同的應(yīng)用需求。
[0025]本實(shí)施例中,通過將計(jì)算資源節(jié)點(diǎn)和存儲(chǔ)資源節(jié)點(diǎn)物理分離,二者通過PCIe網(wǎng)絡(luò)互聯(lián),由于計(jì)算資源節(jié)點(diǎn),存儲(chǔ)資源節(jié)點(diǎn),PCIe網(wǎng)絡(luò)是相互獨(dú)立且可擴(kuò)展的,可以提高靈活性。
[0026]傳統(tǒng)的磁盤陣列+全閃存陣列或者混合磁盤陣列,其后端連接SAS、SATA接口的HDD和SSD,以及PCIe接口的SSD,經(jīng)過抽象后,對(duì)外提供邏輯磁盤的訪問服務(wù)。前端接口一般為IP SAN或者FC SAN,出口帶寬有限,不能充分發(fā)揮SSD的高性能。IP SAN網(wǎng)絡(luò)延時(shí)較高,而FC SAN成本較高。
[0027]本實(shí)施例中,直接通過PCIe網(wǎng)絡(luò)將存儲(chǔ)資源節(jié)點(diǎn)分配給計(jì)算資源節(jié)點(diǎn),中間沒有額外的存儲(chǔ)協(xié)議轉(zhuǎn)換開銷,且互聯(lián)帶寬非常高,可以降低網(wǎng)絡(luò)延時(shí),從而實(shí)現(xiàn)存儲(chǔ)資源的高速訪問,并且可以降低成本。另外,直接將存儲(chǔ)資源暴露給計(jì)算資源,更易于與現(xiàn)有的分布式存儲(chǔ)系統(tǒng)融合集成。計(jì)算資源節(jié)點(diǎn)可根據(jù)自身需求來靈活使用存儲(chǔ)資源節(jié)點(diǎn),更高效的利用存儲(chǔ)資源。如將部分存儲(chǔ)資源作為主存儲(chǔ)資源,另外部分SSD作為緩存(cache),并可根據(jù)自身需求來定義cache策略,真正實(shí)現(xiàn)軟件定義的存儲(chǔ)系統(tǒng)。
[0028]另一實(shí)施例中,所述PCIe網(wǎng)絡(luò)包括:
[0029]第一級(jí)PCIe交換機(jī),所述第一級(jí)PCIe交換機(jī)包括:至少一個(gè)PCIe交換芯片和一個(gè)管理模塊。
[0030]可選的,所述PCIe網(wǎng)絡(luò)還包括:
[0031]至少一個(gè)的其他級(jí)PCIe交換機(jī),所述其他級(jí)PCIe交換機(jī)包括:至少一個(gè)PCIe交換芯片;
[0032]所述其他級(jí)PCIe交換機(jī)與所述管理模塊連接;以及,
[0033]所述其他級(jí)PCIe交換機(jī)內(nèi)的PCIe交換芯片與所述第一級(jí)PCIe交換機(jī)內(nèi)的PCIe交換芯片連接,和/或,不同的其他級(jí)PCIe交換機(jī)內(nèi)的PCIe交換芯片互相連接。
[0034]本實(shí)施例,PCIe網(wǎng)絡(luò)可由一級(jí)或多級(jí)PCIe交換機(jī)按照一定的拓?fù)潢P(guān)系連接組成。
[0035]例如,參見圖2,第一級(jí)PCIe交換機(jī)可以稱為PCIe TOR,PCIe TOR內(nèi)可以包括多個(gè)PCIe交換芯片(用PCIeX表示)以及一個(gè)管理模塊(用Mgmt CPU表示)。PCIeX具有PCIe交換能力,能夠交換計(jì)算資源節(jié)點(diǎn)與存儲(chǔ)資源節(jié)點(diǎn)之間傳輸?shù)臄?shù)據(jù),Mgmt CPU負(fù)責(zé)PCIe網(wǎng)絡(luò)的配置管理。
[0036]又例如,參見圖3,PCIe網(wǎng)絡(luò)中還可以包括多級(jí)PCIe交換機(jī)。在多級(jí)PCIe交換機(jī)場景下,PCIe網(wǎng)絡(luò)內(nèi)也僅存在一個(gè)Mgmt CPU。Mgmt CPU可以連接到不同級(jí)的PCIe交換機(jī)內(nèi)的PCIe交換芯片上。
[0037]本實(shí)施例中,通過采用一級(jí)或多級(jí)PCIe交換機(jī)構(gòu)建PCIe網(wǎng)絡(luò),可以根據(jù)業(yè)務(wù)的不同需求靈活構(gòu)建不同的PCIe網(wǎng)絡(luò)。
[0038]另一實(shí)施例中,所述存儲(chǔ)資源節(jié)點(diǎn)包括:
[0039]磁盤,所述磁盤具有的接口包括如下項(xiàng)中的至少一項(xiàng):串聯(lián)連接SCSI(SerialAttached SCSI,SAS),串聯(lián)增強(qiáng)技術(shù)連接(Serial Advanced Technology Attachment,SATA),PCIe ;其中,SCSI 是小型計(jì)算機(jī)系統(tǒng)接口 (Small Computer System Interface) o
[0040]存儲(chǔ)控制器,一端連接所述PCIe網(wǎng)絡(luò),另一端連接所述磁盤。
[0041]其中,當(dāng)磁盤的接口是SAS或SATA時(shí),磁盤的形態(tài)可以具體是機(jī)械硬盤