專利名稱::表示n-連接的聚糖結(jié)構(gòu)的系統(tǒng)和方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及描述能夠被計算機(jī)簡單存儲和翻譯的聚糖結(jié)構(gòu)的系統(tǒng)。
背景技術(shù):
:聚糖是寡糖的復(fù)合鏈,其在細(xì)胞的若干種結(jié)構(gòu)和調(diào)節(jié)功能中起到關(guān)鍵的作用。雖然聚糖被認(rèn)為是繼DNA和蛋白質(zhì)之后最重要的分子類型之一,但支持和促進(jìn)其研究的信息學(xué)方法的發(fā)展已經(jīng)落后于現(xiàn)有的其他類型數(shù)據(jù)。只是在近些年,信息學(xué)資源的可利用度才有所提高,如用于分析聚糖結(jié)構(gòu)和它們的相互作用的聚糖數(shù)據(jù)庫和算法(P6rezS,MulloyB(2005)"Prospectsforglycoinformatics.,,CurrOpinStructBiol15:517-524"("P6rezetal.")。這種差距主要是由于,與DNA和蛋白質(zhì)較為簡單的線性結(jié)構(gòu)相比,糖類的結(jié)構(gòu)復(fù)雜。核苷酸和氨基酸殘基可分別由4個或20個字母表示,而聚糖序列由大量的基本殘基組成,并且包含連接和分支的附加信息(vonderLiethCW(2004)"Anendorsementtocreateopendatabasesforanalyticaldataofcomplexcarbohydrates.,,JCarbohydrChem23:277-297("vonderLiethI,,)山aineRA(1994)"Acalculationofallpossibleoligosaccharideisomersbothbranchedandlinearyields1.05x10(12)structuresforareducinghexasaccharide:theIsomerBarriertodevelopmentofsingle—methodsaccharidesequencingorsynthesissystems."Glycobiology6:759-767)。因此,若干個研究項目都遭遇到了缺乏能夠提供其他研究人員自由使用的并且在不同應(yīng)用中可共同使用的聚糖資料的適合數(shù)字格式的問題(vonderLiethCW,Bohne-LangA,Lohma皿KK,F(xiàn)rankM(2004)"Bioinformaticsforglycomics:status,methods,requirementsandperspectives."BriefBioinform5:164-178)。因此,開發(fā)容易被科學(xué)家們理解且是計算機(jī)可讀的簡單、靈活和多元的表示聚糖結(jié)構(gòu)的數(shù)字格式是必要的(BrazmaA,KrestyaninovaM,SarkansU(2006)"Standardsforsystemsbiology."NatRevGenet7:593-605.)。目前有若干種可用的描述聚糖結(jié)構(gòu)的系統(tǒng)命名法,圖la-圖ld示出了其中的一些。IUPAC-IUBMB(國際純粹和應(yīng)用化學(xué)聯(lián)盟和國際生物化學(xué)與分子生物學(xué)聯(lián)盟)提供了完整描述聚糖結(jié)構(gòu)的擴(kuò)充文本或縮寫文本格式(McNaughtAD(1997)"Nomenclatureofcarbohydrates,,(recommendations1996).AdvCarbohydrChemBiochem52:43-177)。縮寫的三字母編碼表示獨立的單糖單位,每個單位伴隨一個端基異構(gòu)體描述符、以及立體化學(xué)信息和連接信息。但是,IUPAC的描述是含混不清的,不能以計算機(jī)可讀的格式充分概括性地描述所有的聚糖。為了克服該局限,開發(fā)了LINUCS(糖序列獨特描述的線性標(biāo)記法,LinearNotationforUniquedescriptionofCarbohydrateSequences)從而5通過根據(jù)配糖連接信息來擴(kuò)展的IUPAC的描述來產(chǎn)生聚糖的線性表示(Bohne-LangA,LangE,F(xiàn)orsterT,vonderLiethCW(2001)"UNUCS:linearnotationforuniquedescriptionofcarbohydratesequences.,,CarbohydrRes336:1—11)。另——禾中可用的格式是Glycominds'LinearCode,其開發(fā)了用于確定分支級別的具體查詢表(BaninE,NeubergerY,AltshulerY,HaleviA,Inbar0,NirD,DuklerA(2002)"Anovellinearcodenomenclatureforcomplexcarbohydrates.,,TrendsGlycosciGlycotechnol14:127-137)。在這種表示形式中,單糖單元和連接可以由l至2個字母表示。最近,作為數(shù)據(jù)描述語言的XML逐漸普及,這也使得提出了基于XML來表示聚糖結(jié)構(gòu),如GLYDE(SahooSS,ThomasC,ShethA,HensonC,YorkWS(2005)"GLYDE-anexpressiveXMLstandardfortherepresentationofglycanstructure.,,CarbohydrRes340:2802-2807)禾口CabosML(KikuchiN,KameyamaA,NakayaS,ItoH,SatoT,ShikanaiT,TakahashiY,NarimatsuH(2005)"Thecarbohydratesequencemarkuplanguage(CabosML):anXMLdescriptionofcarbohydratestructures.,,Bioinformatics21:1717-1718)。還存在其他可用于描述聚糖結(jié)構(gòu)的格式,它們已經(jīng)在別處進(jìn)行了綜述(P6rezetal;vonderLeithI;ToukachP,JoshiHJ,RanzingerR,KnirelY,vonderLiethCW(2007)"Sharingofworldwidedistributedcarbohydrate-relateddigitalresources:onlineco皿ectionofthebacterialcarbohydratestructuredatabaseandGLYCOSCIENCES.de."NucleicAcidsRes35掘0_286)。哺乳動物細(xì)胞系用于產(chǎn)生重組蛋白是理想的,其需要例如糖基化的翻譯后修飾。因為糖基化對諸如折疊、穩(wěn)定性和效力之類的多種生物學(xué)特性有影響,所分泌的蛋白的質(zhì)量取決于連接的聚糖結(jié)構(gòu)的一致性。因此,致力于研究復(fù)雜的糖基化反應(yīng)途徑從而控制蛋白質(zhì)糖基化的多樣性是非?;钴S的研究領(lǐng)域。本發(fā)明涉及針對這些和其他問題的解決方法。
發(fā)明內(nèi)容因此,本發(fā)明的基本目的是提供容易被計算機(jī)存儲和翻譯的描述聚糖結(jié)構(gòu)的緊湊記法(compactnotation)。本發(fā)明的另一個目的是提供聚糖結(jié)構(gòu)的簡化字母數(shù)字表示法,其能夠促進(jìn)計算機(jī)輔助分析工具的發(fā)展從而研究這些復(fù)雜途徑。本發(fā)明的另一個目的是提供能夠代替文本表示對聚糖結(jié)構(gòu)的簡化字母數(shù)字表示法。本發(fā)明的另一個目的是提供表示至少部分寡糖的結(jié)構(gòu)的方法。本發(fā)明的這些和其目的是通過用于描述N-連接聚糖結(jié)構(gòu)(其通常在如中華倉鼠卵巢細(xì)胞(CH0)之類的工程哺乳動物細(xì)胞系分泌的糖蛋白中發(fā)現(xiàn))的字母-數(shù)字編碼來實現(xiàn)的,其在后文中被稱為"GlycoDigit編碼(GlycoDigitcode)"。在本發(fā)明的一個方面,使用6個字符的字母-數(shù)字編碼來描述基于連接至核心結(jié)構(gòu)的不同分支的單糖鏈的聚糖結(jié)構(gòu)。在本發(fā)明的另一個方面,GlycoDigit編碼中的結(jié)構(gòu)由7位數(shù)字-字母對表示14個字符的固定全長。字母-數(shù)字編碼的數(shù)字組成可以發(fā)展差分算子和算法,從而方便進(jìn)行基于每種結(jié)構(gòu)的獨有的字母-數(shù)字編碼的聚糖的比較。所屬領(lǐng)域的技術(shù)人員在閱讀包括附圖的本說明書時能夠明白本發(fā)明的其他目標(biāo)、特性和優(yōu)勢。通過閱讀以下的優(yōu)選實施方式的詳細(xì)描述通過參考附圖,可以更好地理解本發(fā)明,其中全文中相似的參考數(shù)字表示相似的元素,其中圖la是N-連接聚糖結(jié)構(gòu)的字符表示,其使用牛津大學(xué)糖生物研究所(英國)提出的系統(tǒng)命名法的字符來繪圖表示結(jié)構(gòu)。圖lb是圖1A的N-連接聚糖結(jié)構(gòu)的全文字表示。圖lc是使用LINUCS格式的圖lA的N-連接聚糖結(jié)構(gòu)的表示。圖Id是使用LinearCode的圖1A的N_連接聚糖結(jié)構(gòu)的表示。圖2描述了所有的共用一個共同的五糖核心結(jié)構(gòu)的N-連接聚糖共有的五糖核心結(jié)構(gòu),以及其他的糖分支可連接的可能位點。圖3示出了圖2的核心結(jié)構(gòu)的可能分支,和對于本發(fā)明的GlycoDigit編碼的第一種實施方式的6字符的字母_數(shù)字編碼,鏈的每個數(shù)字的對應(yīng)位置。圖4a是復(fù)合型N-連接聚糖的繪圖表示和其使用本發(fā)明的GlycoDigit編碼的第一種實施方式的對應(yīng)的表示。圖4b是高甘露糖型N-連接聚糖的繪圖表示和其使用本發(fā)明的GlycoDigit編碼的第一種實施方式的對應(yīng)的表示。圖4c是雜合型N-連接聚糖的繪圖表示和其使用本發(fā)明的GlycoDigit編碼的第一種實施方式的對應(yīng)的表示。圖5a是復(fù)合型N-連接聚糖的繪圖表示和其使用本發(fā)明的GlycoDigit編碼的第二種實施方式的對應(yīng)的表示。圖5b是高甘露糖型N-連接聚糖的繪圖表示和其使用本發(fā)明的GlycoDigit編碼的第二種實施方式的對應(yīng)的表示。圖5c是雜合型N-連接聚糖的繪圖表示和其使用本發(fā)明的GlycoDigit編碼的第二種實施方式的對應(yīng)的表示。圖6a_圖6f示出了圖6a中表示的復(fù)合型結(jié)構(gòu)對應(yīng)的GlycoDigit編碼的分步表示,使用了本發(fā)明的GlycoDigit編碼的第二種實施方式。圖7顯示了使用差分算子來發(fā)現(xiàn)兩種聚糖之間的結(jié)構(gòu)差異,使用其對應(yīng)于本發(fā)明第一種實施方式的GlycoDigit編碼。圖8顯示了使用差分算子來發(fā)現(xiàn)復(fù)合型聚糖結(jié)構(gòu)和雜合型N-連接聚糖結(jié)構(gòu)之間的結(jié)構(gòu)差異,使用它們對應(yīng)于本發(fā)明第一種實施方式的GlycoDigit編碼。圖9顯示了兩種聚糖和從一種結(jié)構(gòu)轉(zhuǎn)化為另一種所需的反應(yīng)步驟,使用本發(fā)明的GlycoDigit編碼的第一種實施方式。圖10顯示了用于填入聚糖反應(yīng)的鄰接矩陣的isrxn和rxm矩陣函數(shù)的偽代碼。圖11a是可視化的64個二分支聚糖的整理后數(shù)據(jù)集的聚糖和反應(yīng)連接的網(wǎng)狀系統(tǒng),其被設(shè)計為分級的方式。圖llb是圖lla中指定區(qū)域llb的放大圖。圖12a是可視化的1024個通常在CH0細(xì)胞中分泌的復(fù)合型聚糖的完整糖基化網(wǎng)狀系統(tǒng),其被設(shè)計為分級的方式。圖12b是圖12a中指定區(qū)域12b的放大。圖12c是圖12a中指定區(qū)域12c的放大。圖13是圖la、圖2、圖3、圖4a-圖4c、圖5a-圖5f、圖6a-圖6f、圖7、圖8和圖9中使用的字符的示意。具體實施例方式在描述附圖所示的本發(fā)明的優(yōu)選實施方式中,基于清楚說明的目的使用了特定的術(shù)語。但是,不希望本發(fā)明被限定于如此選擇的特定術(shù)語,應(yīng)理解每個特定元素包括所有以相似方式作用從而達(dá)到相似目的的技術(shù)等效物。方法本發(fā)明的一個方面是表示至少部分寡糖的結(jié)構(gòu)的方法。優(yōu)選地,該表示法是被計算機(jī)容易儲存和分析的。如下所述,本發(fā)明的方法可以被應(yīng)用于產(chǎn)生本文所述的特定"GlycoDigit"編碼,但是應(yīng)認(rèn)識到它還可以用于產(chǎn)生寡糖結(jié)構(gòu)的不同表示。本發(fā)明的方法的第一部分包括表示系統(tǒng)的產(chǎn)生,包含以下步驟(a)選擇基礎(chǔ)寡糖結(jié)構(gòu);(b)確定步驟(a)中選擇的基礎(chǔ)結(jié)構(gòu)上的可能的取代點的數(shù)目,并且給每個取代點分配位置;(c)為步驟(b)的取代點分配二字符編碼,其中"字符"表示任何唯一的標(biāo)識符,該二字符編碼具有第一字符和第二字符;(d)為二字符中的第一字符分配一個或多個唯一的標(biāo)識符,為二字符的第二字符分配一個或多個唯一的標(biāo)識符,從而第一字符和第二字符一起唯一地識別了步驟(b)中識別的特定取代點上的殘基;禾口(e)對每個取代點重復(fù)步驟(d),從而步驟(b)中識別的每個取代點具有一組二字符編碼,其識別該取代點可能的殘基。在步驟(a)中,選擇基礎(chǔ)寡糖結(jié)構(gòu)。優(yōu)選地,該基礎(chǔ)結(jié)構(gòu)存在于許多感興趣寡糖結(jié)構(gòu)中。該基礎(chǔ)結(jié)構(gòu)"越大"(即,感興趣的寡糖中的共有結(jié)構(gòu)特征的數(shù)目越大),所需的表示系統(tǒng)就越簡單。在步驟(b)中,識別了基本結(jié)構(gòu)上的每個可能的取代點。通常,給每個取代點分配一個數(shù)字,從l至x,其對應(yīng)于最終結(jié)構(gòu)表示中的位置。取代點的數(shù)目越大,該方法可表示的結(jié)構(gòu)就越復(fù)雜。在步驟(c)中,選擇了二字符編碼,其中"字符"表示任何唯一的標(biāo)識符。通常,一個字符是數(shù)字且一個是字母,但是兩個都可以是數(shù)字或字母。也可使用非羅馬字母表,例如俄語、希臘語、希伯來語等。在步驟(d)中,分配步驟(c)中選擇的字符的意義。在下文中詳細(xì)討論其對于GlycoDigit編碼的實施例,但是可以使用任何系統(tǒng)。每個二字符組的意義的組合用于特異性地限定在每個預(yù)先選擇的取代點存在的殘基。重要的是,應(yīng)注意,標(biāo)識符未必能夠確定特定取代點的每個單獨的可能殘基,只要涵蓋所有感興趣的殘基即可。在步驟(e)中,對于步驟(b)中識別的每個取代點重復(fù)步驟(d)。所要求保護(hù)的方法的第二部分包括將以上開發(fā)的系統(tǒng)應(yīng)用于特定的寡糖(f)檢查包含步驟(a)中選擇的基礎(chǔ)寡糖結(jié)構(gòu)和可選的一個或多個該基礎(chǔ)結(jié)構(gòu)上的殘基的寡糖結(jié)構(gòu)的結(jié)構(gòu);禾口(g)為步驟(f)的寡糖結(jié)構(gòu)上的殘基分配二字符編碼從而與步驟(d)和(e)中發(fā)展的二字符編碼相匹配,并且將它們記錄在步驟(b)中分配的位置。所屬領(lǐng)域的技術(shù)人員會明白通過使用該方法可以應(yīng)用下文中詳細(xì)描述的GlycoDigit編碼。N-連接的聚糖結(jié)構(gòu)N-連接糖基化發(fā)生在所有帶有N-連接聚糖的真核細(xì)胞中,共用圖2中描繪的共有的五糖核心結(jié)構(gòu)。數(shù)個單糖鏈可以以不同的連接位置通過不同的糖基轉(zhuǎn)移酶的作用連接到該核心結(jié)構(gòu)。N-連接聚糖結(jié)構(gòu)可以為高甘露糖、復(fù)合或雜合亞型。高甘露糖型N-連接聚糖只包含連接至核心結(jié)構(gòu)的甘露糖(Man)殘基,而復(fù)合型N-連接聚糖具有連接至核心的N-乙酰葡糖胺(GlcNAc)殘基。雜合亞型包含GlcNAc和未取代的甘露糖殘基的分支(VarkiA等.(eds)(1999)Essentialsofglycobiology.NewYork(USA):ColdSpringHarborLaboratoryPress("Varki等,,)。在本發(fā)明的第一種實施方式中,如圖4a-4圖c所示,六字符字母-數(shù)字編碼用于描述圖2所示的基于連接至核心結(jié)構(gòu)的不同分支的單糖鏈的聚糖結(jié)構(gòu)。開始的四個字母對應(yīng)于連接到上部和下部的核心甘露糖殘基的四個可能的鏈,而第五和第六個字母各自分別表示平分型GlcNAc和海藻糖基團(tuán)。圖3顯示了核心結(jié)構(gòu)的可能的分支,還有鏈的每個字母的對應(yīng)位置。如果分支是復(fù)合型的,開始的四個分支由奇數(shù)表示,而高甘露糖型分支由字母表示。末端為GlcNAc、半乳糖或神經(jīng)氨酸殘基的復(fù)合分支分別由數(shù)字3、5、7表示。雜合型和高甘露糖型N-連接聚糖的甘露糖殘基由字母A-F表示,每個字母被指定為偶數(shù),即A=2,B=4,C=6等。對于每個分支,字母值對應(yīng)于連接到該分支的甘露糖殘基數(shù)目的二倍,即A=2表示連接了一個甘露糖殘基,B=4表示連接了兩個甘露糖殘基等。如果分別存在平分型GlcNAc和海藻糖殘基,第五和第六個字符具有的值為3。如果不存在分支,其對應(yīng)數(shù)字是1。定義了其他的規(guī)則,其限定了可連接到結(jié)構(gòu)的甘露糖殘基的數(shù)目,并且其允許了哪種復(fù)合型和高甘露糖型分支的組合。通過這些定義,GlycoDigit編碼可被用于描述5100種聚糖的結(jié)構(gòu)。糖基轉(zhuǎn)移酶是依次地每次給聚糖結(jié)構(gòu)增加一個單糖的酶。六個GlcNAc轉(zhuǎn)移酶(GlcNAcTI-VI)可將GlcNAc以不同的連接添加到三個核心甘露糖。如圖2所示,在a1-3連接的核心甘露糖上,GlcNAcTI和IV分別以131-2和131-4連接添加殘基。與此相似,在a1-6連接的核心甘露糖上,GlcNAcTII、V和VI分別添加以P1-2、P1-6禾PP1-4連接的殘基。此外。一個平分型GlcNAc可通過13l-4連接到中心核心甘露糖上(CampbellC,StanleyP(1984)"AdominantmutationtoricinresistanceinChinesehamsterovarycellsinducesUDP—GlcNAc:glycop印tidebeta_4_N_acetylglucosaminyltransferaseinactivity."JBiolChem259:13370-13378;SburlatiAR,UmanaP,PratiEG,BaileyJE(1998)"SynthesisofbisectedglycoformsofrecombinantlFN—betabyover—expressionofbeta—l,4_N_acetylglucosaminyltransferaseIIIinChinesehamsterovarycells.,,BiotechnolProg14:189-192("Sburlatietal,,);UmanaP,Jean-MairetJ,MoudryR,AmstutzH,BaileyJE(1999)"EngineeredglycoformsofanantineuroblastomaIgGlwithoptimizedantibody—d印endentcellularcytotoxicactivity."NatBiotechno117:176-180("Umana等"))。最后,海藻糖殘基可以a1-6連接到核心GlcNAc,其與蛋白質(zhì)上的天冬酰胺氨基酸連接(Varki等)?;谶@些七種可能的間接位點,本發(fā)明的第二種實施方式,如圖5a_圖5c所示,GlycoDigit編碼使用七個數(shù)字_字母對來表示聚糖結(jié)構(gòu)。GlycoDigit編碼的第二種實施方式的每個數(shù)字_字母對應(yīng)于從圖2所顯示的核心結(jié)構(gòu)連接的分支。開始的六個數(shù)字_字母對對應(yīng)于連接至上部和下部核心甘露糖殘基的六個可能的分支。通過第六個數(shù)字_字母對表示甘露糖之間的平分型GlcNAc,最后的第七個位置對應(yīng)于可連接到核心或邊緣GlcNAc殘基的海藻糖分子。每個對的數(shù)字部分對應(yīng)于連接該分支的單糖的數(shù)目,而字母充當(dāng)包含關(guān)于連接類型和添加的特定糖分子的附加信息的表的索引。表1列出了在GlycoDigit編碼的第二種實施方式中每個數(shù)字_字母對對應(yīng)于哪個連接。可通過使用開始的四個數(shù)字-字母對對應(yīng)于連接到圖2所示的核心結(jié)構(gòu)中的兩個甘露糖殘基中的每個的a1-2、al-3和a1-6連接的甘露糖鏈來表示高甘露糖型和雜合型結(jié)構(gòu)。為了區(qū)別復(fù)合型和高甘露糖型分支,通過字母代替數(shù)字來表示甘露糖殘基的數(shù)目。因此,含有一個GlcNAc分子的分支可以'la'表示,而含有一個甘露糖殘基的分支可以'Aa'表示。更高的字母對應(yīng)于分支中甘露糖的更高數(shù)量,即B=2,C=3,D=4等。如果沒有聚糖以特定的分支連接,則其被表示為'0x'。字母'u'被預(yù)留表示以未知連接的單糖。因為第六個數(shù)字_字母對表示平分型GlcNAc,只有兩個可能的值根據(jù)是否連接分子為'Ox'或'la'。最后的數(shù)字-字母對用于計算連接到核心結(jié)構(gòu)的海藻糖殘基或連接到分支GlcNAc分子的任何邊緣海藻糖的數(shù)目。更多關(guān)于可加入到結(jié)構(gòu)的聚糖的類型的細(xì)節(jié)會在下文中進(jìn)行描述。表l.GlycoDigit編碼的七個凄t字-字母對中每個對應(yīng)的連4妻和目標(biāo)位置<table>tableseeoriginaldocumentpage10</column></row><table>a通過這些連接到核心結(jié)構(gòu)的GlcNAc、甘露糖或海藻糖殘基GlcNAc、半乳糖和聚乳糖胺鏈在GlcNAc殘基加入到核心結(jié)構(gòu)之后,數(shù)個其他的單糖可依次連接它。半乳糖(Gal)殘基通過Pl-4連接到GlcNAc,則該分支表示為表2列出的'2a'。該GalP1-4GlcNAc結(jié)構(gòu)被稱為乳糖胺單元,額外的乳糖胺單元可通過Pl-3連接到第一結(jié)構(gòu)從而形成聚乳糖胺鏈。GlycoDigit編碼的第二種實施方式允許在一個單獨分支中存在的乳糖胺單元達(dá)到四個。雖然第一GlcNAc和半乳糖部分可以被獨立添加,其后的增加被限制于它們必須以單獨的乳糖胺單元一起被添加。這個事實反映在表2中,其中對于只有乳糖胺單元的分支分配的數(shù)字?jǐn)?shù)值是偶數(shù)。因此,具有兩個乳糖胺單元的分支被表示為'4a';三個單元為'6a'等。半乳糖還可以通過Pl-3連接到GlcNAc從而形成新型乳糖胺單元(Varki等)。GlycoDigit編碼不允許重復(fù)的新型乳糖胺單元,第一單元可以表示為'2b',如表2列出。最外部的半乳糖可具有如海藻糖或唾液酸的最終的單糖連接它。表2.GlcNAc和半乳糖鏈的不同組合的數(shù)字-字母值數(shù)字<table>tableseeoriginaldocumentpage11</column></row><table>末端殘基分支最外端的半乳糖殘基可以被添加幾個末端單糖。因為偶數(shù)被用于表示半乳糖單元的存在,在GlycoDigit編碼的第二種實施方式中,奇數(shù)(3、5、7和9)用于表示不同的末端糖。表3列出了可以以數(shù)種不同的連接位置添加到最外部半乳糖的單糖。末端唾液酸、海藻糖和半乳糖的不同組合的與F母值<table>tableseeoriginaldocumentpage11</column></row><table>根據(jù)加入分支的GlcNAc和半乳糖殘基的數(shù)目,這些情況的數(shù)字?jǐn)?shù)值可為3、5、7或9唾液酸是添加到最外側(cè)半乳糖的最普遍類型的聚糖,通常以a2-3或a2_6連接。雖然唾液酸具有很大多樣性,N-乙酰神經(jīng)氨酸(NeuNAc)和N-羥乙酰神經(jīng)氨酸(NeuGc)是發(fā)現(xiàn)的最普遍的唾液酸。小鼠產(chǎn)生的糖蛋白幾乎只具有NeuGc,而CH0細(xì)胞是大部分的NeuNA和少量NeuGc的混合物(BakerKN,RendallMH,HillsAE,HoareM,F(xiàn)reedmanRB,JamesDC(2001)"MetaboliccontrolofrecombinantproteinN_glycanprocessinginNSOandCHOcells."BiotechnolBioeng73:188-202)NeuGc不存在于人體中而且包含它的糖蛋白對人體實際上是免疫的。(IrieA,KoyamaS,KozutsumiY,KawasakiT,SuzukiA(1998)"ThemolecularbasisfortheabsenceofN_glycolylneuraminicacidinhumans."JBiolChem273:15866-15871)。在表3中,字母"a"至"f"被分配表示以各種連接的NeuNAc和NeuGc。a2_8連接的唾液酸,其連接到a2_3唾液酸,目前不在GlycoDigit編碼的第二種實施方式中表示。其他的可連接到最外部半乳糖的末端殘基是海藻糖(以字母"g"表示)和額外的al-3連接的半乳糖(以字母"h"表示)。在某些血型抗原中,如LewisY和LewisB抗原,發(fā)現(xiàn)以al-2連接到末端半乳糖的海藻糖單元(Varki等)。小鼠細(xì)胞中的al-3半乳糖基轉(zhuǎn)移酶將額外的末端半乳糖殘基連接到Pl-4連接的半乳糖上(ButlerM(2006)"Optimisationofthecellularmetabolismofglycosylationforrecombinantproteinsproducedbymammaliancellsystems.,,Cytotechnology50:57-76)。該Galal_3GalPHGlcNAc結(jié)構(gòu)在人體內(nèi)是產(chǎn)生高度免疫性的(JenkinsN,ParekhRB,JamesDC(1996)"Gettingtheglycosylationright-implicationsforthebiotechnologyindustry.,,NatBiotechnol14:975-981)。海藻糖基化GlycoDigit編碼的第二種實施方式中的最末數(shù)字-字母對用于表示核心GlcNAc和連接到核心結(jié)構(gòu)上的分支中的最外部GlcNAc殘基上的海藻糖基化。海藻糖通過a1-6連接到核心GlcNAc殘基上,而邊緣的海藻糖基化可通過a1-3或a1-4連接來產(chǎn)生(MaB,Simala-Grant幾,TaylorDE(2006)"Fucosylationinprokaryotesandeukaryotes."Glycobiology16:158R-184R)。重要的是,應(yīng)注意,該數(shù)字_字母對只計算了連接到GlcNAc的海藻糖分子,未包括連接到最外部半乳糖的海藻糖,其被包括在表示末端殘基的情況中。最后的數(shù)字_字母對的數(shù)字部分計算連接到結(jié)構(gòu)中的GlcNAc的海藻糖分子,而字母用于表示哪個分支被海藻糖基化并通過哪種連接。為了使編碼盡可能保持簡明,不是所有可能的海藻糖基化位點的組合都表示在GlycoDigit編碼的第二種實施方式中。只有分支中最外端的GlcNAc殘基可以被海藻糖基化。此外,如果超過一個的分支被海藻糖基化,則必須以相同類型的連接所有的海藻糖殘基。因此,具有兩個以al-3連接到外部分支的海藻糖殘基的結(jié)構(gòu)是可能,而具有一個以al-3連接和另外一個以al-4連接的海藻糖是不可能的。表4列出了GlycoDigit編碼的第二種實施方式表示的海藻糖基化的所有的組合。^j4.以GlycoDigit編碼的最末數(shù)字-字母對的數(shù)字和字母數(shù)值,表示核心和邊緣海藻糖基化的不同組合<table>tableseeoriginaldocumentpage13</column></row><table>表4.以GlycoDigit編碼的最末數(shù)字-字母對的數(shù)字和字母數(shù)值,表示核心和邊緣海藻糖基化的不同組合<table>tableseeoriginaldocumentpage14</column></row><table>aC表示海藻糖連-bB顯示哪個分支f妄到核心GlcNAc的最外端GlcNAc被海藻糖基化結(jié)果通過GlycoDigit編碼表示N-連接聚糖GlycoDigit編碼可以用于表示復(fù)合型、高甘露糖型和雜合型N-連接聚糖。圖4a_圖4c描述了不同亞類型的三種不同的N-連接聚糖結(jié)構(gòu)和它們對應(yīng)的使用GlycoDigit編碼的第一種實施方式的表示,圖5a_圖5c描述了三種不同的聚糖結(jié)構(gòu)和它們對應(yīng)的GlycoDigit編碼的第二種實施方式的表示。在圖4a_圖4c和圖5a_圖5c的所有圖中,帶圓圈的數(shù)字表示分支的位置;不帶圓圈的數(shù)字表示每個分支的末端單糖;下劃線的字母-數(shù)字編碼是每種結(jié)構(gòu)的GlycoDigit編碼表示。圖4a_圖4c中的陰影部分是所有N_連接聚糖共有的核心結(jié)構(gòu)。圖4a是具有以下數(shù)字用于編碼的復(fù)合型N-連接聚糖第1個數(shù)字=7:分支末端為NeuNAc(N_乙酰神經(jīng)氨酸)第2個數(shù)字=3:分支末端為GlcNAc(N_乙酰葡糖胺)第3個數(shù)字=5:分支末端為半乳糖第4個數(shù)字=1:不存在分支第5個數(shù)字=1:沒有平分型GlcNAc連接到該分支第6個數(shù)字=3:海藻糖連接到該結(jié)構(gòu)因此圖4a中的結(jié)構(gòu)的最終編碼是(735113)??梢酝ㄟ^查詢表I中的數(shù)字的數(shù)值來推導(dǎo)每個分支中連接的單糖的詳細(xì)的連接信息。圖4b中顯示了高甘露糖型聚糖結(jié)構(gòu)的編碼。每個數(shù)字的數(shù)值是基于連接到每個分支的甘露糖殘基的數(shù)目。重要的是應(yīng)注意該格式可以允許最高9個的甘露糖殘基連接到結(jié)構(gòu)中,因為這是分泌的哺乳動物糖蛋白的情況,如此后所述。圖4b中的結(jié)構(gòu)包含最高可允許的甘露糖的數(shù)目。圖4c中顯示了雜合型聚糖結(jié)構(gòu)和其對應(yīng)的編碼。如方法中所述,四鏈(ante皿ary)N-連接聚糖的分支1和2,分支3和4必須分別是同一類型的,即或者都是甘露糖,或者都是復(fù)合型。例如,具有帶有甘露糖殘基的分支1和帶有GlcNAc殘基的分支2是不可能的。本文描述的規(guī)則不是要涵蓋所有種類的N-連接聚糖結(jié)構(gòu)。已經(jīng)發(fā)現(xiàn)某些脊椎動物的結(jié)構(gòu)具有5個分支,第三分支連接到上部核心甘露糖(Varki等)。在CH0細(xì)胞中,已觀察到了相似的分支存在,但是只是作為糖基化途徑中的中間步驟(ButlerM.2006."Optimisationofthecellularmetabolismofglycosylationforrecombinantproteinsproducedbymammaliancellsystems.,,Cytotechnology,50:57-76)。此夕卜,在其他的種類中觀察到了可能的連接的若干種其他變化(SchachterH,BrockhausenI,HullE.1989."High-performanceliquidchromatographyassaysforN-acetylglucosaminyltransferasesinvolvedinN_and0_glycansynthesis."MethodsEnzymol.,179:351-397)。盡管如此,GlycoDigit編碼充分適用于大多數(shù)一般用于產(chǎn)生重組蛋白的哺乳動物種類。GlycoDigit編碼的第一種實施方式提供了產(chǎn)生所有可能的聚糖結(jié)構(gòu)的簡單方法。對于分支1至4,有10種可能的字母-數(shù)字字符可用于表示分支結(jié)構(gòu)(1、3、5、7、A、B、C、D、E和F),而對于第5和第6分支有兩個可能的數(shù)字(1、3)。因此,在本發(fā)明GlycoDigit編碼的6個數(shù)字-字母對的實施方式中,可產(chǎn)生和表示10X10X10X10X2X2=40,000種不同的結(jié)構(gòu)。但是,這些結(jié)構(gòu)不是所有都是合理的??赏ㄟ^下文中描述的規(guī)則排除不合理的結(jié)構(gòu),這樣產(chǎn)生了在GlycoDigit編碼的6字符字母-數(shù)字實施方式中的被認(rèn)為是理論上合理的聚糖結(jié)構(gòu)的4860種N-連接聚糖結(jié)構(gòu)。當(dāng)然,可以進(jìn)一步完善該規(guī)則從而產(chǎn)生與合適的哺乳動物細(xì)胞系有關(guān)的聚糖類群。表5總結(jié)了GlycoDigit編碼的第一種實施方式中(6個字符字母-數(shù)字)的每個數(shù)字的定義,還顯示了完全的分支結(jié)構(gòu)和端基異構(gòu)(或異頭,anomeric)連接的信息。空白單元表示值對于該數(shù)字位置是不可能的。<table>tableseeoriginaldocumentpage16</column></row><table>定義了三個附加規(guī)則從而通過GlycoDigit編碼的6字符字母_數(shù)字實施方式來描述CH0細(xì)胞的分泌蛋白質(zhì)的N-聚糖結(jié)構(gòu)。規(guī)則1:對于哺乳動物細(xì)胞分泌的高甘露糖和雜合亞型,連接到核心結(jié)構(gòu)的甘露糖殘基的最高可能值為6,這使得結(jié)構(gòu)中的甘露糖殘基的總數(shù)等于9(計算了三甘露糖基核心的三個殘基)(Varki等)。規(guī)則2:GlycoDigit編碼的6字符字母_數(shù)字實施方式只允許單獨分支中最多有6個甘露糖。規(guī)則3:對于雜合型結(jié)構(gòu),分支1和2,及分支3和4必須分別是相同的類型,即或者都是甘露糖,或者都是復(fù)合型。圖5a的復(fù)合型聚糖結(jié)構(gòu)是三鏈結(jié)構(gòu),具有連接在與a1_3連接甘露糖相連的分支上的LewisY型抗原決定基。在7個數(shù)字-字母對實施方式中,對于該結(jié)構(gòu)的GlycoDigit編碼是。圖5b中的Man9GlcNAc2結(jié)構(gòu)是高甘露糖型結(jié)構(gòu),其是內(nèi)質(zhì)網(wǎng)和高爾基體中的所有進(jìn)一步糖基化反應(yīng)的起點。由于甘露糖殘基由字母而不是數(shù)字表示,該結(jié)構(gòu)對應(yīng)的編碼是[BaOxBaBaOxOxOx]。圖5c中顯示的雜合型結(jié)構(gòu)具有兩個高甘露糖型分支和兩個復(fù)合型分支。唾液酸化的路易斯寡糖X(sialylLewisX)結(jié)構(gòu)存在于具有連接到分支GlcNAc的海藻糖殘基的第一復(fù)合型分支中,而顯示雙乳糖胺鏈在第二分支中。如圖所示,該結(jié)構(gòu)通過GlycoDigit編碼表示為[3a4aAaBaOxla2a]。圖6a_圖6f顯示了圖5a的復(fù)合型結(jié)構(gòu)的對應(yīng)GlycoDigit編碼(7個數(shù)字-字母的實施方式)的分步表示。每個數(shù)字-字母對可以如下編碼從第一個數(shù)字-字母對開始,在對應(yīng)的分支是空的情況下,因此表示為'Ox'。見連接到al-3核心甘露糖的第二分支,其具有三個殘基并且終止于末端海藻糖;其表示為如表3列出的'3g'。第三個數(shù)字-字母位置的分支具有一個GlcNAc殘基并且表示為'la'。第四分支具有三個殘基,終止于a2-3連接的唾液酸。該分支的編碼是'3a'。第五和第六分支是空的,因此它們都被表示為'Ox'。最后一個數(shù)字-字母位置的值為'2c',因為除了核心海藻糖,還有以al-3連接到第二分支中的GlcNAc的海藻糖殘基(見表4)。連接到這個分支中的半乳糖的海藻糖被表示在第二分支的編碼中,不計算在這里。因此整體結(jié)構(gòu)的編碼為。應(yīng)注意,GlycoDigit編碼不是針對提供在所有種類中發(fā)現(xiàn)的所有可能的聚糖結(jié)構(gòu)的全面涵蓋。而其主要關(guān)注于在如CHO細(xì)胞的哺乳動物細(xì)胞系中的分泌糖蛋白中發(fā)現(xiàn)的結(jié)構(gòu),而且仍然保持可擴(kuò)展性?;诖嗽?,選擇7個數(shù)字-字母對用于表示GlcNAc殘基核心結(jié)構(gòu)上的6個連接位點以及具有描述所連接的海藻糖分子的能力。目前GlycoDigit編碼能夠表示其中存在甘露糖、GlcNAc、半乳糖、海藻糖和唾液酸殘基的結(jié)構(gòu)。它能區(qū)別NeuNAc和NeuGc;并且能夠表示末端半乳糖和海藻糖。幾種不在CHO細(xì)胞中自然表達(dá)的結(jié)構(gòu)已經(jīng)在工程CHO細(xì)胞系中產(chǎn)生。這包括平分型GlcNAc(Sburlatietal;Umanaetal]r印eatinglactosaminechains(SasakiH,BothnerB,DellA,F(xiàn)ukudaM(1987)"CarbohydratestructureoferythropoietinexpressedinChinesehamsterovarycellsbyah咖anerythropoietincDNA.,,JBiolChem262:12059-12076)禾口Lewis血型結(jié)構(gòu)(ThomasLJ,Pa騰ersel確K,BeattieDT,PicardMD,XuB,RittershausCW,MarshJrHC,HammondRA,QianJ,StevensonT,ZopfD,BayerRJ(2004)"ProductionofacomplementinhibitorpossessingsialylLewisXmoietiesbyinvitroglycosylationtechnology.,,Glycobiology14:883-893;Barrab6sS,Pages_PonsL,RadcliffeCM,TabaresG,F(xiàn)ortE,RoyleL,HarveyDJ,Moe皿erM,DwekRA,RuddPM,DeLlorensR,PeracaulaR(2007)"Glycosylationofserumribo皿clease1indicatesamajorendothelialoriginandrevealsanincreaseincorefucosylationinpancreaticcancer.,,Glycobiology17:388-400)。對于第二種實施方式,如果必需額外的分支來涵蓋其他情況,可以增加更多的數(shù)字-字母對來編碼表示它們。此外,用于表示額外的連接信息的基于索引的字母可以方便增加其他連接和殘基類型選擇。相反,在少于7個分支或如果不需要連接信息的情況下,編碼可以簡化。GlycoDigit編碼的主要重點是在該編碼保持?jǐn)?shù)字組成,其能充當(dāng)幾種計算應(yīng)用的基礎(chǔ)這一事實。GlycoDigit編碼的應(yīng)用比較聚糖結(jié)構(gòu)BLAST的發(fā)展(AltschulSF,GishW,MillerW,MyersEW,LipmanDJ(1990)"Basiclocalalignmentsearchtool."JMolBiol215:403-410)("Altschuletal")提供了生物學(xué)家已提出的基本問題的解決方法,即怎樣測量核苷酸和蛋白質(zhì)不同序列之間的相似性。但是,由于聚糖的分支結(jié)構(gòu),這樣的算法不能直接應(yīng)用于聚糖的比較。最近,已經(jīng)開發(fā)了幾種方法來比較聚糖(AokiKF,YamaguchiA,UedaN,AkutsuT,MamitsukaH,GotoS,KanehisaM(2004)"KCaM(KEGGCarbohydrateMatcher):asoftwaretoolforanalyzingthestructuresofcarbohydratesugarchains."NucleicAcidsRes32:W267-272("Aokietal");AokiKF,MamitsukaH,AkutsuT,KanehisaM(2005)"Ascorematrixtorevealthehiddenlinksinglycans."Bioinformatics21:1457-1463),但是該研究領(lǐng)域仍然在其初始階段。在GlycoDigit編碼的6和7個數(shù)字-字母對的實施方式中,我們定義了差分17算子,A,其可以使不同聚糖結(jié)構(gòu)之間的比較簡單化。圖7描述了復(fù)合型和雜合型N-連接聚糖結(jié)構(gòu)和其對應(yīng)于GlycoDigit編碼的6個字符字母-數(shù)字實施方式的GlycoDigit編碼。這些結(jié)構(gòu)之間存在兩種不同;第一種是缺少連接到分支6的海藻糖殘基,而第二種結(jié)構(gòu)沒有連接到分支3的半乳糖殘基。得到的結(jié)構(gòu)之間的差異值為(00200-2)。得到的編碼不是合理的聚糖結(jié)構(gòu),但是提供了關(guān)于兩種輸入結(jié)構(gòu)之間的差異的信息。0值表示兩種結(jié)構(gòu)上的分支是完全相同的,而非0值表示分支是不同的。偶數(shù)表示被比較的兩個分支是同一類型的,都是復(fù)合型或都是高甘露糖型。奇數(shù)表示將復(fù)合型分支和高甘露糖型分支進(jìn)行比較。以上實施例的結(jié)果證明兩種結(jié)構(gòu)之間在第3和第6分支中具有差異。定義查詢表(表6)為使用差分算子的結(jié)果來尋找結(jié)構(gòu)之間的特定殘基和連接的差異。對于被比較的每個分支,針對所有可能得到的差異值,索引兩個輸入結(jié)構(gòu)的較大的數(shù)字。例如,只考慮復(fù)合型結(jié)構(gòu),具有值為7(NeuNAc)的分支只能與值為7(NeuNAc)、5(Gal)、3(GlcNAc)和1的比較,表示得到的差異值只能為0、±2、±4和±6(見表6的差異值欄)。0值表示沒有變化,不記錄在查詢表中。對于這些可能的差異值中的每一個,表中列出了必須改變的連接以得到從第一到第二的結(jié)構(gòu)。對于正差異值,必須去除連接,而對于負(fù)值,則添加連接。表6是對于復(fù)合型N-連接聚糖的單獨分支之間的比較的查詢表。使用圖7中獲得的結(jié)果編碼,可以發(fā)現(xiàn)兩種結(jié)構(gòu)之間的確切差異值。對于每種結(jié)構(gòu)中第3分支的數(shù)字,我們可見兩個數(shù)字中較大的是5,差異值是2。查詢表中對應(yīng)的突出單元顯示在第二結(jié)構(gòu)中去除經(jīng)131—4連接的GlcNAc殘基。與之相似的第6分支,其顯示經(jīng)a1—6連接增加了海藻糖殘基。表6.復(fù)合型N-連接聚糖結(jié)構(gòu)中分支比較的簡明版本查詢表<table>tableseeoriginaldocumentpage19</column></row><table>查詢表6還包含了對不同結(jié)構(gòu)的單獨分支之間的差異值必需的反應(yīng)步驟的數(shù)目的信息??赏ㄟ^將兩個分支之間的差異值的絕對值除以2獲得每個分支的所需反應(yīng)步驟的數(shù)目。對于以上的實施例,必須實施兩個反應(yīng)步驟從而將第一種結(jié)構(gòu)轉(zhuǎn)化為第二種結(jié)構(gòu),即去除GlcNAc殘基和增加海藻糖。完整的查詢表還包含當(dāng)輸入的都是高甘露糖型時,比較分支時出現(xiàn)的改變的信息。例如,在具有數(shù)字B(值為4)和D(值為8)的高甘露糖型結(jié)構(gòu)的兩個分支的比較中,差異值為4,可以描述為在第一種結(jié)構(gòu)中增加兩個甘露糖殘基。雜合型聚糖結(jié)構(gòu)中的復(fù)合型和高甘露糖型分支之間的比較更為復(fù)雜。為了將高甘露糖型結(jié)構(gòu)轉(zhuǎn)化為復(fù)合型,在連接任何其他的單糖之前,必須去除所有的甘露糖殘基。比較由數(shù)字C和7表示的分支,顯示在總共6個反應(yīng)步驟中,必須去除3個甘露糖殘基,增加GlcNAc、半乳糖和NeuNAc。圖8描繪了復(fù)合型和雜合型N-連接聚糖結(jié)構(gòu)和它們對應(yīng)于7字母-數(shù)字對實施方式的GlycoDigit編碼。結(jié)構(gòu)之間具有三個差異值第一個缺少連接到核心GlcNAc的海藻糖殘基;第二個缺少較低分支中的半乳糖殘基;最后,兩種結(jié)構(gòu)的第4分支是不同的類型。如圖8所示,得到的兩種結(jié)構(gòu)之間的差異值為。差分算子只比較編碼中的數(shù)字值而忽略字母值。如此,得到的編碼提供了兩種結(jié)構(gòu)之間差異值的信息。0值表示兩種結(jié)構(gòu)上的分支是完全相同的,而非O值表示分支不同。當(dāng)高甘露糖型分支與復(fù)合型分支比較時,出現(xiàn)了特殊的情況。在這種情況下,定義分支之間的差異值為該分支的兩個數(shù)字值的和。以上的實施例的結(jié)果證明兩種結(jié)構(gòu)在第2、第4和第7分支位置上具有差異值。來自差分算子的結(jié)果編碼可用于計算對于7個數(shù)字-字母對實施方式中將一種結(jié)構(gòu)轉(zhuǎn)化為另外一種結(jié)構(gòu)必需的反應(yīng)步驟的數(shù)目。差異編碼中的數(shù)字的絕對值的相加值顯示了將第一種結(jié)構(gòu)轉(zhuǎn)化為第二種結(jié)構(gòu)需要的反應(yīng)數(shù)目。從差異編碼,我們可以計算步驟數(shù)目為7(0+1+0+5+0+0+1)。在比較兩個復(fù)合型分支的情況中,如果分支的差異值為正,則表示必須增加聚糖作為轉(zhuǎn)化的部分,而負(fù)差異值表示必須去除聚糖。雜合型聚糖結(jié)構(gòu)中的復(fù)合型和高甘露糖型分支之間的比較更為復(fù)雜。為了將高甘露糖型分支轉(zhuǎn)化為復(fù)合型,在連接任何其他的單糖之前,必須首先去除所有的甘露糖殘基。各自比較兩種結(jié)構(gòu)中的由數(shù)字B和3表示的第4分支顯示在總共5個反應(yīng)步驟中,必須去除兩個甘露糖殘基,增加GlcNAc、半乳糖和NeuNAc。表1至表3可用于發(fā)現(xiàn)對于每個數(shù)字增加了什么單糖并且以哪種連接。該信息可反過來用于發(fā)現(xiàn)當(dāng)將一種結(jié)構(gòu)轉(zhuǎn)化為另外一個時,去除哪個連接。兩個N-連接聚糖結(jié)構(gòu)之間的距離測量方程式(1)表示對GlycoDigit編碼的6個字符的字母-數(shù)字實施方式,以反應(yīng)距離的形式比較兩個合理的聚糖結(jié)構(gòu)的算法。/。接近度J可能,g^g:g反應(yīng))x畫方程式a)可能反應(yīng)的最咼值使用該算法,可以簡單地算出兩種結(jié)構(gòu)之間的接近值,可以確定從一種結(jié)構(gòu)轉(zhuǎn)化為另外一種結(jié)構(gòu)所需反應(yīng)步驟的數(shù)目,如后文所述。應(yīng)注意,該值只是一個單純的近似值,不具有任何明確的生物學(xué)意義。圖9顯示了兩個聚糖和從一種結(jié)構(gòu)轉(zhuǎn)化為另外一種所需的反應(yīng)步驟。其結(jié)構(gòu)由編碼(711111)禾P(111711)表示,具有84.2%的相似值。對于開始的4個分支,將具有6個甘露糖殘基的分支轉(zhuǎn)化為具有末端NeuNAc殘基的分支所需的反應(yīng)的最高數(shù)目是9個反應(yīng)。因此,可能的反應(yīng)的最高值是(9X4)再加上一個對應(yīng)分支5的平分型GlcNAc和分支6的海藻糖中的每一個的反應(yīng),即38個可能的反應(yīng)。則可定義該值為%接近度=(38-總:鵬x100方程式(2)使用圖7中的第一種和最后的兩種結(jié)構(gòu)作為實施例,兩種結(jié)構(gòu)之間以反應(yīng)步驟而言的差異值是2。因此,可以計算兩種結(jié)構(gòu)之間的接近度為%接近度=(38二2)x100=嘗x100=94.7%方程式(3)3838將圖9的第一種結(jié)構(gòu)轉(zhuǎn)化為最后一種需要6個反應(yīng)步驟。因此,使用方程式(1)計算的圖9的第一種和最后一種結(jié)構(gòu)之間的接近度為84.2%。但是,這些結(jié)構(gòu)只是中間形式,最終結(jié)構(gòu)總是合理的。注意,圖9中的第一結(jié)構(gòu)和最終轉(zhuǎn)化的結(jié)構(gòu)互為異構(gòu)體,并且可能是生物學(xué)不能區(qū)別的,一個不能由84.2%的相似性值表現(xiàn)的事實。需要進(jìn)行深入的工作從而建立生物學(xué)上更加相關(guān)的計算系統(tǒng)。已經(jīng)開發(fā)了基于網(wǎng)絡(luò)的圖形界面從而執(zhí)行現(xiàn)有的算法并提供直覺結(jié)果,如后文所描述的。構(gòu)建糖基化網(wǎng)絡(luò)可認(rèn)為糖基化反應(yīng)網(wǎng)絡(luò)具有代表聚糖結(jié)構(gòu)的節(jié)點和顯示可能的酶作用的邊緣的圖形。單一的聚糖結(jié)構(gòu)可以起到多種反應(yīng)的底物的作用,還可作為幾種反應(yīng)的終產(chǎn)物,因此產(chǎn)生了高度分支的網(wǎng)絡(luò)。聚糖網(wǎng)絡(luò)的另外一個典型特征是怎樣認(rèn)為任意的中間結(jié)構(gòu)是終產(chǎn)20物并且產(chǎn)生自然系統(tǒng)中見到的多種結(jié)構(gòu)。將這樣的網(wǎng)絡(luò)可視化可以提高我們對糖基化途徑的理解,并且可以充當(dāng)電腦模擬實驗的基礎(chǔ)。為了方便存儲和處理,創(chuàng)造對稱鄰接矩陣來存儲反應(yīng)對。創(chuàng)造5100x5100矩陣,每個(i,j)值記錄聚糖i是否與聚糖j反應(yīng)。0值表示這兩個聚糖之間沒有反應(yīng),而1值表示具有反應(yīng)聯(lián)系。如上所述的與第一種實施方式相關(guān)的差分算子A用于產(chǎn)生填入鄰接矩陣的一對函數(shù);在MATLAB中運行這些函數(shù),圖10中示出了它們對應(yīng)的偽代碼版本。函數(shù)isrxn采用兩個聚糖結(jié)構(gòu)作為輸入,如果將一種結(jié)構(gòu)轉(zhuǎn)化為另外一種需要一步且只需一步反應(yīng),返回1。聚糖結(jié)構(gòu)的完整列表傳送到rxnjiiatrix函數(shù),其產(chǎn)生鄰接矩陣并且每當(dāng)兩個聚糖之間有一步反應(yīng)時就在其填入1。為了將糖基化網(wǎng)絡(luò)可視化,聚糖從基礎(chǔ)核心結(jié)構(gòu)開始排列并增加糖殘基直到結(jié)構(gòu)被完全唾液酸化。根據(jù)從核心結(jié)構(gòu)分離每個聚糖的反應(yīng)步驟的數(shù)目來將聚糖進(jìn)行分類。對于復(fù)合型聚糖,核心結(jié)構(gòu)可表示為GlycoDigit編碼的第一種實施方式的111111,而末端為編碼777733表示的完全唾液酸化的結(jié)構(gòu)。可視化的算法在每個類別中繪制單獨的聚糖結(jié)構(gòu),然后在那些具有反應(yīng)連接的結(jié)構(gòu)之間連線。創(chuàng)造了兩個聚糖結(jié)構(gòu)數(shù)據(jù)集來試驗可視化算法。第一個集合是由GlycoDigit編碼產(chǎn)生的具有19372個反應(yīng)對的完整的5100種理論聚糖。還創(chuàng)造了只包含64種結(jié)構(gòu)和160個反應(yīng)的小得多的集合,其含有那些只具有開始的4個分支中的兩個的復(fù)合型聚糖。在兩種情況中,得到的網(wǎng)絡(luò)顯示了高度分支的樹形結(jié)構(gòu),其首先分支然后匯合。在網(wǎng)絡(luò)的開端,有許多連接導(dǎo)致分叉特性的糖的可能的位點,但是隨著這些被填充,可能的選擇的數(shù)目下降,網(wǎng)絡(luò)匯合到最終的幾種結(jié)構(gòu)。最初的網(wǎng)絡(luò)呈現(xiàn)樹形結(jié)構(gòu),具有15個水平的深度,而較小的集合具有9個水平的深度。表7中總結(jié)了兩種情況的每個水平中的聚糖和反應(yīng)的數(shù)目。圖lla和圖llb顯示了第二個數(shù)據(jù)集的網(wǎng)絡(luò)分布。表7.兩個彰:據(jù)集的每個水平中的聚糖結(jié)構(gòu)和反應(yīng)的凄t目<table>tableseeoriginaldocumentpage21</column></row><table>表7.兩個翁:據(jù)集的每個水平中的聚糖結(jié)構(gòu)和反應(yīng)的凄史目<table>tableseeoriginaldocumentpage22</column></row><table>從KEGG可獲得給聚糖結(jié)構(gòu)增加和去除單糖單元所涉及的一系列酶(KanehisaM.,GotoS.,HattoriM.,Aoki_KinoshitaK.F.,ItohM.,KawashimaS.,KatayamaT.,ArakiM.,andHirakawaM."Fromgenomicstochemicalgenomics:newdevelopmentsinKEGG."NucleicAcidsRes.,34:D354_357,2006)。從GlycoDigit編碼的第一種實施方式獲得了所有3種亞型的5100種理論聚糖,對于通過酶反應(yīng)連接在一起的聚糖結(jié)構(gòu)對,產(chǎn)生了19732個反應(yīng)對。使用GlycoDigit編碼的第二種實施方式的數(shù)字索引,構(gòu)建了N-連接糖基化網(wǎng)絡(luò),其可被表示為具有分別對應(yīng)于聚糖結(jié)構(gòu)和反應(yīng)步驟的節(jié)點和邊緣的圖形,如圖12a_圖12c所示。使用GlycoDigit編碼的第二種實施方式,我們列舉了通常在CH0細(xì)胞中分泌的所有可能的復(fù)合型聚糖結(jié)構(gòu),從核心結(jié)構(gòu)開始,其被表示為[OxOxOxOxOxOx0x]。通過在GlycoDigit編碼中每個數(shù)字增加1來顯示如GlcNAc、半乳糖、海藻糖和唾液酸的糖殘基通過相關(guān)糖基轉(zhuǎn)移酶的酶作用依次連接到核心結(jié)構(gòu),從而簡單地實現(xiàn)這種列舉。該過程一直持續(xù),直到聚糖變成四鏈完全唾液酸化的具有核心海藻糖基化的結(jié)構(gòu),以編碼[3a3a3a3aOxlala]表示,由此產(chǎn)生了1024種復(fù)合型聚糖和4096個連接兩個相繼的聚糖的反應(yīng)步驟。為了將構(gòu)建的網(wǎng)絡(luò)可視化,以分級的方式來排列得到的圖形。首先,根據(jù)連接的糖的數(shù)目,所有的聚糖被分至不同等級的層中。核心結(jié)構(gòu)[OxOxOxOxOxOxOx]起始作為第一層,隨后為由對每個核心結(jié)構(gòu)增加一個糖的聚糖構(gòu)成第二層,如此直到包含完全唾液酸化的聚糖結(jié)構(gòu)[3a3a3a3aOxlala]的最后一層。一旦所有的聚糖位于它們對應(yīng)的層中,將該網(wǎng)絡(luò)圖形中連接聚糖對的相關(guān)反應(yīng)邊緣可視化。圖12a_圖12c顯示了得到的網(wǎng)絡(luò),其是高度分支的機(jī)構(gòu),其中網(wǎng)絡(luò)中的單獨的聚糖結(jié)構(gòu)表示為節(jié)點,而邊緣表示兩個聚糖之間的酶反應(yīng)步驟。應(yīng)注意,目前的網(wǎng)絡(luò)是CHO細(xì)胞中的糖基化途徑的近似圖,因為在網(wǎng)絡(luò)構(gòu)建過程中沒有充分考慮酶的需要和限制(HosslerP,GohLT,LeeMM,HuWS(2006)"GlycoVis:visualizingglycandistributionintheproteinN_glycosylationpathwayi腹ammaliancells."BiotechnolBioeng95:946-960(Hossleretal1"。大多數(shù)生物途徑通常是復(fù)雜的,將它們的結(jié)構(gòu)可視化是研究其的最有用的步驟之一。本文所描述的網(wǎng)絡(luò)可被用于確定連接聚糖結(jié)構(gòu)的可能的途徑,或發(fā)現(xiàn)比以前所知的更短的途徑。在目前的模式中,從一種結(jié)構(gòu)到另外一種通常有幾種可能的途徑,但是這些途徑不一定總是生物學(xué)合理的。根據(jù)要被模擬的種類,可以結(jié)合聚糖可以實際反應(yīng)而形成其他的附加規(guī)則從而使該網(wǎng)絡(luò)更實際。該算法的模塊特性可以使使用者定義自己的反應(yīng)對模型并且將其可視化。代謝流分析是從可視界面的存在充分得益的應(yīng)用??梢越o數(shù)據(jù)模型增加額外的信息從而可以進(jìn)行途徑的電腦模擬重建??梢暬到y(tǒng)提供了建立用于此類分析的模型的良好基礎(chǔ)。它可以通過交互使用者界面而實施以整合實驗數(shù)據(jù)并且提供基于網(wǎng)絡(luò)瀏覽器的服務(wù)。討論對糖組信息學(xué)(glycomeinformatics)的研究正在緩慢地追上已經(jīng)在其他"組學(xué)(omics)"領(lǐng)域產(chǎn)生的進(jìn)展。如本文所述,本發(fā)明的GlycoDigit編碼是基于預(yù)先定義的通常在大多數(shù)哺乳動物細(xì)胞中發(fā)現(xiàn)的N-連接聚糖的分支結(jié)構(gòu)。與其他的聚糖的標(biāo)準(zhǔn)文本表示相比,GlycoDigit編碼短的多而且更加直覺化,因為它注重的是分支而不像以前的方法描述單獨的單糖單元。例如,以圖2中的各種格式表示的聚糖結(jié)構(gòu)可通過GlycoDigit編碼的7數(shù)字實施方式被簡單地編碼為[Ox2ala3aOx0xla]來代表其結(jié)構(gòu)。與其他較長和基于文本的標(biāo)準(zhǔn)不同,較短的表示更易于手工輸入并且不易于產(chǎn)生印刷或格式錯誤。雖然GlycoDigit編碼可能不能提供對所有可能的聚糖結(jié)構(gòu)的全面涵蓋,但它是可改編的,可以根據(jù)使用者的需要被定制。例如,通過調(diào)整數(shù)字-字母對的數(shù)目,可增加或減少結(jié)構(gòu)中可允許的分支的數(shù)目,同時可在字母索引中增加更多的選擇來表示不同的連接信息。GlycoDigit編碼還是可交互操作的,這可以使其以可檢索的格式被整合到實驗室糖信息管理系統(tǒng)中,從而提供給生物醫(yī)學(xué)或生物技術(shù)應(yīng)用有用的資源(HashimotoK,GotoS,KawanoS,Aoki-KinoshitaKF,UedaN,HamajimaM,KawasakiT,KanehisaM(2006)"KEGGasaglycomeinformaticsresource."Glycobiology16:63R-70R山uttekeT,Bohne_LangA,LossA,GoetzT,F(xiàn)rankM,vonderLiethCW(2006)"GLYCOSCIENCES.de:anInternetportaltos叩portglycomicsandglycobiologyresearch.,,Glycobiology16:71R-81R;R咖anR,Venkatar咖anM,R咖akrishnanS,LangW,Ragur咖S,SasisekharanR(2006)"Advancingglycomics-implementationstrategiesattheconsortiumforfunctionalglycomics."Glycobiology16:82R-90R)。因此,相關(guān)的聚糖結(jié)構(gòu)可被簡單地存儲、獲得、檢索和快速轉(zhuǎn)換為它們的圖形格式。對糖基化途徑進(jìn)行研究從而控制糖基化的多樣性是能夠從GlycoDigit編碼獲益的另外一個領(lǐng)域。取代聚糖結(jié)構(gòu)的基于文本表示的簡化數(shù)字表示法可以進(jìn)一步促進(jìn)計算機(jī)輔助分析工具的發(fā)展從而研究這樣的復(fù)雜網(wǎng)絡(luò)(Hossler等I)。本文所描述的GlycoDigit編碼格式可以被方便地應(yīng)用于聚糖相互作用的網(wǎng)絡(luò)的構(gòu)建和可視化。基于文本的表示法不能方便地提供這種應(yīng)用性。此外,以反應(yīng)步驟的形式來描述聚糖之間的差異,并且具有如圖8a_圖8c所示的可能的聚糖結(jié)構(gòu)的全面列表,這些可以提供給用于發(fā)展糖基化途徑的數(shù)學(xué)模型的基石出(HosslerP,MulukutlaBC,HuWS(2007)"SystemsanalysisofN-glycanprocessinginmammaliancells.,,PLoS0NE2(8):e713;KrambeckFJ,Betenbaugh23MJ(2005)"AmathematicalmodelofN_linkedglycosylation.,,BiotechnolBioeng92:711-728;UmanaP,BaileyJEQ997)"AmathematicalmodelofN_linkedglycoformbiosynthesis.,,BiotechnolBioeng55:890-908)。需要進(jìn)行的進(jìn)一步工作是在GlycoDigit編碼的背景下定義聚糖結(jié)構(gòu)中相似性的生物學(xué)有意義的測量。因為蛋白質(zhì)結(jié)構(gòu)也是這種情況,希望聚糖結(jié)構(gòu)的相似性會表示功能也有相似性(Altschuletal;Aokietal;BertozziCR,KiesslingLL(2001)"Carbohydratesandglycobiologyreview:chemicalglycobiology."Science291:2357-2364)。本發(fā)明的GlycoDigit編碼還是可擴(kuò)展的,允許更多各種范圍的N-連接聚糖結(jié)構(gòu)的表示。根據(jù)上述的內(nèi)容,所屬領(lǐng)域的技術(shù)人員了解,可以對本發(fā)明的上述的實施方式的改進(jìn)和變化。因此,應(yīng)該理解在所附權(quán)利要求和其等效物的范圍內(nèi),除了如特別描述的,可以以其他方式實施本發(fā)明。2權(quán)利要求一種用于表示至少一部分寡糖的系統(tǒng),所述系統(tǒng)包含固定長度的字母-數(shù)字編碼,其中所述編碼表示連接至所述寡糖的殘基的數(shù)目和位置。2.根據(jù)權(quán)利要求1所述的系統(tǒng),其進(jìn)一步包含結(jié)合了可檢索格式的所述編碼的信息管理系統(tǒng)。3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述寡糖是N-連接的聚糖結(jié)構(gòu)。4.根據(jù)權(quán)利要求3所述的系統(tǒng),其中,所述N-連接的聚糖結(jié)構(gòu)是復(fù)合型、高甘露糖型和雜合型中的一種。5.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述殘基選自由甘露糖、N-乙酰葡糖胺、半乳糖、海藻糖和唾液酸殘基構(gòu)成的組。6.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述編碼的所述數(shù)字部分表示連接到N-連接的聚糖核心結(jié)構(gòu)的分支的單糖的數(shù)目。7.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述字母部分表示連接到N-連接的聚糖核心結(jié)構(gòu)的連接類型和特定的糖分子。8.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述編碼包含分別表示N-連接的聚糖核心結(jié)構(gòu)上的6個連接位點的6個字母-數(shù)字字符。9.根據(jù)權(quán)利要求8所述的系統(tǒng),其中,如果所述分支是復(fù)合型,則所述N-連接的聚糖核心結(jié)構(gòu)的開始4個分支由奇數(shù)表示,而高甘露糖分支由字母表示。10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中末端為GlcNAc、半乳糖或神經(jīng)氨酸殘基的復(fù)合型分支分別由數(shù)字3、5或7表示;雜合型和高甘露糖型N-連接的聚糖的甘露糖殘基由字母A-F表示,每個字母A、B、C、D、E和F分別被指定為偶數(shù)2、4、6、8、10和12;對于每個分支,字母值對應(yīng)于連接到該分支的甘露糖殘基數(shù)目的二倍;如果存在平分型GlcNAc和海藻糖殘基,則第五和第六個字符分別是值為3的數(shù)字;和如果不存在分支,則其對應(yīng)數(shù)字是1。11.根據(jù)權(quán)利要求l所述的系統(tǒng),其中,所述編碼包含7個字母-數(shù)字對。12.根據(jù)權(quán)利要求ll所述的系統(tǒng),其中,第一至第五個字母-數(shù)字對分別對應(yīng)于N-連接的聚糖核心結(jié)構(gòu)上的5個連接位點,第六個字母-數(shù)字對表示甘露糖之間的平分型GlcNAc,第七個位置對應(yīng)于可連接到所述核心或邊緣GlcNAc殘基的海藻糖分子。13.根據(jù)權(quán)利要求12所述的系統(tǒng),其中每個字母_數(shù)字對的數(shù)字部分對應(yīng)于連接到由字母_數(shù)字對表示的分支的單糖的數(shù)目;和每個字母_數(shù)字對的字母部分作為包含關(guān)于連接類型和增加的特定糖分子的附加信息表的索引。14.根據(jù)權(quán)利要求ll所述的系統(tǒng),其中,所述第七個字母-數(shù)字對表示連接于所述寡核苷酸的N-乙酰葡糖胺殘基上的海藻糖基化。15.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述寡糖是N-聚糖結(jié)構(gòu),并且是哺乳動物細(xì)胞培養(yǎng)物分泌的糖蛋白。16.根據(jù)權(quán)利要求1所述的系統(tǒng),其中,所述系統(tǒng)進(jìn)一步包括定義用于定性鑒別聚糖結(jié)構(gòu)的差分算子。17.—種用于表示至少一部分寡糖結(jié)構(gòu)的方法,包含以下步驟(a)選擇基礎(chǔ)寡糖結(jié)構(gòu);(b)識別步驟(a)中選擇的所述基礎(chǔ)結(jié)構(gòu)上的可能取代點的數(shù)目,并為每一個取代點分配一個位置;(c)為步驟(b)的取代點分配二字符的編碼,其中"字符"表示任意唯一的標(biāo)識符,所述二字符編碼具有第一字符和第二字符;(d)為所述二字符編碼的所述第一字符分配一個或多個唯一的標(biāo)識符,并為所述二字符的所述第二字符分配一個或多個唯一的標(biāo)識符,以使得所述第一字符和所述第二字符一起唯一地識別步驟(b)中識別的特定取代點上的殘基;(e)對于每個取代點重復(fù)步驟(d),以使得步驟(b)中識別的每個取代點具有一組二字符編碼,其識別所述取代點的可能的殘基;(f)檢查包含步驟(a)中選擇的所述基礎(chǔ)寡糖結(jié)構(gòu)的寡糖結(jié)構(gòu)的結(jié)構(gòu)和在所述基礎(chǔ)結(jié)構(gòu)上的可選的一個或多個殘基;禾口(g)為步驟(f)的所述寡糖結(jié)構(gòu)上的所述殘基分配所述二字符編碼,以匹配在步驟(d)和步驟(e)中發(fā)展的所述二字符編碼,并在步驟(b)中分配的位置上記錄它們。18.根據(jù)權(quán)利要求17所述的方法,其中,步驟(a)的所述基礎(chǔ)寡糖結(jié)構(gòu)是N-連接的聚糖結(jié)構(gòu)。19.根據(jù)權(quán)利要求18所述的方法,其中,所述N-連接的聚糖結(jié)構(gòu)是復(fù)合型、高甘露糖型和雜合型中的一種。20.根據(jù)權(quán)利要求17所述的方法,其中,在步驟(d)中被所述第一和第二字符唯一識別的所述殘基選自由甘露糖、N-乙酰葡糖胺、半乳糖、海藻糖和唾液酸殘基構(gòu)成的組。21.根據(jù)權(quán)利要求18所述的方法,其中,步驟(c)的所述第一字符是數(shù)字。22.根據(jù)權(quán)利要求21所述的方法,其中,所述數(shù)字表示連接到N-連接的聚糖核心結(jié)構(gòu)的取代點的單糖的數(shù)目。23.根據(jù)權(quán)利要求21所述的方法,其中,步驟(c)的第二字符是字母。24.根據(jù)權(quán)利要求23所述的方法,其中,所述字母表示連接的類型和連接至N-連接的聚糖核心結(jié)構(gòu)的取代點的特定糖分子。25.根據(jù)權(quán)利要求19所述的方法,其中,在步驟(b)中選擇6個取代點。26.根據(jù)權(quán)利要求25所述的方法,其中,如果分支是由字母表示的復(fù)合型和高甘露糖型分支,則所述N-連接的聚糖核心結(jié)構(gòu)的開始的4個取代點由奇數(shù)表示。27.根據(jù)權(quán)利要求19所述的方法,其中,在步驟(b)中選擇7個取代點。28.根據(jù)權(quán)利要求27所述的方法,其中,第一至第五個取代點字母_數(shù)字對表示N-連接的聚糖核心結(jié)構(gòu)上的5個連接位點,第六個取代點表示甘露糖之間的平分型GlcNAc,第七個取代點對應(yīng)于能夠連接到所述核心或邊緣GlcNAc殘基的海藻糖分子。29.根據(jù)權(quán)利要求28所述的方法,其中,步驟(c)的所述第一字符是數(shù)字。30.根據(jù)權(quán)利要求29所述的方法,其中,步驟(c)的所述第二字符是字母。31.根據(jù)權(quán)利要求30所述的方法,其中第一個字符數(shù)字對應(yīng)于連接到由二字符編碼表示的取代點分支的單糖的數(shù)目;禾口第二個字符字母作為包含關(guān)于連接類型和增加的特定糖分子的附加信息表的索引。32.根據(jù)權(quán)利要求18所述的方法,其中,所述寡糖是N-聚糖結(jié)構(gòu),并且是哺乳動物細(xì)胞培養(yǎng)物分泌的糖蛋白。全文摘要本發(fā)明披露了一種用于表示一般在哺乳動物細(xì)胞培養(yǎng)物的分泌糖蛋白中發(fā)現(xiàn)的N-連接聚糖結(jié)構(gòu)的固定長度的字母-數(shù)字編碼。該編碼使用預(yù)先分配的字母-數(shù)字索引來表示連接到核心聚糖結(jié)構(gòu)的不同分支的單糖。本分支-中心表示法可使結(jié)構(gòu)可視化,而編碼的數(shù)字特性使其成為機(jī)器可讀的??啥x差分算子來定量鑒別聚糖結(jié)構(gòu)以用于進(jìn)一步的研究。該編碼可以檢索格式被整合到信息管理系統(tǒng)中。本發(fā)明還提供了使用固定長度字母-數(shù)字編碼表示至少部分寡糖結(jié)構(gòu)的方法。文檔編號G06F19/16GK101785003SQ200880103416公開日2010年7月21日申請日期2008年6月13日優(yōu)先權(quán)日2007年6月15日發(fā)明者李東燁,法拉茨·優(yōu)素菲申請人:新加坡科技研究局