本發(fā)明涉及數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種基于LIMS系統(tǒng)的數(shù)據(jù)分析方法。
背景技術(shù):
根據(jù)國家食品藥品監(jiān)督總局的要求,建立檢驗(yàn)檢測信息化體系,實(shí)現(xiàn)檢定機(jī)構(gòu)自動化、流程化的開展業(yè)務(wù)工作,并實(shí)現(xiàn)各級檢驗(yàn)檢測機(jī)構(gòu)間的互聯(lián)互通的信息共享。建立中檢院、各省食品藥品檢驗(yàn)機(jī)構(gòu)的兩級監(jiān)測數(shù)據(jù)中心,國家、省、地市三級監(jiān)測信息化系統(tǒng),實(shí)現(xiàn)多級系統(tǒng)間的數(shù)據(jù)交換工作,同時(shí)建設(shè)與應(yīng)用系統(tǒng)配套的基礎(chǔ)運(yùn)行環(huán)境、數(shù)據(jù)資源、應(yīng)用支撐平臺、標(biāo)準(zhǔn)規(guī)范體系等。這一切都推動食品藥品檢驗(yàn)業(yè)務(wù)服務(wù)和統(tǒng)計(jì)信息及監(jiān)管工作從手工報(bào)告向網(wǎng)絡(luò)電子報(bào)告,從統(tǒng)計(jì)報(bào)表向服務(wù)數(shù)據(jù)平臺方式轉(zhuǎn)換。
隨著食品藥品檢驗(yàn)信息平臺和業(yè)務(wù)系統(tǒng)的逐步建立完善,將逐步的累積大量豐富的統(tǒng)計(jì)信息大數(shù)據(jù)資源。同時(shí),隨著大數(shù)據(jù)技術(shù)的興起,為我們提供了一種新的數(shù)據(jù)分析的方法,不再完全依賴于隨機(jī)抽樣,通過大數(shù)據(jù)可以分析挖掘出小數(shù)據(jù)無法提取的有價(jià)值的信息,服務(wù)于經(jīng)濟(jì)社會發(fā)展。
實(shí)現(xiàn)大數(shù)據(jù)在食品藥品檢驗(yàn)檢測行業(yè)的應(yīng)用,首先要有海量的系統(tǒng)業(yè)務(wù)數(shù)據(jù)支持,其次需要實(shí)現(xiàn)基于大數(shù)據(jù)的業(yè)務(wù)智能及數(shù)據(jù)挖掘、數(shù)據(jù)分析系統(tǒng)的建設(shè)。通過業(yè)務(wù)智能及數(shù)據(jù)挖掘、數(shù)據(jù)分析系統(tǒng)的建設(shè),充實(shí)擴(kuò)展信息資源數(shù)據(jù)庫并進(jìn)一步完善數(shù)據(jù)的挖掘與分析。在此基礎(chǔ)上通過統(tǒng)一的數(shù)據(jù)共享分析平臺,為食品藥品監(jiān)督、食品藥品檢驗(yàn)及時(shí)掌握各種統(tǒng)計(jì)信息提供幫助,為領(lǐng)導(dǎo)決策提供依據(jù)支持,為公眾信息查詢平臺提供數(shù)據(jù)支撐。
大數(shù)據(jù)技術(shù)的應(yīng)用就是實(shí)現(xiàn)數(shù)據(jù)的挖掘分析、數(shù)據(jù)的按需統(tǒng)計(jì)、查詢平臺等系統(tǒng)的數(shù)據(jù)支撐,為領(lǐng)導(dǎo)決策提供依據(jù)支持。可以想象在不久的將來,食品藥品的數(shù)據(jù)都會集中到一個(gè)統(tǒng)一的數(shù)據(jù)平臺,食品藥品的檢驗(yàn)結(jié)果,歷史數(shù)據(jù)趨勢分析,都將能夠即時(shí)查詢報(bào)告和預(yù)警,這就形成了完善的食品藥品長效監(jiān)管機(jī)制,保障人民群眾飲食用藥安全。
大數(shù)據(jù)技術(shù)的應(yīng)用在食品藥品安全監(jiān)管領(lǐng)域的應(yīng)用將會非常廣泛,當(dāng)前僅僅通過現(xiàn)有抽樣體系抽樣監(jiān)測所獲得的數(shù)據(jù),大多沒有轉(zhuǎn)化成直接可以向社會公眾提供的信息,如果實(shí)現(xiàn)轉(zhuǎn)化,那所產(chǎn)生的數(shù)據(jù)量會更大。如果要面向公眾服務(wù),就意味著需要搭建更大的平臺,對海量的數(shù)據(jù)構(gòu)建信息模型,從而對公眾提供有食品藥品安全針對性的信息服務(wù),且服務(wù)是動態(tài)的,而不是靜態(tài)的。
大數(shù)據(jù)在食品藥品檢驗(yàn)領(lǐng)域的發(fā)展與信息網(wǎng)絡(luò)平臺和信息服務(wù)有很大的關(guān)系,我們可以充分利用現(xiàn)有網(wǎng)絡(luò)平臺,如微博、微信等,通過社會力量的積極參與,共同建設(shè)或者向公眾提供食品藥品安全信息服務(wù)平臺。
大數(shù)據(jù)應(yīng)用發(fā)展的瓶頸,一方面是技術(shù)瓶頸:如何讓大數(shù)據(jù)處理更便捷、快速、更貼近用戶,更容易去實(shí)現(xiàn)或者去操作;另一方面,大數(shù)據(jù)的應(yīng)用和處理,其核心是業(yè)務(wù)層的科學(xué)規(guī)劃。在海量數(shù)據(jù)中,并不是所有的信息都是有用的,需要不斷加工和提煉,形成信息資源才能發(fā)揮大數(shù)據(jù)的應(yīng)用價(jià)值。
以計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)為代表的通信技術(shù)和以物聯(lián)網(wǎng)為代表的傳感技術(shù)的持續(xù)創(chuàng)新和廣泛應(yīng)用使人類的數(shù)據(jù)化能力和范圍快速擴(kuò)張。機(jī)構(gòu)內(nèi)部產(chǎn)生的數(shù)據(jù)量能夠被測量和記錄的越來越多,而我們對事物、現(xiàn)象等的測量、記錄也更加頻繁和細(xì)致。
如今,這種擴(kuò)張讓我們看到大量從宏觀到微觀、從自然到社會的觀察,計(jì)算、傳播等儀器設(shè)備和活動都在快速產(chǎn)生著海量、多樣的數(shù)據(jù)。比如實(shí)驗(yàn)室的各種儀器、傳感器、成像設(shè)備、測序儀等各種科研儀器和裝置、模擬方法、智能終端以及各種應(yīng)用等,這些都使得科研領(lǐng)域被推到了一個(gè)前所未有的‘大數(shù)據(jù)’時(shí)代。
海量數(shù)據(jù)的劇增,勢必讓量變引起質(zhì)變,不斷增加的數(shù)據(jù)引發(fā)人們思維和行為模式的變革,而在科學(xué)研究領(lǐng)域,這也將直接為科研模式帶來極大的改變。繼實(shí)驗(yàn)科學(xué)、理論科學(xué)、計(jì)算科學(xué)之后出現(xiàn)了第四種研究范式,即‘?dāng)?shù)據(jù)密集型科學(xué)’,成為大數(shù)據(jù)時(shí)代下的新模式。
大數(shù)據(jù)為科學(xué)研究帶來了重大機(jī)遇,比如當(dāng)所能利用的數(shù)據(jù)增加時(shí),人們將可以做很多在小數(shù)據(jù)基礎(chǔ)上無法完成的事情。通俗的說,科學(xué)大數(shù)據(jù)是科學(xué)工程研究中的海量數(shù)據(jù)。大數(shù)據(jù)“無處不在,且蘊(yùn)含著巨大的經(jīng)濟(jì)價(jià)值”,它既是一門多學(xué)科融合的一個(gè)交叉學(xué)科,也在反過來影響和改變著更多的科學(xué)領(lǐng)域。例如,利用大數(shù)據(jù)可以通過歷史數(shù)據(jù)進(jìn)行相關(guān)實(shí)驗(yàn)的建模和分析,配置最佳資源,有效的引導(dǎo)研究人員,從而降低研發(fā)成本,提高研發(fā)效率。
實(shí)驗(yàn)室信息管理系統(tǒng)(LIMS),它是由計(jì)算機(jī)硬件和應(yīng)用軟件組成,能夠完成實(shí)驗(yàn)室數(shù)據(jù)和信息的收集、分析、報(bào)告和管理。LIMS基于計(jì)算機(jī)局域網(wǎng),專門針對一個(gè)實(shí)驗(yàn)室的整體環(huán)境而設(shè)計(jì),是一個(gè)包括了信號采集設(shè)備、數(shù)據(jù)通訊軟件、數(shù)據(jù)庫管理軟件在內(nèi)的高效集成系統(tǒng)。以實(shí)驗(yàn)室為中心,將實(shí)驗(yàn)室的業(yè)務(wù)流程、環(huán)境、人員、儀器設(shè)備、標(biāo)物標(biāo)液、化學(xué)試劑、標(biāo)準(zhǔn)方法、圖書資料、文件記錄、科研管理、項(xiàng)目管理、客戶管理等等因素有機(jī)結(jié)合。
它以實(shí)驗(yàn)室為中心,將實(shí)驗(yàn)室的業(yè)務(wù)流程、環(huán)境、人員、儀器設(shè)備、標(biāo)物標(biāo)液、化學(xué)試劑、標(biāo)準(zhǔn)方法、圖書資料、文件記錄、科研管理、項(xiàng)目管理、客戶管理等等影響分析數(shù)據(jù)的因素有機(jī)結(jié)合起來,采用先進(jìn)的計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)和標(biāo)準(zhǔn)化的實(shí)驗(yàn)室管理思想,組成一個(gè)全面、規(guī)范的管理體系,為實(shí)現(xiàn)分析數(shù)據(jù)網(wǎng)上調(diào)度、分析數(shù)據(jù)自動采集、快速分布、信息共享、分析報(bào)告無紙化、質(zhì)量保證體系順利實(shí)施、成本嚴(yán)格控制、人員量化考核、實(shí)驗(yàn)室管理水平整體提高等各方面提供技術(shù)支持,是連接實(shí)驗(yàn)室、生產(chǎn)車間、質(zhì)管部門及客戶的信息平臺,同時(shí)引入先進(jìn)的數(shù)理統(tǒng)計(jì)技術(shù),如方差分析、相關(guān)和回歸分析、顯著性檢驗(yàn)、累積和控制圖、抽樣檢驗(yàn)等,協(xié)助職能部門發(fā)現(xiàn)和控制影響產(chǎn)品質(zhì)量的關(guān)鍵因素。
眾所周知,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實(shí)了,而最重要的現(xiàn)實(shí)是對大數(shù)據(jù)進(jìn)行分析,只有通過分析才能獲取很多智能的,深入的,有價(jià)值的信息。那么越來越多的應(yīng)用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價(jià)值的決定性因素。
技術(shù)實(shí)現(xiàn)要素:
基于背景技術(shù)存在的技術(shù)問題,本發(fā)明提出了一種基于LIMS系統(tǒng)的數(shù)據(jù)分析方法。
本發(fā)明提出的一種基于LIMS系統(tǒng)的數(shù)據(jù)分析方法,包括如下步驟:
S1,數(shù)據(jù)采集:在多個(gè)客戶端安裝數(shù)據(jù)采集模塊,所述數(shù)據(jù)采集模塊內(nèi)均設(shè)有關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫,所述關(guān)系型數(shù)據(jù)庫用于存儲檢測數(shù)據(jù),所述非關(guān)系型數(shù)據(jù)庫用于檢驗(yàn)檢測數(shù)據(jù)的采集,啟動所述客戶端,所述數(shù)據(jù)采集模塊也相應(yīng)的自行啟動,通過數(shù)據(jù)采集模塊采集客戶端的數(shù)據(jù);
S2,導(dǎo)入:所述數(shù)據(jù)采集模塊定時(shí)輪詢檢測客戶端產(chǎn)生的數(shù)據(jù),并判斷客戶端的數(shù)據(jù)是否產(chǎn)生變化,如是,將采集到的客戶端數(shù)據(jù)進(jìn)行預(yù)處理,并導(dǎo)入至分布式存儲集群;
S3,統(tǒng)計(jì)、分析:通過統(tǒng)計(jì)分析模塊對分布式存儲集群內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總,并逐條判定每條數(shù)據(jù)是否已經(jīng)分析和分類,將分析和分類結(jié)果存儲在分布式存儲集群,形成分析結(jié)果;
S4,挖掘:將分析結(jié)果提取至計(jì)算模塊,通過計(jì)算模塊進(jìn)行基于各種算法的計(jì)算,并啟動預(yù)測模塊進(jìn)行高級別數(shù)據(jù)分析,并展示出來。
優(yōu)選地,所述關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫均設(shè)有數(shù)據(jù)庫用戶名和數(shù)據(jù)庫密碼。
優(yōu)選地,所述客戶端為Web、App或者傳感器。
優(yōu)選地,所述非關(guān)系型數(shù)據(jù)庫為Redis或MongoDB。
優(yōu)選地,所述預(yù)測模塊采用Kmeans和NaiveBayes。
優(yōu)選地,所述預(yù)測模塊進(jìn)行高級別數(shù)據(jù)分析后,建立模型并將模型帶入新的數(shù)據(jù),從而預(yù)測未來的數(shù)據(jù)。
本發(fā)明中,先啟動客戶端,數(shù)據(jù)采集模塊也相應(yīng)的自行啟動,通過數(shù)據(jù)采集模塊采集客戶端的數(shù)據(jù),在挖掘時(shí),各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式,更加科學(xué)的呈現(xiàn)出數(shù)據(jù)本身具備的特點(diǎn),并深入數(shù)據(jù)內(nèi)部,挖掘出公認(rèn)的數(shù)據(jù)價(jià)值。通過數(shù)據(jù)挖掘的算法能更快速的處理大數(shù)據(jù),提高數(shù)據(jù)分析和處理的效率,最終預(yù)測性分析,從大數(shù)據(jù)中挖掘出特點(diǎn),通過科學(xué)的建立模型,之后便可以通過模型帶入新的數(shù)據(jù),從而預(yù)測未來的數(shù)據(jù),本發(fā)明可以應(yīng)用在各個(gè)領(lǐng)域,并在食品藥品檢驗(yàn)、認(rèn)證認(rèn)可、標(biāo)準(zhǔn)、網(wǎng)站、行政管理等工作中可以發(fā)揮重要作用,對進(jìn)一步提升檢驗(yàn)檢測行業(yè)信息化水平具有十分重要的作用。
具體實(shí)施方式
下面結(jié)合具體實(shí)施例對本發(fā)明作進(jìn)一步解說。
本發(fā)明提出的一種基于LIMS系統(tǒng)的數(shù)據(jù)分析方法,包括如下步驟:
S1,數(shù)據(jù)采集:在多個(gè)客戶端安裝數(shù)據(jù)采集模塊,所述數(shù)據(jù)采集模塊內(nèi)均設(shè)有關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫,所述關(guān)系型數(shù)據(jù)庫用于存儲檢測數(shù)據(jù),所述非關(guān)系型數(shù)據(jù)庫用于檢驗(yàn)檢測數(shù)據(jù)的采集,啟動所述客戶端,所述數(shù)據(jù)采集模塊也相應(yīng)的自行啟動,通過數(shù)據(jù)采集模塊采集客戶端的數(shù)據(jù);
S2,導(dǎo)入:所述數(shù)據(jù)采集模塊定時(shí)輪詢檢測客戶端產(chǎn)生的數(shù)據(jù),并判斷客戶端的數(shù)據(jù)是否產(chǎn)生變化,如是,將采集到的客戶端數(shù)據(jù)進(jìn)行預(yù)處理,并導(dǎo)入至分布式存儲集群;
S3,統(tǒng)計(jì)、分析:通過統(tǒng)計(jì)分析模塊對分布式存儲集群內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總,并逐條判定每條數(shù)據(jù)是否已經(jīng)分析和分類,將分析和分類結(jié)果存儲在分布式存儲集群,形成分析結(jié)果;
S4,挖掘:將分析結(jié)果提取至計(jì)算模塊,通過計(jì)算模塊進(jìn)行基于各種算法的計(jì)算,并啟動預(yù)測模塊進(jìn)行高級別數(shù)據(jù)分析,并展示出來。
本發(fā)明中,所述關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫均設(shè)有數(shù)據(jù)庫用戶名和數(shù)據(jù)庫密碼。所述客戶端為Web、App或者傳感器。所述非關(guān)系型數(shù)據(jù)庫為Redis或MongoDB。所述預(yù)測模塊采用Kmeans和NaiveBayes。所述預(yù)測模塊進(jìn)行高級別數(shù)據(jù)分析后,建立模型并將模型帶入新的數(shù)據(jù),從而預(yù)測未來的數(shù)據(jù)。
“大數(shù)據(jù)”時(shí)代來了,讓檢驗(yàn)檢測的“大數(shù)據(jù)”活起來是經(jīng)濟(jì)進(jìn)步的趨勢。應(yīng)用“大數(shù)據(jù)”的一個(gè)前提,是要為數(shù)據(jù)瘦身,根據(jù)業(yè)務(wù)的關(guān)聯(lián)性、結(jié)合數(shù)據(jù)庫技術(shù),將不同數(shù)據(jù)庫間的冗余數(shù)據(jù)剔除,甚至利用整合或重建消除數(shù)據(jù)孤島,讓檢驗(yàn)檢測“大數(shù)據(jù)”以最好的形式呈現(xiàn)出來。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。