本發(fā)明涉及大數據,具體為基于數據挖掘技術的招標信息智能篩選方法及系統(tǒng)。
背景技術:
1、中國專利申請?zhí)朿n202311403479.9的發(fā)明中,公開了一種招標書的需求類別處理方法、裝置、設備及存儲介質。該方法包括:獲取至少兩個招投標數據分別對應的至少一個招投標文本組合,獲取每個招投標文本組合中的投標文本響應招標文本的響應匹配度,針對任意兩個招投標數據,獲取兩個招投標數據分別對應的投標文本之間的投標文本相似度,根據兩個招投標數據分別對應的至少一個響應匹配度以及兩個招投標數據對應的至少一個投標文本相似度,確定兩個招投標數據分別對應的招標文本之間的招標需求關聯(lián)度,基于至少一個招標需求關聯(lián)度,對各招投標數據中的各招標文本進行聚類得到招標文本聚類集的招標需求類別。本發(fā)明實施例解決了文本相似度算法與招標需求文本匹配度不高的問題。
2、由此可知,對所有的招標信息進行分析會大大加劇處理壓力和時長,且不能確定當前處理的招標信息文件是否符合項目的需求狀況,如果對不符合需求的招標信息進行處理和解析無疑是做出了無效工作,面對復雜的招標文件及其技術要求、預算和風險信息不能優(yōu)先的判斷招標信息是否符合需求也是當下急需解決的前置任務,不能將眾多的招標信息進行解析匹配出符合項目的招標信息,會產生后續(xù)的工作造成了無效工作的可能性。
技術實現思路
1、針對現有技術的不足,本發(fā)明提供了基于數據挖掘技術的招標信息智能篩選方法及系統(tǒng),解決了背景技術中提到的問題。
2、為實現以上目的,本發(fā)明通過以下技術方案予以實現:基于數據挖掘技術的招標信息智能篩選系統(tǒng),包括需求解析模塊、招標信息解析模塊、匹配度計算模塊、評分排序模塊和迭代優(yōu)化模塊;
3、所述需求解析模塊通過自然語言處理技術從企業(yè)的項目需求文檔中提取需求信息并將其結構化處理,包括技術要求trq、預算范圍brq和項目周期drq,組成需求數據組xz;
4、所述招標信息解析模塊對接收到的招標信息文件進行解析,并進行提取技術要求、預算、項目周期、資金來源和附加條款相關信息,通過整合后獲提取技術要求tbd、提取預算bbd、提取執(zhí)行周期dbd和提取風險參數r,組成招標數據組zz;
5、所述匹配度計算模塊對需求數據組xz和招標數據組zz進行建立匹配度評估算法,生成招標信息文件與項目需求的匹配度評分mtc,并與預設的項目需求匹配招標評估閾值pz進行匹配,獲取當前招標信息文件的匹配狀態(tài)結果;
6、所述評分排序模塊根據當前招標信息文件的匹配狀態(tài)結果對獲取的招標信息文件進行結合歷史數據,生成招標信息的綜合二次評估指數sc,組成招標信息的綜合二次評估指數sc的綜合招標數據組zhz,并進行排序;
7、所述迭代優(yōu)化模塊對排序后的綜合招標數據組zhz招標信息進行驗證,并收集反饋信息,包括中標結果和項目執(zhí)行反饋信息,對匹配度評估算法生成的匹配度評分mtc和綜合二次評估指數sc進行調控。
8、優(yōu)選的,所述需求解析模塊包括自然語言處理單元和數據結構化單元;
9、所述自然語言處理單元通過自然語言處理技術從企業(yè)的項目需求文檔進行解析和提取需求信息,項目需求文檔的解析包括,將項目需求文檔分成不同的邏輯部分,包括技術要求部分、預算部分和周期部分,再使用關鍵詞提取和正則表達式技術提取需求信息,包括提取項目需求中的技術要求信息、預算范圍信息和項目周期信息;
10、所述數據結構化單元將提取的技術要求信息、預算范圍信息和項目周期信息進行結構化處理,結果處理包括提取出現的不同信息內容出現的頻率,包括技術要求trq、預算范圍brq和項目周期drq,組成需求數據組xz,具體為xz={trq,brq,drq}。
11、優(yōu)選的,所述招標信息解析模塊包括信息提取單元和數據整合單元;
12、所述信息提取單元對接收到的招標信息文件進行解析,解析包括按照不同部分進行分類,并進行提取技術要求、預算、項目周期、資金來源和附加條款相關信息,并對提取的技術要求、預算、項目周期、資金來源和附加條款相關信息使用正則表達式獲取相關數值信息,數據信息包括不同的技術要求出現的頻率、不同的預算出現的頻率、不同的項目周期出現的頻率和不同的附加條款相關信息的頻率;
13、所述數據整合單元通過整合相關數值信息后獲提取技術要求tbd、提取預算bbd、提取執(zhí)行周期dbd和提取風險參數r,組成招標數據組zz,具體為zz={tbd,bbd,dbd,r}。
14、優(yōu)選的,所述匹配度計算模塊包括匹配評估單元和狀態(tài)檢測單元;
15、所述匹配評估單元對需求數據組xz和招標數據組zz進行建立匹配度評估算法,生成招標信息文件與項目需求的匹配度評分mtc;
16、所述匹配度評分mtc通過以下計算公式獲?。?/p>
17、;
18、式中,simtech表示技術要求的匹配度,simbudget表示預算的匹配度,simcycle表示執(zhí)行周期的匹配度,log表示對數函數,r表示提取風險參數,m1、m2和m3分別表示技術要求的匹配度simtech、預算的匹配度simbudget和執(zhí)行周期的匹配度simcycle的預設權重值,且,,,,具體數值由用戶進行設定;
19、所述技術要求的匹配度simtech通過以下統(tǒng)計算法公式獲?。?/p>
20、;
21、式中,表示技術要求trq和提取技術tbd要求的交集,具體表示相同的技術要求信息,表示技術要求trq和提取技術要求tbd的并集,具體表示技術要求trq和提取技術要求tbd的總和;
22、所述預算的匹配度simbudget通過以下統(tǒng)計算法公式獲?。?/p>
23、;
24、式中,brq表示預算范圍,bbd表示提取預算;
25、所述執(zhí)行周期的匹配度simcycle:
26、;
27、式中,drq表示項目周期,dbd表示提取執(zhí)行周期。
28、優(yōu)選的,所述狀態(tài)檢測單元通過匹配度評分mtc與預設的項目需求匹配招標評估閾值pz進行匹配,獲取當前招標信息文件的匹配狀態(tài)結果;
29、所述當前招標信息文件的匹配狀態(tài)結果通過以下匹配方式獲?。?/p>
30、;
31、當前招標信息文件的匹配狀態(tài)結果的匹配返回信號status為1時,獲取匹配結果,對當前招標信息文件進行標記匹配結果;
32、當前招標信息文件的匹配狀態(tài)結果的匹配返回信號status為0時,獲取不匹配結果,對當前招標信息文件進行標記不匹配結果。
33、優(yōu)選的,所述評分排序模塊包括二次評估單元和整合單元;
34、所述二次評估單元根據當前招標信息文件的匹配狀態(tài)結果對獲取的招標信息文件進行結合歷史數據,包括當前招標信息文件來源公司的歷史招標信息執(zhí)行記錄和中標記錄,同步進行統(tǒng)計分析,獲取當前招標信息來源公司的招標信息文件執(zhí)行的歷史評分hs和中標率sr,再與匹配度評分mtc進行擬合生成招標信息的綜合二次評估指數sc;
35、所述綜合二次評估指數sc通過以下計算公式獲取:
36、;
37、所述歷史評分hs通過以下計算公式統(tǒng)計分析獲取:
38、;
39、式中,q表示項目交付質量狀態(tài),具體表示項目交付后是否存在質量問題,并將出現質量問題的區(qū)域對比項目施工總區(qū)域獲取交付質量區(qū)域比例信息,c表示成本控制評分,具體表示項目交付時項目預算超出的比例,t表示項目交付周期評分,具體表示項目交付時延遲的時間比例,h1、h2和h3分別表示項目交付質量狀態(tài)q、成本控制評分和項目交付周期評分t的預設權重值,且,,,且,具體數值由用戶進行設定;
40、所述中標率sr通過以下計算公式獲?。?/p>
41、;
42、式中,zbl表示固定周期內中標的項目數量,tbzs表示固定周期內投標的項目總數。
43、優(yōu)選的,所述整合單元根據招標信息的綜合二次評估指數sc對所有的招標信息進行標記關聯(lián),組成的綜合招標數據組zhz,并進行冒泡排序;
44、其中,冒泡排序具體通過比較綜合招標數據組zhz中的第i個綜合二次評估指數sc和第i+1個綜合二次評估指數sc的結果進行交換位置,重復進行交換位置直到沒有交換位置的情況出現,停止冒泡排序。
45、優(yōu)選的,所述迭代優(yōu)化模塊包括反饋收集單元和算法調控單元;
46、所述反饋收集單元對排序后的綜合招標數據組zhz招標信息進行驗證,并收集反饋信息,包括中標結果和項目執(zhí)行反饋信息;
47、其中,中標結果反饋信息收集包括對排序后的綜合招標數據組zhz中的前五的項目進行驗證,并進行記錄項目的中標結果;當中標結果為中標成功,記錄中標項目的招標數據組zz;當中標結果為未中標,記錄前五的項目未中標原因,并進行標記招標數據組zz中的具體影響未中標的參數信息,并進行觸發(fā)所述算法調控單元進行執(zhí)行;
48、項目執(zhí)行反饋信息包括收集項目交付質量狀態(tài)q、成本控制評分c和項目交付周期評分t。
49、優(yōu)選的,所述算法調控單元根據記錄前五的項目的中標結果進行觸發(fā)對匹配度評估算法生成的匹配度評分mtc和綜合二次評估指數sc進行調控,調控包括比例調整m1、m2、m3、h1、h2和h3;
50、其中,觸發(fā)包括當中標結果為中標時觸發(fā)對匹配度評估算法生成的匹配度評分mtc和綜合二次評估指數sc進行調控。
51、基于數據挖掘技術的招標信息智能篩選方法,包括以下步驟:
52、步驟一:需求解析模塊通過自然語言處理技術從企業(yè)的項目需求文檔中提取需求信息并將其結構化處理,包括技術要求trq、預算范圍brq和項目周期drq,組成需求數據組xz;
53、步驟二:招標信息解析模塊對接收到的招標信息文件進行解析,并進行提取技術要求、預算、項目周期、資金來源和附加條款相關信息,通過整合后獲提取技術要求tbd、提取預算bbd、提取執(zhí)行周期dbd和提取風險參數r,組成招標數據組zz;
54、步驟三:匹配度計算模塊對需求數據組xz和招標數據組zz進行建立匹配度評估算法,生成招標信息文件與項目需求的匹配度評分mtc,并與預設的項目需求匹配招標評估閾值pz進行匹配,獲取當前招標信息文件的匹配狀態(tài)結果;
55、步驟四:評分排序模塊根據當前招標信息文件的匹配狀態(tài)結果對獲取的招標信息文件進行結合歷史數據,生成招標信息的綜合二次評估指數sc,組成招標信息的綜合二次評估指數sc的綜合招標數據組zhz,并進行排序;
56、步驟五:迭代優(yōu)化模塊對排序后的綜合招標數據組zhz招標信息進行驗證,并收集反饋信息,包括中標結果和項目執(zhí)行反饋信息,對匹配度評估算法生成的匹配度評分mtc和綜合二次評估指數sc進行調控。
57、本發(fā)明提供了基于數據挖掘技術的招標信息智能篩選方法及系統(tǒng),具備以下有益效果:
58、(1)系統(tǒng)運行時,通過自然語言處理技術精準提取企業(yè)的項目需求,自動結構化處理需求信息,形成需求數據組。其次,系統(tǒng)能高效解析招標文件,提取關鍵信息如技術要求、預算、執(zhí)行周期和風險參數,形成招標數據組。接著,匹配度計算模塊通過建立智能匹配算法,將項目需求與招標信息進行全面對比,生成匹配度評分mtc并自動篩選符合企業(yè)需求的招標項目。同時,系統(tǒng)結合歷史數據生成綜合二次評估指數sc,并對所有招標項目進行排序,幫助企業(yè)優(yōu)先考慮高潛力項目,最后,通過迭代優(yōu)化能力,通過收集實際中標結果和項目執(zhí)行反饋,動態(tài)調整匹配度評分mtc和綜合二次評估指數sc進行調控,持續(xù)優(yōu)化篩選過程,確保篩選結果不斷提高。
59、(2)通過引入匹配評估單元和狀態(tài)檢測單元,精準計算項目需求與招標信息的匹配度評分mtc,并通過對技術要求、預算、周期等多維度的智能評估,確保篩選出的招標信息高度符合企業(yè)需求。評分排序模塊則通過結合歷史數據進行二次評估,生成綜合二次評估指數sc,并通過冒泡排序對招標信息進行精準排序。系統(tǒng)通過綜合歷史評分hs和中標率sr,提升了對供應商過去表現的量化評估,使篩選過程更加全面、嚴謹。同時,冒泡排序確保高潛力項目優(yōu)先呈現,使得企業(yè)能夠快速定位最佳投標機會。系統(tǒng)的自動化和數據驅動能力有效減少了手工篩選誤差,極大提高了篩選的智能化程度,提供了精細化的匹配度評估和綜合排序功能,使企業(yè)在復雜投標環(huán)境下能夠高效做出決策。
60、(3)通過迭代優(yōu)化模塊中的反饋收集單元和算法調控單元,確保篩選流程的動態(tài)優(yōu)化與持續(xù)改進。系統(tǒng)不僅對前五個排名靠前的項目進行中標結果的驗證,還能夠通過收集未中標原因和具體影響因素來識別潛在問題,并觸發(fā)算法調控,對匹配度評估算法生成的匹配度評分mtc和綜合二次評估指數sc進行調控。同時,系統(tǒng)對中標項目的執(zhí)行反饋信息進行詳細收集,包括項目質量、成本控制和交付周期,從而在下一次篩選中對評分權重進行動態(tài)調整。通過這一機制,系統(tǒng)能夠不斷學習歷史結果和執(zhí)行表現,逐步優(yōu)化匹配度評分mtc和綜合二次評估指數sc,確保后續(xù)評估結果更加精準。相比于靜態(tài)算法,該迭代優(yōu)化過程大幅提升了系統(tǒng)的靈活性和自適應能力,為企業(yè)提供了更加精準、實時更新的招標信息篩選和評估。