一種客服電話重復(fù)來(lái)電工單的文本聚類與分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種客服電話重復(fù)來(lái)電工單的文本聚類與分析方法。
【背景技術(shù)】
[0002] 近年來(lái),隨著電力業(yè)務(wù)的迅猛發(fā)展,其客戶數(shù)量與業(yè)務(wù)類型隨之增長(zhǎng),客戶來(lái)電反 映的內(nèi)容龐雜多樣,如何從巨大的話務(wù)量中尋找有用信息,是客服工作面臨的巨大挑戰(zhàn)。根 據(jù)重復(fù)來(lái)電信息分析,對(duì)來(lái)電信息中隱含的語(yǔ)義特征進(jìn)行挖掘,重點(diǎn)關(guān)注重復(fù)來(lái)電次數(shù)多 的客戶,對(duì)來(lái)電出現(xiàn)的熱點(diǎn)問(wèn)題及時(shí)發(fā)現(xiàn)與跟蹤,以便能把握處理問(wèn)題的最佳時(shí)機(jī),從而提 高處理熱點(diǎn)問(wèn)題的能力和監(jiān)測(cè)能力。因此,如何在來(lái)電信息中進(jìn)行客戶重復(fù)來(lái)電問(wèn)題的匯 集與發(fā)現(xiàn),重復(fù)來(lái)電問(wèn)題的語(yǔ)義分析,準(zhǔn)確把握重復(fù)來(lái)電反映的熱點(diǎn)問(wèn)題,對(duì)于準(zhǔn)確有效地 提高客服的服務(wù)質(zhì)量具有十分重要的現(xiàn)實(shí)意義。
[0003]目前重復(fù)工單分析面臨著諸多問(wèn)題:工單受理內(nèi)容為文本信息,難分析,且信息量 大,非結(jié)構(gòu)化,需要人工逐條查閱,工作繁瑣且效率低下。對(duì)重復(fù)來(lái)電分析少,無(wú)法及時(shí)了解 客戶重復(fù)來(lái)電的原因,產(chǎn)生客戶服務(wù)滯后問(wèn)題,以致無(wú)法對(duì)熱點(diǎn)問(wèn)題及時(shí)做出反映。并且 95598工單中除了工單編號(hào)、客戶編號(hào)、聯(lián)系電話、受理時(shí)間等字段為結(jié)構(gòu)化數(shù)據(jù),還包括一 些非結(jié)構(gòu)化數(shù)據(jù),如受理內(nèi)容與處理情況等,這些部分都是以中文自然語(yǔ)言描述。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明為了解決上述問(wèn)題,提出了一種客服電話重復(fù)來(lái)電工單的文本聚類與分析 方法,該方法基于文本挖掘的重復(fù)來(lái)電模型,該模型能利用智能高效的篩選出重復(fù)來(lái)電工 單,對(duì)于準(zhǔn)確有效地提高客服的服務(wù)質(zhì)量具有十分重要的現(xiàn)實(shí)意義。
[0005] 為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
[0006] -種客服電話重復(fù)來(lái)電工單的文本聚類與分析方法,包括以下步驟:
[0007] (1)對(duì)提取的客服工單文本進(jìn)行清理,剔除重復(fù)來(lái)電中的異常來(lái)電號(hào)碼;
[0008] (2)提取同一用戶在計(jì)算周期內(nèi)重復(fù)2次以上來(lái)電的工單,構(gòu)建重復(fù)來(lái)電工單文 本集;
[0009] (3)建立向量空間模型,利用特征向量表征文本,將整個(gè)文本用以特征項(xiàng)的權(quán)重為 分量的向量來(lái)表示,判斷文本之間的相似度;
[0010] (4)利用層次聚類提取同一用戶的相似內(nèi)容的重復(fù)來(lái)電工單,對(duì)語(yǔ)義特征進(jìn)行分 析;
[0011] (5)對(duì)重復(fù)來(lái)電工單反映的問(wèn)題進(jìn)行及時(shí)記錄,派單并跟蹤記錄;
[0012] (6)形成重復(fù)來(lái)電工單反映的問(wèn)題表單。
[0013] 所述步驟(1)中,異常來(lái)電號(hào)碼包括無(wú)故掛斷、內(nèi)部撥測(cè)和12345異常來(lái)電。
[0014] 所述步驟⑵中,根據(jù)相關(guān)聯(lián)規(guī)則提取相同來(lái)電的工單,統(tǒng)計(jì)同一聯(lián)系人,包括聯(lián) 系人名稱或來(lái)電號(hào)碼或戶號(hào)相同的用戶的來(lái)電。
[0015] 所述步驟(2)中,重復(fù)工單文本集為客戶編號(hào)\聯(lián)系電話\供電公司\供電單位 相同的客戶來(lái)的受理內(nèi)容相同的工單集合。
[0016] 所述步驟⑶中,向量空間模型的具體方法包括:
[0017] (1)將文本分為若干的特征項(xiàng),計(jì)算出每個(gè)特征項(xiàng)在該文本中的權(quán)重,將整個(gè)文本 用以特征項(xiàng)的權(quán)重為分量的向量來(lái)表示;
[0018] (2)在將文本用特征向量的方式表示為數(shù)學(xué)模型以后,再基于特征向量進(jìn)行文本 之間的相似度計(jì)算。
[0019] 所述步驟(3)中,文本的權(quán)值分為詞頻型和布爾型,詞頻即詞條在文章中出現(xiàn)的 次數(shù),布爾型即在詞條在文本中是否出現(xiàn)過(guò),出現(xiàn)為1,未出現(xiàn)為0。
[0020] 所述步驟(4)中,向量空間模型的權(quán)重計(jì)算采用TF-IDF方法計(jì)算,設(shè)d是文本集 中的文本,f是文本集的特征詞,TF-IDF的計(jì)算公式如下:
[0021]
[0022] 式中,W(f,d)為特征詞f的權(quán)重,詞頻TF(f,d)為特征詞在文本中出現(xiàn)的頻率,倒 排文檔頻IDF,表示特征詞在文本集中出現(xiàn)的頻繁程度,IDF= '/!^+βΜ?)其中N為文 本集中的文本總數(shù),nf為出現(xiàn)該特征詞的文本數(shù)。
[0023] 所述步驟⑷中,用空間中的兩個(gè)向量的夾角余弦來(lái)度量文檔之間的相似度,夾 角余弦值越大,兩個(gè)向量的夾角越小,表示文檔越相似,具體方法為:
[0024]
[0025] 其中,?\表示文本特征向量,Tit表示文本T;的第t個(gè)向量。
[0026] 所述步驟(4)中,層次聚類算法具體方法是將每個(gè)文本數(shù)據(jù)看成一個(gè)類,接著合 并兩個(gè)最相似的文本,直到最后合并成一個(gè)組為止。
[0027] 所述步驟(6)中,問(wèn)題表單包括申請(qǐng)編號(hào)、單位名稱、供電單位、業(yè)務(wù)受理類型、受 理時(shí)間、客戶編號(hào)、聯(lián)系內(nèi)容和受理內(nèi)容。
[0028] 本發(fā)明的有益效果為:
[0029] 1、本發(fā)明替代了人工查找重復(fù)來(lái)電工單,能提高工作速率,解決了傳統(tǒng)方法僅憑 人工借助關(guān)聯(lián)工單或電話號(hào)碼、戶號(hào)篩查的方式統(tǒng)計(jì),不僅耗時(shí)巨大;
[0030] 2、提取有效的重復(fù)來(lái)電,對(duì)重復(fù)來(lái)電分析,能夠徹底反映用戶用電重復(fù)關(guān)心的問(wèn) 題和原因;
[0031] 3、利用大數(shù)據(jù)挖掘、語(yǔ)義分析技術(shù),計(jì)算時(shí)間短,時(shí)效性更強(qiáng),更有助于及時(shí)決策, 提高客服部門的工作效率,為客服管理人員做出決策提供技術(shù)支持,提高用戶的滿意度。
【附圖說(shuō)明】
[0032] 圖1是本發(fā)明的整體流程圖;
[0033] 圖2是本發(fā)明的形成的表格示意圖。
【具體實(shí)施方式】:
[0034] 下面結(jié)合附圖與實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
[0035] 1重復(fù)來(lái)電概念
[0036] 重復(fù)來(lái)電,是指同一用戶(戶號(hào)相同)對(duì)同一事件重復(fù)致電兩次及以上的事件集 合。具體描述如下:在查詢周期內(nèi),除表?yè)P(yáng)、訂閱和一次辦結(jié)咨詢、受理內(nèi)容為空的所有非用 戶號(hào)碼來(lái)電(例如12345、內(nèi)部撥測(cè)等)以外的業(yè)務(wù)工單,按照來(lái)電號(hào)碼、用戶編號(hào)、受理內(nèi) 容等進(jìn)行重復(fù)篩查所得到的重復(fù)事件數(shù)、工單數(shù)、電話數(shù)。
[0037] 客戶編號(hào),作為確定客戶唯一的標(biāo)志屬性,但在實(shí)際來(lái)電中,大部分工單記錄缺 失。而同一客戶,有可能采用不同電話號(hào)碼來(lái)電,反映的卻是同一事情??蛻魜?lái)電反映的問(wèn) 題,可根據(jù)工單中受理內(nèi)容這一字段確定,若受理內(nèi)容的文本信息相似,則認(rèn)為來(lái)電反映的 是同一件事情。另外,來(lái)電工單中受理內(nèi)容會(huì)有關(guān)聯(lián)工單編號(hào),將此工單與其關(guān)聯(lián)工單,也 定義為重復(fù)來(lái)電工單。因此,重復(fù)工單集合為客戶編號(hào)\聯(lián)系電話\供電公司\供電單位 相同的客戶,其受理內(nèi)容相似的工單集合。
[0038] 2文本挖掘技術(shù)
[0039] 文本挖掘,是指從大量文本中抽取事先未知的、可理解的、最終可用的知識(shí)的過(guò) 程,同時(shí)運(yùn)用這些知識(shí)能更好地組織信息以便將來(lái)參考。文本挖掘的主要目的是從非結(jié)構(gòu) 化文本發(fā)明檔中提取有趣的、重要的模式和知識(shí)。一般來(lái)說(shuō),文本挖掘的主要處理過(guò)程是對(duì) 大量文檔集合的內(nèi)容進(jìn)行預(yù)處理、特征提取、結(jié)構(gòu)分析、文本摘要、文本分類、文本聚類、關(guān) 聯(lián)分析等。
[0040] 本發(fā)明主要利用文本挖掘技術(shù),對(duì)工單的受理內(nèi)容進(jìn)行文本聚類。首先需要將工 單文本中的受理內(nèi)容進(jìn)行分詞,將其轉(zhuǎn)換成一個(gè)個(gè)詞條。當(dāng)前中文分詞算法主要可以分為 三大類:基于詞典的方法、基于統(tǒng)計(jì)的方法、基于規(guī)則的方法。基于詞典的方法,即機(jī)械分詞 法,可使用中科院張華平等開發(fā)的ICTCLAS(InstituteofComputingTechnology,Chinese lexicalanalysissystem)的分詞工具進(jìn)行分詞,然后進(jìn)行詞性過(guò)濾、停用詞過(guò)濾等預(yù)處 理。
[0041] 2. 1文本建模
[0042] 由于工單信息大部