国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于標(biāo)識多個字符串中的對話的方法和裝置制造方法

      文檔序號:7977494閱讀:220來源:國知局
      用于標(biāo)識多個字符串中的對話的方法和裝置制造方法
      【專利摘要】用于標(biāo)識多個段字符串中的對話的技術(shù)包括至少部分基于連續(xù)的字符串之間的時間間距、從與用戶的第一聯(lián)系人關(guān)聯(lián)的第一多個字符串確定第一對話部分和第二對話部分。第一對話部分(片段)包括第一多個字符串中的多個字符串;并且第二片段包括第一多個字符串中的不同的多個字符串。確定用于第一片段的第一語義內(nèi)容和用于第二片段的第二語義內(nèi)容。至少部分地基于第一語義內(nèi)容與第二語義內(nèi)容的相似度確定是否將第一片段和第二片段合并成包括第一片段的第一對話。
      【專利說明】用于標(biāo)識多個字符串中的對話的方法和裝置
      【背景技術(shù)】
      [0001 ] 服務(wù)提供商和設(shè)備制造商(例如無線、蜂窩等)在例如通過提供有吸引力的網(wǎng)絡(luò)服務(wù)來向消費者遞送價值和便利上不斷受到挑戰(zhàn)。包括電子郵件(電子郵件)、即時消息(頂)、短消息服務(wù)(SMS)和社交網(wǎng)絡(luò)服務(wù)在內(nèi)的一類很流行的服務(wù)允許用戶相互交換消息。通常按照用戶與之交換消息的聯(lián)系人和發(fā)送或者遞送消息的時間來組織消息。在一些境況中,用戶可以偏好于基于討論主題對來自聯(lián)系人的多個消息分組,而這些服務(wù)中的許多服務(wù)未提供這樣的選項。實際上,利用具有對消息的字符限制并且無主題行的服務(wù)、比如SMS和社交聯(lián)網(wǎng)服務(wù),難以斷定個別消息的主題。

      【發(fā)明內(nèi)容】

      [0002]因此,需要一種用于標(biāo)識多個字符串中的對話的方式。
      [0003]根據(jù)一個實施方式,一種方法包括基于連續(xù)的字符串之間的時間間距,從與用戶的第一聯(lián)系人關(guān)聯(lián)的第一多個字符串確定第一對話部分和不同的第二對話部分,所述第一對話部分包括所述第一多個字符串中的多個字符串,所述第二對話部分包括所述第一多個字符串中的不同的多個字符串。該方法還包括確定用于第一對話部分的第一語義內(nèi)容和用于第二對話部分的第二語義內(nèi)容。該方法還包括至少部分地基于第一語義內(nèi)容與第二語義內(nèi)容的相似度來確定是否將第一對話部分和第二對話部分合并成包括第一對話部分的第一對話。
      [0004]根據(jù)另一實施方式,一種方法包括促進訪問至少一個接口,該至少一個接口被配置為允許訪問至少一個服務(wù),該至少一個服務(wù)被配置為執(zhí)行上述方法中的所有或者部分方法。
      [0005]根據(jù)另一實施方式,一種裝置包括至少一個處理器和至少一個存儲器,該至少一個存儲器包括計算機程序代碼,該至少一個存儲器和該計算機程序代碼被配置為與該至少一個處理器一起至少部分地使得該裝置執(zhí)行上述方法中的所有或者部分方法。
      [0006]根據(jù)另一實施方式,一種計算機可讀存儲介質(zhì)承載一個或者多個指令的一個或者多個序列,一個或者多個指令的一個或者多個序列在由一個或者多個處理器執(zhí)行時至少部分地使裝置執(zhí)行上述方法中的所有或者部分方法。
      [0007]根據(jù)另一實施方式,一種設(shè)備包括用于執(zhí)行上述方法中的所有或者部分方法的裝置。
      [0008]僅通過舉例說明多個【具體實施方式】和實現(xiàn)方式從以下具體描述中容易清楚本發(fā)明的更多其它方面、特征和優(yōu)點,這些【具體實施方式】和實現(xiàn)方式包括設(shè)想的用于實現(xiàn)本發(fā)明的最佳實施方式。本發(fā)明也能夠有其它和不同實施方式并且可以在各種明顯方面修改它的若干細節(jié)而都未脫離本發(fā)明的精神實質(zhì)和范圍。因而,附圖和描述將視為在性質(zhì)上為示例而非限制。
      【專利附圖】

      【附圖說明】[0009]在附圖的各圖中通過示例而非通過限制來舉例說明本發(fā)明的實施方式:
      [0010]圖1A是根據(jù)一個實施方式的能夠標(biāo)識多個短文本串中的對話的系統(tǒng)的圖;
      [0011]圖1B是根據(jù)一個實施方式的圖1A的系統(tǒng)的數(shù)據(jù)流框架的圖;
      [0012]圖2A是根據(jù)一個實施方式的示例性文本串主題拓撲的圖;
      [0013]圖2B是根據(jù)一個實施方式的詞匯表和主題數(shù)據(jù)結(jié)構(gòu)的圖;
      [0014]圖2C是根據(jù)一個實施方式的用戶文本串?dāng)?shù)據(jù)結(jié)構(gòu)的圖;
      [0015]圖3A是根據(jù)一個實施方式的用于標(biāo)識多個短文本串中的對話的客戶端過程的流程圖;
      [0016]圖3B是根據(jù)一個實施方式的在圖3A的過程中的步驟的流程圖;
      [0017]圖4A-4D是根據(jù)各種實施方式的在圖3的過程中利用的用戶接口的圖;
      [0018]圖5是根據(jù)一個實施方式的用于標(biāo)識多個短文本串中的對話的服務(wù)過程的流程圖;
      [0019]圖6A-6B是根據(jù)一個實施方式的、比較根據(jù)一個實施方式標(biāo)識的對話與人工定義的對話的圖;
      [0020]圖7是可以用來實施本發(fā)明的一個實施方式的硬件的圖;
      [0021]圖8是可以用來實施本發(fā)明的一個實施方式的芯片組的圖;以及
      [0022]圖9是可以在本發(fā)明的一個實施方式中使用的移動終端(例如手持機)的圖。
      【具體實施方式】
      [0023]公開了一種用于標(biāo)識多個字符串中的對話的方法、裝置和計算機程序的示例。在下文描述中,出于說明的目的,闡述了許多具體細節(jié)以便提供對本發(fā)明的實施方式的透徹理解。然而本領(lǐng)域技術(shù)人員清楚,無這些具體細節(jié)仍可實現(xiàn)或者可以用等效布置來實現(xiàn)本發(fā)明的實施方式。在其它實例中,以框圖形式示出公知結(jié)構(gòu)和設(shè)備以免不必要地模糊本發(fā)明的實施方式。
      [0024]如這里所用,術(shù)語用戶例如指代通過通信網(wǎng)絡(luò)使用服務(wù)或者設(shè)備的實體,其中實體可以是個人或者組織。聯(lián)系人例如指代服務(wù)的如下不同用戶,用戶通過服務(wù)與該不同用戶通信。如這里所用,術(shù)語字符串指代任何數(shù)據(jù),并且在示出的實施方式中,文本串指代從通過通信網(wǎng)絡(luò)在用戶的設(shè)備與用戶的聯(lián)系人的設(shè)備之間發(fā)送的任何類型的消息得出的字符序列。例如具有關(guān)聯(lián)的發(fā)送或者遞送或者接收時間的任何消息可以用作文本串的來源,這些消息包括有字符限制并且無主題行元數(shù)據(jù)的電子郵件和消息,比如SMS消息、IM消息和向社交網(wǎng)絡(luò)服務(wù)發(fā)表的評論以及其它消息或者某一組合。從有字符限制的來源得出的字符串可以稱為短文本串。對話例如指代如下一個或者多個文本或者其它字符串的匯集,該一個或者多個文本或者其它字符串被確定為在時間和主題上被聚類并且例如與用戶的一個聯(lián)系人和與匯集的文本串關(guān)聯(lián)的任何內(nèi)容關(guān)聯(lián)。雖然關(guān)于在移動終端交換的SMS消息描述各種實施方式,但是設(shè)想這里描述的方式可以與一種或者多種類型的消息中的任何消息內(nèi)的其它文本串來源一起單獨地或者以任何組合方式使用,所述消息是在通信網(wǎng)絡(luò)上的移動終端或者固定節(jié)點處交換的。
      [0025]圖1是根據(jù)一個實施方式的能夠標(biāo)識多個短文本串中的對話的系統(tǒng)100的圖。為了方便而稱為用戶A至用戶M的、數(shù)目為M的用戶分別運用用戶設(shè)備(UE)IOla至IOlm (下文統(tǒng)稱為UE101)以各自訪問網(wǎng)絡(luò)服務(wù)110以及由省略號指示的并且在下文中統(tǒng)稱為網(wǎng)絡(luò)服務(wù)110的其它服務(wù)。在一些實施方式中,服務(wù)110與UElOl上的服務(wù)專屬客戶端過程117交互。在一些實施方式中,服務(wù)110與UElOl上的稱為瀏覽器107的更通用萬維網(wǎng)客戶端過程交互。服務(wù)110中的每個服務(wù)通常包括用于保持與服務(wù)有關(guān)的數(shù)據(jù)的服務(wù)數(shù)據(jù)存儲庫114,該數(shù)據(jù)包括被稱為用戶簡檔數(shù)據(jù)的關(guān)于服務(wù)的每個用戶的數(shù)據(jù)。
      [0026]一些服務(wù)110基于時間統(tǒng)計量或者基于從個別消息推斷的語義內(nèi)容標(biāo)識對話。盡管電子郵件提供主題行并且允許能夠被挖掘語義內(nèi)容的相當(dāng)長的消息,但是在頂、SMS和社交聯(lián)網(wǎng)評論中使用的短文本串未提供主題行和用于支持語義分析的充足文本。在多數(shù)情況下,任一條短消息都屬于具體的對話,但是現(xiàn)有消息傳送工具不能提供一種用于揭示這樣的隱藏對話的有效組織方法。因此,未基于語義內(nèi)容將用于這樣的短文本串的消息組織成對話,并且可能按照時間統(tǒng)計量將若干不同對話混雜在一起。另外,可能將單個對話錯誤地表示為不同對話?,F(xiàn)有的消息傳送管理工具簡單地根據(jù)時間、發(fā)送者/接收者或者內(nèi)容來組織消息。檢測一個對話中的短文本的線索并且將它們組織為對話可以幫助人們快速想起對話場景并且掌握核心內(nèi)容。因此,包括一個或者多個具有短文本串的消息的現(xiàn)有消息組織方法是有缺陷的。
      [0027]為了提供一種適合于IM、SMS和社交團體對話的創(chuàng)新的消息傳送管理工具,提供了一種用于基于短文本的社交/時間屬性和內(nèi)容的主題相關(guān)度將短文本自動組織成有意義對話的機制和方法。圖1的系統(tǒng)100引入了用于標(biāo)識多個短文本串中的對話的能力。標(biāo)識對話服務(wù)150確定適合于短文本串業(yè)務(wù)的語義詞匯表和主題模型或者確定模型的一個或者多個參數(shù),以基于時間聚類和語義相似度或者某一組合而從短文本串形成對話。在短文本詞匯表數(shù)據(jù)存儲庫數(shù)據(jù)結(jié)構(gòu)154中存儲詞匯表和主題模型。標(biāo)識對話客戶端過程152監(jiān)控在用戶設(shè)備、例如在UElOlm處與一個或者多個服務(wù)110交換的消息,提取包括一個或者多個短文本串的文本串并且至少部分地基于語義詞匯表和主題模型和語義相似度將那些文本串和任何關(guān)聯(lián)內(nèi)容組織成對話。標(biāo)識對話客戶端152在一些實施方式中也確定用于對話的標(biāo)簽,并且通過直接生成用戶接口或者通過服務(wù)客戶端117或者通過瀏覽器107來將對話信息與任何標(biāo)簽一起呈現(xiàn)給UElOlm的用戶。在一些實施方式中,服務(wù)110包括標(biāo)識對話代理156,其參與服務(wù)110與標(biāo)識對話服務(wù)150之間的交互,例如以便獲得標(biāo)識對話客戶端152以用于安裝于客戶端117中。
      [0028]雖然出于示例的目的而表示為在連接到網(wǎng)絡(luò)105的節(jié)點的特定布置中的整體塊,但是在其它實施方式中,按不同順序布置一個或者多個過程或者數(shù)據(jù)結(jié)構(gòu)或者其一部分。例如,服務(wù)150例如在云計算布置中具有客戶端152的功能中的一些或者所有功能。
      [0029]如圖1A中所示,系統(tǒng)100包括用戶設(shè)備(UE) 101,該UE具有經(jīng)由通信網(wǎng)絡(luò)105的與服務(wù)110和標(biāo)識對話服務(wù)150的連通。舉例而言,系統(tǒng)100的通信網(wǎng)絡(luò)105包括一個或者多個網(wǎng)絡(luò)、比如數(shù)據(jù)網(wǎng)絡(luò)(未示出)、無線網(wǎng)絡(luò)(未示出)、電話網(wǎng)絡(luò)(未示出)或者其任何組合。設(shè)想數(shù)據(jù)網(wǎng)絡(luò)可以是任何局域網(wǎng)(LAN)、城域網(wǎng)(MAN)、廣域網(wǎng)(WAN)、公共數(shù)據(jù)網(wǎng)(例如因特網(wǎng))、短程無線網(wǎng)絡(luò)或者任何其它適當(dāng)分組交換網(wǎng)絡(luò)、比如商業(yè)上擁有的專有分組交換網(wǎng)絡(luò)如專有線纜或者光纖網(wǎng)絡(luò)等或者其任何組合。此外,無線網(wǎng)絡(luò)可以例如是蜂窩網(wǎng)絡(luò)并且可以運用包括全球演進增強數(shù)據(jù)速率(EDGE)、通用分組無線電服務(wù)(GPRS)、全球移動通信系統(tǒng)(GSM)、網(wǎng)際協(xié)議多媒體子系統(tǒng)(MS)、通用移動電信系統(tǒng)(UMTS)等的各種技術(shù)以及任何其它適當(dāng)無線介質(zhì)、例如全球微波接入互操作性(WiMAX)、長期演進(LTE)網(wǎng)絡(luò)、碼分多址(CDMA)、寬帶碼分多址(WCDMA)、無線保真(WiFi)、無線LAN (WLAN)、藍牙?、網(wǎng)際協(xié)議(IP)數(shù)據(jù)播送、衛(wèi)星、移動自組織網(wǎng)絡(luò)(MANET)等或者其任何組合。
      [0030]UElOl可以是任何類型的移動終端、固定終端或者便攜式終端,該終端包括移動手持機、站、單元、設(shè)備、多媒體計算機、多媒體寫字板、因特網(wǎng)節(jié)點、通信器、桌面型計算機、膝上型計算機、筆記本計算機、上網(wǎng)本計算機、寫字板計算機、個人通信系統(tǒng)(PCS)設(shè)備、個人導(dǎo)航設(shè)備、個人數(shù)字助理(PDA)、音頻/視頻播放器、數(shù)字相機/可攜式攝像機、定位設(shè)備、電視接收器、無線電廣播接收器、電子書設(shè)備、游戲設(shè)備或者其任何組合——包括這些設(shè)備的附件和外設(shè)——或者其任何組合。也設(shè)想UElOl可以支持與用戶的任何類型的接口(比如“可佩戴”電路裝置等)。在一些實施方式中,UElOl中的一個或者多個UE包括情境引擎103,這些情境引擎確定UElOl的當(dāng)前環(huán)境,比如設(shè)備標(biāo)識符、安裝的裝備、當(dāng)前時間、與網(wǎng)絡(luò)105的當(dāng)前連通(包括信號強度和噪聲電平)、功率電平以及當(dāng)前執(zhí)行的過程。
      [0031]舉例而言,UElOl使用公知的、新型或者仍在開發(fā)的協(xié)議來相互通信并且與通信網(wǎng)絡(luò)105的其它部件通信。在本文中,協(xié)議包括定義通信網(wǎng)絡(luò)105內(nèi)的網(wǎng)絡(luò)節(jié)點如何基于通過通信鏈路發(fā)送的信息相互交互的規(guī)則集合。協(xié)議在每個節(jié)點內(nèi)的不同操作層有效,并且這些操作層從生成和接收各種類型的物理信號到選擇用于傳送那些信號的鏈路到那些信號指示的信息的格式、到標(biāo)識在計算機系統(tǒng)上執(zhí)行的哪個軟件應(yīng)用發(fā)送或者接收信息是有效的。在開放系統(tǒng)互連(OSI)參考模型中描述用于通過網(wǎng)絡(luò)交換信息的在概念上不同的協(xié)議層。
      [0032]通常通過交換離散數(shù)據(jù)分組來實現(xiàn)網(wǎng)絡(luò)節(jié)點之間的通信。每個分組通常包括(I)與特定協(xié)議關(guān)聯(lián)的報頭信息和(2)凈荷信息,該凈荷信息跟隨報頭信息并且包含可以獨立于該特定協(xié)議來處理的信息。在一些協(xié)議中,分組包括(3)尾部信息,該尾部信息跟隨凈荷并且指示凈荷信息的結(jié)束。報頭包括如下信息,比如分組的源、分組的目的地、凈荷的長度和協(xié)議所使用的其它特性。用于特定協(xié)議的凈荷中的數(shù)據(jù)經(jīng)常包括用于與OSI參考模型的不同高層關(guān)聯(lián)的不同協(xié)議的報頭和凈荷。用于特定協(xié)議的報頭通常指示用于它的凈荷中所含下一協(xié)議的類型。認為高層協(xié)議封裝于低層協(xié)議中。在跨越多個異構(gòu)網(wǎng)絡(luò)(比如因特網(wǎng))的分組中包括的報頭通常包括如OSI參考模型定義的物理(第I層)報頭、數(shù)據(jù)鏈路(第2層)報頭、網(wǎng)絡(luò)間(第3層)報頭和傳送(第4層)報頭以及各種應(yīng)用層(第5層、第4層和第7層)報頭。
      [0033]在各種設(shè)備上執(zhí)行的過程經(jīng)常使用廣泛已知和使用的網(wǎng)絡(luò)通信的客戶端-服務(wù)器模型來通信。根據(jù)客戶端-服務(wù)器模型,客戶端過程向服務(wù)器過程發(fā)送包括請求在內(nèi)的一個或者多個數(shù)據(jù)分組的消息,并且服務(wù)器過程通過提供服務(wù)來進行響應(yīng)。服務(wù)器過程也可以向客戶端過程返回具有響應(yīng)的消息。客戶端過程和服務(wù)器過程經(jīng)常在被稱為主機的不同計算機設(shè)備上執(zhí)行并且使用用于網(wǎng)絡(luò)通信的一個或者多個協(xié)議而經(jīng)由網(wǎng)絡(luò)進行通信。術(shù)語“服務(wù)器”常規(guī)地用來指代提供服務(wù)的過程或者該過程在其上運行的主機。類似地,術(shù)語“客戶端”常規(guī)地用來指代進行請求的過程或者該過程在其上運行的主機。如這里所用,除非根據(jù)上下文另有明示,術(shù)語“客戶端”和“服務(wù)器”指代過程而非主機。此外,出于包括可靠性、可伸縮性和冗余性以及其它方面在內(nèi)的原因,服務(wù)器所執(zhí)行的過程可以被分解以作為多個過程而在多個主機(有時稱為等級(tier))上運行。在連接到通信網(wǎng)絡(luò)的大多數(shù)設(shè)備(稱為節(jié)點)上可用的公知客戶端過程是萬維網(wǎng)客戶端(稱為“web瀏覽器”或者簡稱為“瀏覽器”),該萬維網(wǎng)客戶端通過根據(jù)超文本傳送協(xié)議(HTTP)格式化的消息與提供網(wǎng)頁的、被稱為萬維網(wǎng)(WWW)服務(wù)器的大量服務(wù)器中的任一個服務(wù)器交互。如圖1所示,UElOl包括瀏覽器107。
      [0034]在一個示例性實施方式中,通過關(guān)于時間序列的分級聚類將短文本串分組成下文稱為片段的候選對話或者對話部分。其次,通過并入語義主題相關(guān)度測量來將片段合并到檢測到的對話中,也稱為標(biāo)識的對話。而且,選擇在主題模型中打分最高的主題的最有表示性的關(guān)鍵字以產(chǎn)生如下標(biāo)簽,該標(biāo)簽提供每個對話的核心內(nèi)容的簡潔概括。這些實施方式不僅根據(jù)不同聯(lián)系人和時間來組織短文本消息而且自動檢測相鄰對話的邊界,從而每個檢測到的對話最可能與實際對話重合。
      [0035]圖1B是根據(jù)一個實施方式的圖1A的系統(tǒng)的數(shù)據(jù)流框架的圖。框架的主要部件包括監(jiān)控的文本消息160、元數(shù)據(jù)提取模塊172、社交分割模塊174、時間聚類模塊176、稱為片段的有序候選對話162、片段文本提取模塊180、基于主題的相關(guān)度測量模塊186和片段合并模塊188?;谥黝}的相關(guān)度測量模塊186使用基于潛在狄利克雷分配(LDA)的主題模塊192,LDA基于文本串的外部公共數(shù)據(jù)集合190。圖1B的框架示出標(biāo)識對話服務(wù)150和客戶端152的組合功能而客戶端152包括部件160至188并且服務(wù)150包括部件190和192。設(shè)想這些部件的功能可以在一個或者多個部件中被組合或者由等效功能的其它部件執(zhí)行。
      [0036]元數(shù)據(jù)提取模塊172負責(zé)從文本消息提取發(fā)送/接收時間和發(fā)送者/接收者的標(biāo)識符(ID),例如蜂窩電話號碼或者用戶姓名。社交分割模塊174根據(jù)發(fā)送者/接收者的ID將來自一個或者多個服務(wù)的所有文本消息集合劃分成子匯集,從而每個子匯集涵蓋與具體聯(lián)系人有關(guān)的所有對話。時間聚類模塊176根據(jù)在與單個聯(lián)系人的相鄰文本消息之間的時間間隙將時間序列有序文本消息自動聚類成片段,以產(chǎn)生按照聯(lián)系人164a、164b、164c至164m和時間排序的片段162。
      [0037]片段文本提取模塊180包括用于提供更長文本串以用于語義分析的詞分割模塊182和去除停用詞模塊184。
      [0038]外部公共數(shù)據(jù)集合190是外部測試字符串的大型集合,這些外部測試字符串覆蓋比如從如同twitter的網(wǎng)站匯集的許多日常生活方面的主題,以生成應(yīng)用于片段文本以用于主題訓(xùn)練的主題模型。基于LDA的主題模塊192從外部公共數(shù)據(jù)集合190提供在日常生活中頻繁討論的主題。將每個主題表示為來自詞匯表的詞語集合,這些詞語后跟隨有指示它們在涉及該主題的文本中的出現(xiàn)的概率?;谥黝}的相關(guān)度測量模塊186以測量這里稱為片段的相鄰候選對話的語義相關(guān)度為目標(biāo)。片段合并模塊188通過組合相鄰片段的時間相似度與主題相關(guān)度來測量在相鄰片段之間的相關(guān)性?;谙嚓P(guān)性的值,可以合并片段以形成自動檢測到的對話。
      [0039]在各種實施方式中,基于數(shù)據(jù)結(jié)構(gòu)154中存儲的詞匯表和主題模型確定語義并且可以通過LDA或者任何其它方法來構(gòu)造語義。例如在各種實施方式中,本領(lǐng)域公知的概率潛在語義編索引(PLSI)或者潛在狄利克雷分配(LDA)用來從文檔集合中的詞語推斷主題。這樣的方法可以用來從涉及網(wǎng)絡(luò)服務(wù)消費者的日常境況的文檔集合得出短文本串詞語和主題。由于每個主題與某些相對充裕度中的一組詞語關(guān)聯(lián),所以存在將主題與詞語相關(guān)并且將子主題與更高級主題相關(guān)的拓撲。[0040]圖2A是根據(jù)一個實施方式的示例性文本串主題拓撲200的圖。該文本串主題拓撲是與在一個或者多個文本串中使用的主題和詞語相比較的分級拓撲。在頂級或者根級是從許多用戶聚集的公共文本串?dāng)?shù)據(jù)集合作為整體得出的文本串詞匯表201。該文本串詞匯表不同于其它詞匯表,例如不同于從不同訓(xùn)練文檔集合構(gòu)造的生物或者文學(xué)或者語言語義詞匯表。在根級以下是頂級類別203a至203i,這些頂級類別是各自涵蓋一個或者多個子主題的頂級文本串主題,比如時間文本串、空間文本串、活動文本串。每個主題由規(guī)范名稱和零個或者更多個同義詞表示,該同義詞包括不同語言中的相同名稱,比如在頂級類別203a中的同義詞204a和在頂級類別203i中的同義詞204i。一個或者多個頂級類別可以包括一個或者多個下一級類別205a至205 j和205k至205L,每個下一級類別分別具有它們的對應(yīng)同義詞206a、206j、206k和206L。例如,時間文本串子類別包括當(dāng)日時間、星期幾、月的日期、月和季度。介于中間的級如果有則由省略號指示。在最深級,最深類別207a至207m和對應(yīng)同義詞208a至208m分別表示個別詞語或者短語、比如周一、鐘點、半點、四十五分、一月、夏天。個別詞語可以出現(xiàn)于多個較高級類別中,例如周一出現(xiàn)于周和非周末類別中。
      [0041]在一些實施方式中、例如在基于LDA的實施方式中,在根級文本串詞匯表201以下僅有兩級類別,例如主題和詞語。每個主題由詞語集合定義,每個詞語有特定出現(xiàn)百分比范圍。在這些實施方式中的一些實施方式中,V個詞語的詞匯表由V維向量表不;并且每個詞語由在除了與該特定詞語對應(yīng)的位置之外的所有位置均為零的V維向量表示。諸如冠詞、前置詞、代詞和公用詞語的低意義的詞語被忽略。Z個主題中的每個主題由V維向量表示,該V維向量具有通過相應(yīng)詞語位置中的百分比表示的主題中的每個詞語的相對出現(xiàn)概率。所有主題由VXZ矩陣表示。
      [0042]當(dāng)在文檔中找到來自文本串詞匯表的詞語時,該詞語被認為是包括該詞語的不同主題的混合,具有例如使用已知的LDA方法基于文檔中的詞語的百分比而分配給每個主題的百分比概率。作為結(jié)果,整個文檔可以通過在文檔中找到的具有分配給每個主題的概率度量的一組主題表示,例如,在向量的每個位置中具有變化概率的Z維向量。這樣的向量在這里被稱為標(biāo)記??梢酝ㄟ^計算表示兩個文檔的兩個Z維向量(標(biāo)記)的相似度(比如對應(yīng)項的乘積之和)來比較這些文檔。備選地或者附加地,可以計算兩個文檔之間的距離度量,該距離度量隨著兩個標(biāo)記的相似性變小而增加??梢允褂萌魏尉嚯x度量,比如零階距離(具有最大差異的坐標(biāo)的絕對值)、1階距離(Z個差異的絕對值之和)、二階距離(Z個差異的平方之和一等效于歐幾里得距離)、三階距離(絕對值的立方之和)等。來自兩個文檔的標(biāo)記越相似或者在這些標(biāo)記之間的距離越小,文檔彼此就越相關(guān)。在下文描述中,假設(shè)已經(jīng)定義并且在文本串詞匯表數(shù)據(jù)結(jié)構(gòu)中存儲例如如圖2中所示的文本串詞匯表。一個或者多個消息的集合的文本串由文本串標(biāo)記表示。消息集合的文本串標(biāo)記越相似,例如它們之間的距離測量越小,一個消息集合就與另一消息集合越相關(guān)。
      [0043]在一些實施方式中,詞匯表數(shù)據(jù)結(jié)構(gòu)154是VX (Z+1)矩陣,其中前V個元素指示詞匯表中的也稱為關(guān)鍵字的每個詞語;接下來的V個元素指示每個關(guān)鍵字在第一主題中的概率;接下來的V個元素指示在下一主題中的概率,等等。
      [0044]在一些實施方式中,首先將數(shù)據(jù)集合劃分成固定數(shù)目的人工選擇的主題,例如包括體育、政治、商業(yè)、健康等的50個主題,并且應(yīng)用LDA以確定關(guān)鍵字在每個人工選擇的主題中的概率。在這些實施方式中的一些實施方式中,如圖2B中所示那樣存儲詞匯表。圖2B是根據(jù)一個實施方式的詞匯表和主題數(shù)據(jù)結(jié)構(gòu)210的圖。詞匯表數(shù)據(jù)結(jié)構(gòu)210包括用于每個主題的主題條目字段220、由省略號指示的其它主題,其在下文中統(tǒng)稱為主題條目字段220。每個主題條目字段220包括第一關(guān)鍵字字段222a、第一關(guān)鍵字出現(xiàn)率(或者概率)字段224a、第二關(guān)鍵字字段222b、第二出現(xiàn)率字段224b以及由省略號指示的其它關(guān)鍵字和出現(xiàn)率字段。關(guān)鍵字字段222a、222b和由省略號指示的其它關(guān)鍵字字段在下文中稱為關(guān)鍵字字段222。類似地,出現(xiàn)率字段224a、224b和由省略號指示的其它出現(xiàn)率字段在下文中稱為比率字段224。在一些實施方式中,按從最高出現(xiàn)率到最低出現(xiàn)率的順序?qū)㈥P(guān)鍵字字段222和關(guān)聯(lián)的比率字段224包括在內(nèi)。在一些實施方式中,個別主題由主題條目字段220在詞匯表數(shù)據(jù)結(jié)構(gòu)210中的順序標(biāo)識。在一些實施方式中,個別主題由具有最高比率的一個或者多個關(guān)鍵字標(biāo)識。在一些實施方式中,主題由在向主題條目字段220中添加的另一字段中包括的人工提供的名稱(例如體育)標(biāo)識。
      [0045]雖然出于示例的目的而在圖2A中描繪并且接著在圖2B中描述數(shù)據(jù)結(jié)構(gòu)和字段為在特定布置中的整體塊,但是在其它實施方式中,在連接到網(wǎng)絡(luò)105的一個或者多個設(shè)備上的一個或者多個數(shù)據(jù)結(jié)構(gòu)或者數(shù)據(jù)庫上按不同順序布置數(shù)據(jù)結(jié)構(gòu)或者字段或者其一部分,或者省略一個或者多個字段,或者添加其它字段,或者以某一方式組合來改變數(shù)據(jù)結(jié)構(gòu)。
      [0046]在一些實施方式中,將文本串存儲為標(biāo)識轉(zhuǎn)換客戶端152所維護的用戶文本串?dāng)?shù)據(jù)結(jié)構(gòu)250中的有序片段162。圖2C是根據(jù)一個實施方式的用戶文本串?dāng)?shù)據(jù)結(jié)構(gòu)250的圖。用戶文本串?dāng)?shù)據(jù)結(jié)構(gòu)250包括用于用戶的每個如下聯(lián)系人的聯(lián)系人條目字段260a、260b以及由省略號指示的其它聯(lián)系人條目字段(下文統(tǒng)稱為聯(lián)系人條目字段260),該聯(lián)系人的消息被監(jiān)控。每個聯(lián)系人條目字段260包括聯(lián)系人標(biāo)識符(ID)字段261和用于在處理期間標(biāo)識的每個片段的片段字段270a、270b以及由省略號指示的其它片段字段(下文統(tǒng)稱為片段字段270)。
      [0047]每個片段字段270包括用于從通過一個服務(wù)100與聯(lián)系人交換的一個消息中提取的每個文本串的時間戳字段262a、262b以及由省略號指示的其它時間戳字段(下文統(tǒng)稱為時間戳字段262)。時間戳字段容納如下數(shù)據(jù),該數(shù)據(jù)指示如元數(shù)據(jù)提取模塊172所確定的何時通過通信網(wǎng)絡(luò)發(fā)送對應(yīng)文本串。在一些實施方式中,針對在另一用戶的UElOla的發(fā)送時間、在服務(wù)110的接收時間、在服務(wù)110的發(fā)送時間或者在UElOlm的接收時間之間的差異來校正時間戳。在一些實施方式中,忽略一個或者多個這樣的時間差。
      [0048]每個片段字段270包括用于從通過一個服務(wù)110與聯(lián)系人交換的一個消息中提取的每個文本串的文本串字段264a、264b以及由省略號指示的其它文本串字段(下文統(tǒng)稱為文本串字段264)。文本串字段264容納指示從消息中提取的文本的數(shù)據(jù)。
      [0049]每個片段字段274包括用于從通過一個服務(wù)110與聯(lián)系人交換的一個消息中提取的每個文本串的服務(wù)數(shù)據(jù)字段266a、266b以及由省略號指示的其它服務(wù)數(shù)據(jù)字段(下文統(tǒng)稱為服務(wù)數(shù)據(jù)字段266)。服務(wù)數(shù)據(jù)字段266容納指示用來發(fā)送消息的服務(wù)的數(shù)據(jù)。在一些實施方式中,如果用于服務(wù)中的聯(lián)系人的標(biāo)識符不同于在字段261中指示的標(biāo)識符,則月艮務(wù)數(shù)據(jù)字段266也指示該標(biāo)識符。在一些實施方式中,所有文本串與單個服務(wù)相關(guān)聯(lián);并且省略服務(wù)數(shù)據(jù)字段266。
      [0050]每個片段字段270包括用于從通過一個服務(wù)110與聯(lián)系人交換的對應(yīng)消息中提取的每個連續(xù)的文本串對的ΛT字段 268a、268b以及由省略號指示的其它Λ T字段(下文統(tǒng)稱為Λ T字段268)。Λ T字段264容納指示當(dāng)前時間戳字段與下一時間戳字段之間的時間差的數(shù)據(jù),例如Λ T268a指示在時間戳字段262a中指示的時間與在時間戳字段262b中指示的時間之間的時間差。在各種實施方式中,在聯(lián)系人條目字段260中記錄的最后一條消息的Λ T字段268為空或者省略最后一條消息的字段268。在一些實現(xiàn)方式中,按照需要,基于在連續(xù)的時間戳字段262中指示的時間確定時間差;并且針對每個消息省略AT字段268。
      [0051]圖3Α是根據(jù)一個實施方式的用于標(biāo)識多個短文本串中的對話的客戶端過程300的流程圖。在一個實施方式中,標(biāo)識對話客戶端152執(zhí)行過程300并且標(biāo)識對話客戶端152例如實施于如圖8中所示的包括處理器和存儲器的芯片組中或者實施于如圖9中呈現(xiàn)的移動終端中。雖然在圖3中以及在圖3Β和圖5中的后續(xù)流程圖中按特定順序?qū)⒉襟E不為整體塊,但是在其它實施方式中,按不同順序或者在時間上重疊、字符串行或者并行執(zhí)行或者省略其一個或者多個步驟或者部分或者添加一個或者多個其它步驟或者在方式組合中改變過程。
      [0052]在步驟301中,按聯(lián)系人確定和隔離文本串。任何方法可以用來確定文本串。例如,標(biāo)識對話客戶端152監(jiān)控通過多個服務(wù)110在UElOlm的用戶M與其它UElOl的用戶之間的消息業(yè)務(wù)(例如來自電子郵件消息的長或短文本串和來自即使消息傳送消息的短文本串)、向一個或者多個社交網(wǎng)絡(luò)服務(wù)發(fā)表的評論或者在郵件中的用戶已經(jīng)表明對它的喜歡的文本、關(guān)于與一個或多個聯(lián)系人關(guān)聯(lián)的照片或者其它內(nèi)容的元數(shù)據(jù),所述照片或者其它內(nèi)容是向一個或者多個服務(wù)發(fā)表或者從一個或者多個服務(wù)下載的。因此在步驟301中,從一個或者多個即使消息傳送消息、或者從一個或者多個短消息服務(wù)消息、或者從用于與第一聯(lián)系人交換的內(nèi)容的一個或者多個元數(shù)據(jù)字段、或者從某一組合中得出與第一聯(lián)系人文本串關(guān)聯(lián)的文本串。出于示例的目的,假設(shè)標(biāo)識對話客戶端模塊在服務(wù)Iio的客戶端117內(nèi)并且僅標(biāo)識通過服務(wù)110交換的消息中的對話。
      [0053]步驟301在一些實施方式中包括按聯(lián)系人隔離文本串。在一些實施方式中,步驟301包括確定用于同一聯(lián)系人的多個聯(lián)系人標(biāo)識符,例如通過向用戶M查詢用戶A在若干服務(wù)上的標(biāo)識符,例如查詢用戶A的電子郵件地址、蜂窩電話號碼、IM標(biāo)識符和社交網(wǎng)絡(luò)標(biāo)識符。在僅監(jiān)控一個服務(wù)內(nèi)的消息的一些實施方式中,步驟301包括按服務(wù)110中的聯(lián)系人ID隔離消息而不向用戶提示任何輸入。在一些實施方式中,考慮所有消息而不管聯(lián)系人如何;并且跳過按聯(lián)系人隔離。
      [0054]在示例性實施方式中,在步驟301期間,針對數(shù)據(jù)結(jié)構(gòu)250中的每個聯(lián)系人條目字段260填充時間戳字段262、文本串字段264和服務(wù)數(shù)據(jù)字段266 (如果有的話),但是尚未劃分成片段并且未必按時間增加的順序排序。在一些實施方式中,步驟301由元數(shù)據(jù)提取模塊172和社交分割模塊174執(zhí)行。例如在步驟301期間,根據(jù)發(fā)送者/接收者的姓名或者編號的元數(shù)據(jù)將SMS消息分類成多組。每組包含與指定的聯(lián)系人交換的所有SMS消息。這一實施方式保證在不同聯(lián)系人之間的對話不重疊。
      [0055]在步驟303中,按時間對用于每個聯(lián)系人的文本串排序。例如,按時間戳字段262中的數(shù)據(jù)所指示的值增加的順序?qū)γ總€聯(lián)系人條目字段260中的字段排序。在一些實施方式中,步驟303包括在按時間排序之后確定連續(xù)的時間戳字段262所指示的時間之間的時間差,例如時間戳字段262a中指示的時間和時間戳字段262b中指示的時間之間的時間差。尚未執(zhí)行按片段分離條目。
      [0056]出于示例的目的,假設(shè)針對當(dāng)前聯(lián)系人有N個消息,這些消息具有對應(yīng)時間戳tn,其中n=l,N。時間戳集合由符號T={tn,n=l,N}表示。將比如在Λ T字段268中存儲的時間差的集合表示為DT= {DTn,n=l,N-1},其中DTn表示在tn與t(n+l)之間的時間差。
      [0057]在步驟305期間,在一個或者多個片段之中劃分時間有序文本串,該一個或者多個片段是最終檢測到的對話中的基于時間統(tǒng)計量的部分。在一個示例性實施方式中,對排序的SMS消息應(yīng)用無監(jiān)督聚類算法以根據(jù)在相鄰文本串之間的時間間隙算出所有潛在片段(候選對話)。在這一流程路徑結(jié)束時,對潛在的片段集合應(yīng)用統(tǒng)計分析,以選擇與實際對話部分盡可能近似的優(yōu)化的片段集合。下文參照圖3B更具體地描述步驟305。因此,步驟305包括基于在連續(xù)的文本串之間的時間間距,從與用戶的第一聯(lián)系人關(guān)聯(lián)的第一多個文本串確定包括第一多個文本串中的多個文本串的第一對話部分(片段)和包括第一多個文本串中的不同多個文本串的不同第二對話部分(片段)。
      [0058]圖3B是根據(jù)一個實施方式的用于圖3A的過程300中的步驟305的流程圖。因此,過程350是步驟305的一個實施方式。在步驟351中,如上文描述的那樣確定在相鄰文本串之間的時間差DT。在步驟353中,確定并且按從最小到最大間隙大小的順序排序數(shù)目為G的唯一間隙大小。排序的唯一間隙大小的集合由GS= {GSg, g=l, G}表示,其中GSg是第g個最小間隙大小。
      [0059]起初,每個文本串被視為用于N個潛在片段的集合的單獨的潛在片段。術(shù)語聚類用來指代在每個潛在片段中包括的文本串的時間戳集合。因此,步驟353包括確定初始聚
      類集合?!?br> [0060]步驟355至367表示G個回合的循環(huán),該循環(huán)基于不同間隙大小和關(guān)聯(lián)的質(zhì)量測量來計算聚類。
      [0061 ] 在G個分級聚類回合之后,產(chǎn)生G+1個聚類集合,每個集合通常具有少于N個的聚類而在第G+1個聚類集合中具有所有聚類集合中的最少聚類。在步驟369中,評估G+1個聚類集合的質(zhì)量測量以找到如下回合,該回合給予按照某一客觀測量最優(yōu)的聚類集合。來自該回合的聚類確定被組合成如下片段(例如對話部分)的文本串的時間戳,這些片段被考慮用于基于語義相似度的合并。
      [0062]在步驟357中,取第k個最小間隙GSk作為用于對時間戳聚類的參考時間間隙。
      [0063]在步驟359中,在相同聚類中接合以小于參考時間間隙的間隙間隔的文本串的時間戳。也就是說,在屬于相同片段的任何相鄰文本串之間的時間間隙等于或者小于參考時間間隙GSk,而在不同片段的邊界上的文本串的相鄰時間戳之間的間隙大于GSk。
      [0064]出于示例的目的,每個回合由索引k指示,其中k=0,G ;并且k=0指示在第一回合之前的初始聚類。在第k個回合上的聚類數(shù)目由Jk給定,在該回合期間的每個聚類由符號Cjk表示,其中j=l,Jk,并且在第k個回合上的第j個聚類中的時間戳由以下表達式給定:
      [0065]Cjk={tq, q=pjk, ρ jk+Qjk-1}(la)
      [0066]其中pjk是在第k個回合上的第j個聚類中的第一時間戳,并且Qjk是在第k個回合上的第j個聚類中的時間戳的數(shù)目。在每個回合中的聚類集合由下式表示:
      [0067]ROUNDk= (Cjk, j=l, Jk}(lb)[0068]起初k=0、JO=N并且QjO對于所有N個聚類均為1,因此:
      [0069]CjO= {tq, q=j, j} = {tj}(2a)
      [0070]并且因此:
      [0071]ROUNDO= (CjO, j=l,N}(2b)
      [0072]然后,在步驟359期間的聚類導(dǎo)致滿足如下條件:在聚類內(nèi)時間差小于或者等于參考間隙,即:
      [0073]t (q+1) - tq 彡 GSk,其中對于所有 j, pjk ( q<pjk+Qjk-1 (3a)
      [0074]并且在聚類之間時間差大于參考間隙,SP:
      [0075]t (q+1) - tq>GSk,其中對于所有 j, q=pjk+Qjk-1(3b)
      [0076]步驟361至365確定聚類的客觀質(zhì)量測量。根據(jù)統(tǒng)計學(xué),最優(yōu)聚類對應(yīng)于在聚類間間距與聚類內(nèi)緊密度之間的最佳均衡點。
      [0077]在步驟361期間確定聚類間間距;并且在步驟363期間確定聚類內(nèi)緊密度。例如,基于等式4確定聚類間間距;而基于等式5確定聚類內(nèi)緊密度。
      [0078]Separation (ROUNDk) = Σ I mean (Cjk) - mean (T) I(4)
      [0079]j=l, Jk
      [0080]Compact (ROUND) = Σ Σ | tq-mean (Cjk)(5) [0081]j=l, Jk q
      [0082]其中mean表示如下函數(shù),該函數(shù)確定以下括號中的時間戳的算術(shù)均值。
      [0083]在步驟365中,基于聚類間間距和聚類內(nèi)緊密度確定第k個回合的質(zhì)量測量。隨著聚類數(shù)目增加,在較低k值處,等式4中的Separation的值單調(diào)增加,而等式5中的Compact的值單調(diào)減少。因此,最優(yōu)平衡點實現(xiàn)最佳聚類質(zhì)量。實驗表明歸一化的Separation (例如等式6b中的S印)與歸一化的Compact的指數(shù)變換(例如等式6c中的Scat)之和產(chǎn)生最佳種類識別準(zhǔn)確度。因此,等式6a至6d針對每個回合定義效用或者質(zhì)量函數(shù)Q。
      [0084]MAX=Compact(ROUNDG)=Separation(R0UND0) (6a)
      [0085]Sep(ROUNDk)=Separation(ROUNDk)/MAX(6b)
      [0086]Scat (ROUNDk) = [Compact (ROUNDk)/MAX]α(6c)
      [0087]Q(ROUNDk)=Scat(ROUNDk)+Sep(ROUNDk)(6d)
      [0088]通過實驗確定等式6c中的參數(shù)α的值。
      [0089]在步驟367中確定是否已經(jīng)嘗試所有間隙大小,例如是否k=G。如果不是,例如如果k〈G,則控制回到步驟355以在下一回合中使用下一間隙大小作為參考來確定聚類。如果已經(jīng)嘗試所有間隙大小,則在步驟369中使用如下聚類來形成片段,該聚類給予質(zhì)量函數(shù)Q的最佳值。步驟369包括在G+1個聚類回合之中對函數(shù)Q的聚類值質(zhì)量排序并且選擇最小的一個來表示片段。出于示例的目的,假設(shè)回合B對應(yīng)于最佳混合,因為它滿足等式7。
      [0090]R0UNDB=arg mink=0; G[Q (ROUNDk) ] (7)
      [0091]步驟369結(jié)束圖3A中的步驟305。因此,已經(jīng)將每個文本串分組成一個或者多個文本串的適當(dāng)片段,例如候選對話部分。如片段字段270指示的那樣,在用戶文本串?dāng)?shù)據(jù)結(jié)構(gòu)250中存儲這一信息,例如作為每個片段中的文本串的第一個和最后一個時間戳。
      [0092]然而,可以僅基于時間聚類將持續(xù)長時間跨度的對話分離成若干片段。已認識到,如果兩個候選對話屬于相同對話,則它們應(yīng)當(dāng)聚焦于相同主題。有利地,由于作為時間聚類的結(jié)果已經(jīng)在片段中對短文本串進行分組,所以片段在文本上比每個個別文本串豐富得多,尤其是比個別短文本串更豐富。因此,語義分析更有效地適用于在每個片段中分組的這些文本串的組合文本?;谶@一考慮,通過并入基于主題模型的語義分析來修正時間聚類的結(jié)果。
      [0093]在步驟307中,確定相鄰片段的語義相似度。步驟307包括從每個文本消息提取文本串。然后將提取的文本放在一起以形成用于每個時間聚類的片段。然后對每個片段應(yīng)用詞語分割和停用詞去除這些基本自然語言處理(NLP)技術(shù)。應(yīng)用基于大型外部數(shù)據(jù)集合的主題模型。下文參照圖5中的標(biāo)識對話服務(wù)150的過程更具體地描述主題模型的形成。因此,步驟307包括基于文本串庫確定語義詞匯表和主題。出于示例的目的,假設(shè)主題模型包括由Yz,z=l,Z表示的Z個主題?;仡橸z是用于上至V個關(guān)鍵字中的每個關(guān)鍵字的出現(xiàn)率的向量。因此,步驟307包括確定用于第一對話部分(片段)的第一語義內(nèi)容和用于第二對話部分(片段)的第二語義內(nèi)容。
      [0094]在一個示例性實施方式中,在步驟307期間,比較從時間聚類獲得的片段與主題模型的主題以形成主題相關(guān)度的向量?;仡櫾诘趉個回合上的聚類數(shù)目由Jk給出并且回合B提供最高質(zhì)量的聚類,因此存在由符號dj,j=l,JB表示的用于當(dāng)前聯(lián)系人的JB個片段。用于第j個片段dj的第z個主題z=l,Z的相關(guān)度由rjz給出并且其是在片段dj和主題Yz中同時出現(xiàn)的詞語的概率之和Prob,如等式8中所定義的。
      【權(quán)利要求】
      1.一種方法,包括: 至少部分地基于連續(xù)的字符串之間的時間間距,從至少部分地與用戶的第一聯(lián)系人關(guān)聯(lián)的第一多個字符串確定第一對話部分和不同的第二對話部分,所述第一對話部分包括所述第一多個字符串中的多個字符串,所述第二對話部分包括所述第一多個字符串中的不同的多個字符串; 確定用于所述第一對話部分的第一語義內(nèi)容和用于所述第二對話部分的第二語義內(nèi)容;以及 至少部分地基于所述第一·語義內(nèi)容與所述第二語義內(nèi)容的相似度來確定是否將所述第一對話部分和所述第二對話部分合并成包括所述第一對話部分的第一對話。
      2.根據(jù)權(quán)利要求1所述的方法,其中確定是否合并所述第一對話部分和所述第二對話部分還包括如果確定所述相似度超過相似度閾值則將所述第一對話部分和所述第二對話部分組合成所述第一對話。
      3.根據(jù)權(quán)利要求1-2中的任一權(quán)利要求所述的方法,其中確定是否合并所述第一對話部分和所述第二對話部分還包括如果確定所述相似度未超過相似度閾值則將所述第二對話部分放入不同的第二對話中。
      4.根據(jù)權(quán)利要求1-3中的任一權(quán)利要求所述的方法,還包括至少部分地基于用于所述第一語義內(nèi)容的語義主題來確定用于所述第一對話的第一對話標(biāo)簽。
      5.根據(jù)權(quán)利要求4所述的方法,還包括呈現(xiàn)指示所述第一對話標(biāo)簽的數(shù)據(jù)。
      6.根據(jù)權(quán)利要求5所述的方法,還包括與所述第一對話標(biāo)簽關(guān)聯(lián)地呈現(xiàn)指示所述第一對話部分的數(shù)據(jù)。
      7.根據(jù)權(quán)利要求1-6中的任一權(quán)利要求所述的方法,其中從一個或者多個即時消息傳送消息、或者一個或者多個短消息服務(wù)消息、或者用于與所述第一聯(lián)系人交換的內(nèi)容的一個或者多個元數(shù)據(jù)字段、或者某一組合中得出至少部分地與所述第一聯(lián)系人關(guān)聯(lián)的所述字符串。
      8.根據(jù)權(quán)利要求1-7中的任一權(quán)利要求所述的方法,其中: 所述第一聯(lián)系人是所述用戶的多個聯(lián)系人之一;以及 所述方法還包括呈現(xiàn)數(shù)據(jù),所述數(shù)據(jù)指示針對所述用戶的所述多個聯(lián)系人中的每個聯(lián)系人確定的對話的數(shù)目。
      9.根據(jù)權(quán)利要求1-8中的任一權(quán)利要求所述的方法,其中: 所述第一對話是與所述第一聯(lián)系人的多個對話之一;以及 所述方法還包括呈現(xiàn)數(shù)據(jù),所述數(shù)據(jù)指示與所述第一聯(lián)系人的所述多個對話中的每個對話。
      10.根據(jù)權(quán)利要求1-9中的任一權(quán)利要求所述的方法,其中: 所述方法還包括基于字符串庫來確定語義詞匯表和主題;以及 確定所述第一語義內(nèi)容和所述第二語義內(nèi)容至少部分地基于所述語義詞匯表和主題。
      11.根據(jù)權(quán)利要求1-10中的任一權(quán)利要求所述的方法,其中至少部分地基于連續(xù)的字符串之間的時間間距來確定所述第一對話部分和所述第二對話部分還包括對所述時間間距執(zhí)行分級聚類分析。
      12.根據(jù)權(quán)利要求1-11中的任一權(quán)利要求所述的方法,其中確定是否合并所述第一對話部分和所述第二對話部分還包括至少部分地基于對連續(xù)的對話部分的語義內(nèi)容的差異執(zhí)行分級聚類分析來確定相似度閾值。
      13.根據(jù)權(quán)利要求1-12中的任一權(quán)利要求所述的方法,其中確定是否合并所述第一對話部分和所述第二對話部分還包括至少部分地基于對相關(guān)值的差異執(zhí)行分級聚類分析來確定相似度閾值,所述相關(guān)值基于連續(xù)的對話部分的語義內(nèi)容差異和時間差異的組合。
      14.一種方法,包括促進對至少一個接口的訪問,所述至少一個接口被配置為允許訪問至少一個服務(wù),所述至少一個服務(wù)被配置為執(zhí)行根據(jù)權(quán)利要求1-13中的任一權(quán)利要求所述的方法的一個或者多個步驟。
      15.一種裝置,包括: 至少一個處理器;以及 至少一個存儲器,其包括用于一個或者多個程序的計算機程序代碼, 所述至少一個存儲器和所述計算機程序代碼被配置為與所述至少一個處理器一起使得所述裝置至少執(zhí)行以下: 至少部分地基于連續(xù)的字符串之間的時間間距,從至少部分地與用戶的第一聯(lián)系人關(guān)聯(lián)的第一多個字符串確定第一對話部分和不同的第二對話部分,所述第一對話部分包括所述第一多個字符串中的多個字符串,所述第二對話部分包括所述第一多個字符串中的不同的多個字符串; 確定用于所述第一對話部分的第一語義內(nèi)容和用于所述第二對話部分的第二語義內(nèi)容;以及 至少部分地基于所述第一語義內(nèi)容與所述第二語義內(nèi)容的相似度來確定是否將所述第一對話部分和所述第二對話 部分合并成包括所述第一對話部分的第一對話。
      16.根據(jù)權(quán)利要求15所述的裝置,其中確定是否合并所述第一對話部分和所述第二對話部分還包括如果確定所述相似度超過相似度閾值則將所述第一對話部分和所述第二對話部分組合成所述第一對話。
      17.根據(jù)權(quán)利要求15-16中的任一權(quán)利要求所述的裝置,其中確定是否合并所述第一對話部分和所述第二對話部分還包括如果確定所述相似度未超過相似度閾值則將所述第二對話部分放入不同的第二對話中。
      18.根據(jù)權(quán)利要求15-17中的任一權(quán)利要求所述的裝置,其中還使得所述裝置至少部分地基于用于所述第一語義內(nèi)容的語義主題來確定用于所述第一對話的第一對話標(biāo)簽。
      19.根據(jù)權(quán)利要求18所述的裝置,其中還使得所述裝置呈現(xiàn)指示所述第一對話標(biāo)簽的數(shù)據(jù)。
      20.根據(jù)權(quán)利要求19所述的裝置,其中還使地所述裝置與所述第一對話標(biāo)簽關(guān)聯(lián)地呈現(xiàn)指示所述第一對話部分的數(shù)據(jù)。
      21.根據(jù)權(quán)利要求15-20中的任一權(quán)利要求所述的裝置,其中從一個或者多個即時消息傳送消息、或者一個或者多個短消息服務(wù)消息、或者用于與所述第一聯(lián)系人交換的內(nèi)容的一個或者多個元數(shù)據(jù)字段、或者某一組合中得出至少部分地與所述第一聯(lián)系人關(guān)聯(lián)的所述字符串。
      22.根據(jù)權(quán)利要求15-21中的任一權(quán)利要求所述的裝置,其中: 所述第一聯(lián)系人是所述用戶的多個聯(lián)系人之一;以及還使得所述裝置呈現(xiàn)數(shù)據(jù),所述數(shù)據(jù)指示針對所述用戶的所述多個聯(lián)系人中的每個聯(lián)系人確定的對話的數(shù)目。
      23.根據(jù)權(quán)利要求15-22中的任一權(quán)利要求所述的裝置,其中: 所述第一對話是與所述第一聯(lián)系人的多個對話之一;以及 還使得所述裝置呈現(xiàn)數(shù)據(jù),所述數(shù)據(jù)指示與所述第一聯(lián)系人的所述多個對話中的每個對話。
      24.根據(jù)權(quán)利要求15-23中的任一權(quán)利要求所述的裝置,其中: 還使得所述裝置基于字符串庫來確定語義詞匯表和主題;以及 確定所述第一語義內(nèi)容和所述第二語義內(nèi)容至少部分地基于所述語義詞匯表和主題。
      25.根據(jù)權(quán)利要求15-24中的任一權(quán)利要求所述的裝置,其中所述裝置是移動電話,所述移動電話還包括: 用戶接口電路和用戶接口軟件,被配置為促進用戶通過使用顯示器來控制所述移動電話的至少一些功能并且被配置為對用戶輸入做出響應(yīng);以及 顯示器和顯示電路,被配置為顯示所述移動電話的用戶接口的至少一部分,所述顯示器和顯示電路被配置為促進用戶控制所述移動電話的至少一些功能。
      26.一種計算機可讀存儲介質(zhì),承載一個或者多個指令的一個或者多個序列,所述一個或者多個指令的所述一個或 者多個序列在由一個或者多個處理器執(zhí)行時,使得裝置執(zhí)行根據(jù)權(quán)利要求1-14中的任一權(quán)利要求所述的方法的全部或者部分。
      27.一種計算機程序產(chǎn)品,包括一個或者多個指令的一個或者多個序列,所述一個或者多個指令的所述一個或者多個序列在由一個或者多個處理器執(zhí)行時,使得裝置執(zhí)行根據(jù)權(quán)利要求1-14中的任一權(quán)利要求所述的方法的全部或者部分。
      28.一種設(shè)備,包括用于執(zhí)行根據(jù)權(quán)利要求1-14中的任一權(quán)利要求所述的方法的裝置。
      【文檔編號】H04W4/12GK103430578SQ201080070950
      【公開日】2013年12月4日 申請日期:2010年10月27日 優(yōu)先權(quán)日:2010年10月27日
      【發(fā)明者】饒京海, 田繼雷, 田野, 王冠 申請人:諾基亞公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1