一種語句生成方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種語句生成方法及裝置。該方法包括:收集終端的至少一個數(shù)據信息,其中,所述數(shù)據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種;確定所述至少一個數(shù)據信息的每個數(shù)據信息在待組成語句中的句子成分;根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將所述至少一個數(shù)據信息組成語句。還公開了相應的裝置。采用本發(fā)明的一種語句生成方法及裝置的技術方案,可以根據終端的各種數(shù)據信息自動生成語句,用語句完整地描述在終端上發(fā)生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。
【專利說明】一種語句生成方法及裝置
【技術領域】
[0001]本發(fā)明涉及語言【技術領域】,具體涉及一種語句生成方法及裝置。
【背景技術】
[0002]智能終端上的自動日記可以節(jié)省人們記錄事件的事件成本,且從多個維度和視角記錄事件發(fā)生的上下文,可以客觀地重現(xiàn)事件,同時,智能終端的普及為自動日記的生成提供了多種維度的可用信息源和數(shù)據基礎。然而,現(xiàn)有技術中的一種自動日記的生成方法,其源數(shù)據主要是文本數(shù)據,如博客信息、社交網絡信息、短信信息、聯(lián)系人信息等,從以上文本信息中抽取特征,生成日記,但當源數(shù)據缺少文本描述時,將無法生成日記;現(xiàn)有技術中的另一種自動日記的生成方法是分析手機使用情況和傳感器數(shù)據,結合手機操作事件(如開關機、收發(fā)郵件等)與用戶活動的對應關系,識別用戶活動或發(fā)生的事件,最后按時間順序組織一天發(fā)生的事件,生成日記,該方法生成的日記,其內容非常簡單,形式為“時間:事件”序列,信息量匱乏,且沒有使用完整的語句描述用戶活動或事件,可讀性差。
[0003]綜上所述,如何根據終端的各種數(shù)據信息自動生成語句,用語句完整地描述在終端上發(fā)生的活動或事件已成為業(yè)界迫切需要解決的問題。
【發(fā)明內容】
[0004]有鑒于此,本發(fā)明提供了一種語句生成方法及裝置,以期根據終端的各種數(shù)據信息自動生成語句,用語句完整地描述在終端上發(fā)生的活動或事件。
[0005]第一方面,提供了一種語句生成方法,包括:
[0006]收集終端的至少一個數(shù)據信息,其中,所述數(shù)據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種;
[0007]確定所述至少一個數(shù)據信息的每個數(shù)據信息在待組成語句中的句子成分;
[0008]根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將所述至少一個數(shù)據信息組成語句。
[0009]在第一種可能的實現(xiàn)方式中,所述收集終端的至少一個數(shù)據信息,包括:
[0010]采集終端的至少一個數(shù)據信息;
[0011]檢測所述至少一個數(shù)據信息的來源;
[0012]根據所述至少一個數(shù)據信息的來源,按照與所述來源對應的格式,將所述至少一個數(shù)據信息進行格式化,獲得至少一個格式化后的數(shù)據信息;
[0013]所述確定所述至少一個數(shù)據信息的每個數(shù)據信息在待組成語句中的句子成分,包括:
[0014]針對每個所述格式化后的數(shù)據信息,從數(shù)據庫中查找與所述格式化后的數(shù)據信息匹配的至少一個描述詞語;
[0015]根據與所述格式化后的數(shù)據信息匹配的至少一個描述詞語,確定每個所述格式化后的數(shù)據信息在待組成語句中的句子成分。
[0016]結合第一方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述根據與所述格式化后的數(shù)據信息匹配的至少一個描述詞語,確定每個所述格式化后的每個數(shù)據信息在待組成語句中的句子成分之后,以及所述根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將所述至少一個數(shù)據信息組成語句之前,所述方法還包括:
[0017]針對每個格式化后的數(shù)據信息,根據與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語在所述數(shù)據庫中使用的概率,從與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
[0018]結合第一方面的第二種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式中,所述根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將所述至少一個數(shù)據信息組成語句,包括:
[0019]根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分的類型,從句法結構庫中選擇包含所述至少一個數(shù)據信息的句子成分的類型的語句結構;
[0020]按照所述至少一個數(shù)據信息的句子成分在所述語句結構中的位置,將選擇的與所述至少一個格式化后的數(shù)據信息匹配的描述詞語組成語句。
[0021]結合第一方面的第二種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將所述至少一個數(shù)據信息組成語句,包括:
[0022]根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將選擇的與所述至少一個格式化后的數(shù)據信息匹配的描述詞語與語句模型庫中的語句進行匹配;
[0023]獲取所述匹配后的語句。
[0024]第二方面,提供了一種語句生成裝置,包括:
[0025]收集單元,用于收集終端的至少一個數(shù)據信息,其中,所述數(shù)據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種;
[0026]確定單元,用于確定所述至少一個數(shù)據信息的每個數(shù)據信息在待組成語句中的句子成分;
[0027]組成單元,用于根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將所述至少一個數(shù)據信息組成語句。
[0028]在第一種可能的實現(xiàn)方式中,所述收集單元包括:
[0029]采集子單元,用于采集終端的至少一個數(shù)據信息;
[0030]檢測子單元,用于檢測所述至少一個數(shù)據信息的來源;
[0031]格式化子單元,用于根據所述至少一個數(shù)據信息的來源,按照與所述來源對應的格式,將所述至少一個數(shù)據信息進行格式化,獲得至少一個格式化后的數(shù)據信息;
[0032]所述確定單元包括:
[0033]查找子單元,用于針對每個所述格式化后的數(shù)據信息,從數(shù)據庫中查找與所述格式化后的數(shù)據信息匹配的至少一個描述詞語;
[0034]確定子單元,用于根據與所述格式化后的數(shù)據信息匹配的至少一個描述詞語,確定每個所述格式化后的數(shù)據信息在待組成語句中的句子成分。
[0035]結合第二方面的第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式中,所述裝置還包括:
[0036]選擇單元,用于針對每個格式化后的數(shù)據信息,根據與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語在所述數(shù)據庫中使用的概率,從與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
[0037]結合第二方面的第二種可能的實現(xiàn)方式,在第三種可能的實現(xiàn)方式中,所述組成單元包括:
[0038]選擇子單元,用于根據所述至少一個數(shù)據信息的句子成分的類型,從句法結構庫中選擇包含所述至少一個數(shù)據信息的句子成分的類型的語句結構;
[0039]組成子單元,用于按照所述至少一個數(shù)據信息的句子成分在所述語句結構中的位置,將選擇的與所述至少一個格式化后的數(shù)據信息匹配的描述詞語組成語句。
[0040]結合第二方面的第二種可能的實現(xiàn)方式,在第四種可能的實現(xiàn)方式中,所述組成單元包括:
[0041]匹配子單元,用于根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將選擇的與所述至少一個格式化后的數(shù)據信息匹配的描述詞語與語句模型庫中的語句進行匹配;
[0042]獲取子單元,用于獲取所述匹配后的語句。
[0043]采用本發(fā)明的一種語句生成方法及裝置的技術方案,可以根據終端的各種數(shù)據信息自動生成語句,用語句完整地描述在終端上發(fā)生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。
【專利附圖】
【附圖說明】
[0044]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0045]圖1為本發(fā)明一種語句生成方法的一個實施例的流程圖;
[0046]圖2為對圖1所示的本發(fā)明一種語句生成方法的進一步細化的另一個實施例的流程圖;
[0047]圖3為對圖1所示的本發(fā)明一種語句生成方法的進一步細化的又一個實施例的流程圖;
[0048]圖4為本發(fā)明一種語句生成裝置的一個實施例的結構示意圖;
[0049]圖5為對圖4所示的本發(fā)明一種語句生成裝置的進一步細化的另一個實施例的結構示意圖;
[0050]圖6為對圖4所示的本發(fā)明一種語句生成裝置的進一步細化的又一個實施例的結構示意圖。
【具體實施方式】
[0051]下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0052]圖1為本發(fā)明一種語句生成方法的一個實施例的流程圖。如圖1所示,該方法包括以下步驟:
[0053]步驟S101,收集終端的至少一個數(shù)據信息,其中,所述數(shù)據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種。
[0054]本發(fā)明的終端是指網絡與最終用戶接觸用以實現(xiàn)網絡應用的各種設備,例如筆記本電腦、平板電腦、手機等。從一個終端上可以收集到各種數(shù)據信息,包括:該終端自身的運行信息,例如網絡連接信息、系統(tǒng)進程信息等;該終端的用戶操作信息,例如傳感器信息、微博等;該終端從外部接口接收到的信息,例如通話信息、短信信息、GPS信息等,這些數(shù)據信息包含文本數(shù)據,例如微博、短信,可以從這些信息中直接提取文字信息;還包括非文本數(shù)據,例如網絡連接信息、系統(tǒng)進程信息、傳感器信息等,這些是通過接口等采集的數(shù)據信息。本發(fā)明可以統(tǒng)一收集終端的這些數(shù)據信息并進行整理。
[0055]步驟S102,確定所述至少一個數(shù)據信息的每個數(shù)據信息在待組成語句中的句子成分。
[0056]對于收集的每個數(shù)據信息,將其確定為相應的句子成分,句子成分的類型包括主語、謂語、賓語、定語、補語、狀語、表語等,例如對于收集終端的時間信息,可以將該時間信息確定為時間狀語,對于從GPS收集的信息,可以將該信息識別為地點狀語等。
[0057]步驟S103,根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將所述至少一個數(shù)據信息組成語句。
[0058]識別了收集的每個數(shù)據信息的句子成分后,就可以按照這些數(shù)據信息對應的句子成分,按照一定的句子結構或根據語言模型進行匹配,獲得這些數(shù)據信息組成的語句,從而通過一個或多個語句對這些數(shù)據信息包含的內容進行了完整的描述。累積的語句即形成了自動日記文本。
[0059]根據本發(fā)明實施例提供的一種語句生成方法,可以根據終端的各種數(shù)據信息自動生成語句,用語句完整地描述在終端上發(fā)生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。
[0060]圖2為對圖1所示的本發(fā)明一種語句生成方法的進一步細化的另一個實施例的流程圖。如圖2所示,該方法包括以下步驟:
[0061]步驟S201,采集終端的至少一個數(shù)據信息。
[0062]本發(fā)明的終端是指網絡與最終用戶接觸用以實現(xiàn)網絡應用的各種設備,例如筆記本電腦、平板電腦、手機等。從一個終端上可以收集到各種數(shù)據信息,包括:該終端自身的運行信息,例如網絡連接信息、系統(tǒng)進程信息等;該終端的用戶操作信息,例如傳感器信息、微博等;該終端從外部接口接收到的信息,例如通話信息、短信信息、GPS信息等,這些數(shù)據信息包含文本數(shù)據,例如微博、短信,可以從這些信息中直接提取文字信息;還包括非文本數(shù)據,例如網絡連接信息、系統(tǒng)進程信息、傳感器信息等,這些是通過接口等采集的數(shù)據信息。
[0063]步驟S202,檢測所述至少一個數(shù)據信息的來源。
[0064]檢測采集到的這些數(shù)據信息的來源,這些來源即:如果該信息是GPS信息,則該來源是終端上的GPS ;如果是傳感器信息,則該來源是終端上的某個傳感器;如果是通話信息、應用程序(Applicat1n,APP)信息例如微博等,則能根據軟件程序識別器來源。
[0065]步驟S203,根據所述至少一個數(shù)據信息的來源,按照與所述來源對應的格式,將所述至少一個數(shù)據信息進行格式化,獲得至少一個格式化后的數(shù)據信息。
[0066]對采集自不同來源的數(shù)據信息,需按照不同的格式進行整理這些數(shù)據信息,以便于后續(xù)的使用。
[0067]例如:
[0068]1、微博信息:對于某一時刻用戶發(fā)布的微博,每條微博格式化后可表不為:〈時間,微博內容,用戶ID>三元組。
[0069]2、GPS信息:對于某一時刻的位置信息,每條GPS信息格式化后可表不為:
[0070]〈時間,經度,維度,高度〉四元組。
[0071]3、加速度信息:對于某一時刻的加速度信息,每條加速度信息格式化后可表示為:
[0072]〈時間,X軸加速度,y軸加速度,z軸加速度> 四元組。
[0073]4、通話信息:對于通話,短信等信息使用情況,具體包括:
[0074]通話:通話開始時間,通話結束時間,通話時長,主叫,被叫,電話miss時間。
[0075]短信:短信接收時間,接收短信長度,短信發(fā)送時間,發(fā)送短信長度。
[0076]每條通話信息格式化后可表示為:
[0077]〈時間,本手機狀態(tài),對方手機狀態(tài),本手機設置狀態(tài),對方手機ID>五元組
[0078]例如本機接到來電可表示為:
[0079]<時間,接到來電,呼叫,手機響鈴,對方手機ID>
[0080]對采集到的數(shù)據信息進行格式化的格式可以有多種,以上示例只列出了基于元組的表不方式,本發(fā)明包含但不限于以上實例。
[0081]步驟S204,針對每個所述格式化后的數(shù)據信息,從數(shù)據庫中查找與所述格式化后的數(shù)據信息匹配的至少一個描述詞語。
[0082]為了便于用戶閱讀生成的語句,需對采集到的數(shù)據信息采用常規(guī)的或用戶習慣的描述語言進行描述,而數(shù)據庫中存儲了與每個格式化后的數(shù)據信息對應的一個或多個描述詞語,因此,針對每個格式化的數(shù)據信息,可以從該數(shù)據庫中查找與每個格式化的數(shù)據信息匹配的至少一個描述詞語。
[0083]例如:
[0084]1、采集到的時間信息是6:50AM,查找到的描述詞語集合為:
[0085]{早晨,清晨,北京時間上午六點五十,6:50AM,一大早}。
[0086]2、采集到的GPS信息是{經度=22.04,維度=114.3},查找到的描述詞語集合為:
[0087]{深圳華為基地,龍崗區(qū)坂田,五和大道}
[0088]3、采集到的通話記錄信息〈時間,本手機狀態(tài),對方手機狀態(tài),本手機設置狀態(tài),對方手機ID>,對于通話動作的描述詞語集合為:{通話,打電話,接電話};對于通話對象的描述詞語集合為:{我,John (聯(lián)系人)}。
[0089]4、對于采集到的加速度信息〈時間,X軸加速度,y軸加速度,z軸加速度 >,描述詞語集合可以為:
[0090]{走,散步,慢跑}。
[0091]步驟S205,根據與所述格式化后的數(shù)據信息匹配的至少一個描述詞語,確定每個所述格式化后的數(shù)據信息在待組成語句中的句子成分。
[0092]將采集到的每個數(shù)據信息進行格式化以及描述詞語的匹配后,系統(tǒng)對這些描述詞語會根據之前確定該描述詞語的句子成分的概率或根據使用習慣將其確定為相應的句子成分,句子成分的類型包括主語、謂語、賓語、定語、補語、狀語、表語等,例如對于收集終端的時間信息,可以將該時間信息確定為時間狀語,對于從GPS收集的信息,可以將該信息識別為地點狀語等。
[0093]步驟S206,針對每個格式化后的數(shù)據信息,根據與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語在所述數(shù)據庫中使用的概率,從與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
[0094]在生成語句前,對于每個句子成分所采用的描述詞語一般只選擇一個,因此,需要在與格式化后的數(shù)據信息匹配的多個描述詞語中選擇一個描述詞語,該選擇的依據可以是這些描述詞語在數(shù)據庫中使用的概率,即被選擇用來生成語句的概率,或者也可以基于用戶語言習慣。
[0095]步驟S207,根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分的類型,從句法結構庫中選擇包含所述至少一個數(shù)據信息的句子成分的類型的語句結構。
[0096]在句法結構庫中存儲了各種語句結構,每種語句結構中包含了一個或多個句子成分,每個句子成分在該語句結構中具有相應的位置。從句法結構庫中選擇包含所有采集到的數(shù)據信息對應的句子成分的語句結構。
[0097]例如,句法結構庫中包含的句法結構有:
[0098][時間狀語][主語][地點狀語][謂語][賓語];
[0099][主語][謂語][賓語];等。
[0100]步驟S208,按照所述至少一個數(shù)據信息的句子成分在所述語句結構中的位置,將選擇的與所述至少一個格式化后的數(shù)據信息匹配的描述詞語組成語句。
[0101]選擇了語句結構后,按照每個格式化后的數(shù)據信息對應的句子成分在該語句結構中的位置,將選擇的與該數(shù)據信息匹配的描述詞語填充到該位置,逐一填充完各個句子成分的位置,即組成了一個語句。
[0102]例如,根據上面的舉例,可以組成以下語句:
[0103]“清晨,我和John通話?!?br>
[0104]“早晨,我在五和大道散步,John打電話給我?!?br>
[0105]根據本發(fā)明實施例提供的一種語句生成方法,可以根據終端的各種數(shù)據信息自動生成語句,用語句完整地描述在終端上發(fā)生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。
[0106]圖3為對圖1所示的本發(fā)明一種語句生成方法的進一步細化的又一個實施例的流程圖。如圖3所示,該方法包括以下步驟:
[0107]步驟S301,采集終端的至少一個數(shù)據信息。
[0108]步驟S302,檢測所述至少一個數(shù)據信息的來源。
[0109]步驟S303,根據所述至少一個數(shù)據信息的來源,按照與所述來源對應的格式,將所述至少一個數(shù)據信息進行格式化,獲得至少一個格式化后的數(shù)據信息。
[0110]步驟S304,針對每個所述格式化后的數(shù)據信息,從數(shù)據庫中查找與所述格式化后的數(shù)據信息匹配的至少一個描述詞語。
[0111]步驟S305,根據與所述格式化后的數(shù)據信息匹配的至少一個描述詞語,確定每個所述格式化后的數(shù)據信息在待組成語句中的句子成分。
[0112]步驟S306,針對每個格式化后的數(shù)據信息,根據與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語在所述數(shù)據庫中使用的概率,從與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
[0113]步驟S307,根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將選擇的與所述至少一個格式化后的數(shù)據信息匹配的描述詞語與語句模型庫中的語句進行匹配。
[0114]步驟S308,獲取所述匹配后的語句。
[0115]本實施例與上述實施例的不同之處在于:步驟S307和步驟S308與上述實施例的步驟S207和步驟S208不同。
[0116]語言模型的定義是“一個語言模型通常構建為字符串s的概率分布P(s),這里P(S)試圖反映字符串S作為一個句子出現(xiàn)的概率?!?br>
[0117]在η元語言模型中,句子s=Wl,W2…Wn,其概率計算公式可以表示為:
[0118]P (s) =P (Wl) P (W2 | Wl) P (W3 | W1W2)…P (ffn | ffl —ffn-1)
[0119]在本實施例中,語句模型庫中存儲了各種語句,將要生成語句的與格式化的數(shù)據信息匹配的描述詞語與語句模型庫中的語句進行匹配,獲取匹配后的語句。
[0120]具體地,例如,語句模型庫中存儲了語句I 早晨Lyn打電話給我”,則認為以上舉例中的要生成語句的描述詞語及句子成分與該語句I可以匹配,則獲得匹配后的語句為“早晨John打電話給我”。
[0121]語句模型庫中可能還存儲了語句2 “清晨,我和Lily通話”,則認為以上舉例中的要生成語句的描述詞語及句子成分與該語句2也可以匹配,但是由語句I的描述詞語構成的語句I在生成的日記文本中出現(xiàn)的概率為54%,而由語句2的描述詞語構成的語句2在生成的日記文本中出現(xiàn)的概率為30%,則選擇與在生成的日記文本中出現(xiàn)的概率最高的語句I進行匹配,獲取匹配后的語句。
[0122]根據本發(fā)明實施例提供的一種語句生成方法,可以根據終端的各種數(shù)據信息自動生成語句,用語句完整地描述在終端上發(fā)生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。
[0123]圖4為本發(fā)明一種語句生成裝置的一個實施例的結構示意圖。如圖4所示,該裝置1000包括:
[0124]收集單元11,用于收集終端的至少一個數(shù)據信息,其中,所述數(shù)據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種。
[0125]本發(fā)明的終端是指網絡與最終用戶接觸用以實現(xiàn)網絡應用的各種設備,例如筆記本電腦、平板電腦、手機等。從一個終端上可以收集到各種數(shù)據信息,包括:該終端自身的運行信息,例如網絡連接信息、系統(tǒng)進程信息等;該終端的用戶操作信息,例如傳感器信息、微博等;該終端從外部接口接收到的信息,例如通話信息、短信信息、GPS信息等,這些數(shù)據信息包含文本數(shù)據,例如微博、短信,可以從這些信息中直接提取文字信息;還包括非文本數(shù)據,例如網絡連接信息、系統(tǒng)進程信息、傳感器信息等,這些是通過接口等采集的數(shù)據信息。本發(fā)明的收集單元11可以統(tǒng)一收集終端的這些數(shù)據信息并進行整理。
[0126]確定單元12,用于確定所述至少一個數(shù)據信息的每個數(shù)據信息在待組成語句中的句子成分。
[0127]對于收集的每個數(shù)據信息,確定單元12將其確定為相應的句子成分,句子成分的類型包括主語、謂語、賓語、定語、補語、狀語、表語等,例如對于收集終端的時間信息,可以將該時間信息確定為時間狀語,對于從GPS收集的信息,可以將該信息確定為地點狀語等。
[0128]組成單元13,用于根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將所述至少一個數(shù)據信息組成語句。
[0129]識別了收集的每個數(shù)據信息的句子成分后,組成單元13就可以按照這些數(shù)據信息對應的句子成分,按照一定的句子結構或與一些語言模型進行匹配,獲得這些數(shù)據信息組成的語句,從而通過一個或多個語句對這些數(shù)據信息包含的內容進行了完整的描述。累積的語句即形成了自動日記文本。
[0130]根據本發(fā)明實施例提供的一種語句生成裝置,可以根據終端的各種數(shù)據信息自動生成語句,用語句完整地描述在終端上發(fā)生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。
[0131]圖5為對圖4所示的本發(fā)明一種語句生成裝置的進一步細化的另一個實施例的結構示意圖。如圖5所示,該裝置2000包括:
[0132]收集單元21,用于收集終端的至少一個數(shù)據信息,其中,所述數(shù)據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種。
[0133]在本實施例中,收集單元21包括采集子單元211、檢測子單元212和格式化子單元213。
[0134]采集子單元211,用于采集終端的至少一個數(shù)據信息。
[0135]本發(fā)明的終端是指網絡與最終用戶接觸用以實現(xiàn)網絡應用的各種設備,例如筆記本電腦、平板電腦、手機等。采集子單元211從一個終端上可以采集到各種數(shù)據信息,包括:該終端自身的運行信息,例如網絡連接信息、系統(tǒng)進程信息等;該終端的用戶操作信息,例如傳感器信息、微博等;該終端從外部接口接收到的信息,例如通話信息、短信信息、GPS信息等,這些數(shù)據信息包含文本數(shù)據,例如微博、短信,可以從這些信息中直接提取文字信息;還包括非文本數(shù)據,例如網絡連接信息、系統(tǒng)進程信息、傳感器信息等,這些是通過接口等采集的數(shù)據信息。
[0136]檢測子單元212,用于檢測所述至少一個數(shù)據信息的來源。
[0137]檢測子單元212檢測采集到的這些數(shù)據信息的來源,這些來源即:如果該信息是GPS信息,則該來源是終端上的GPS ;如果是傳感器信息,則該來源是終端上的某個傳感器;如果是通話信息、應用程序(Applicat1n,APP)信息例如微博等,則能根據軟件程序識別器來源。
[0138]格式化子單元213,用于根據所述至少一個數(shù)據信息的來源,按照與所述來源對應的格式,將所述至少一個數(shù)據信息進行格式化,獲得至少一個格式化后的數(shù)據信息。
[0139]對采集自不同來源的數(shù)據信息,需格式化子單元213按照不同的格式進行整理這些數(shù)據信息,以便于后續(xù)的使用。
[0140]對采集到的數(shù)據信息進行格式化的格式可以有多種,例如元組等表示方式,本發(fā)明包含但不限于以上實例。
[0141]確定單元22,用于確定所述至少一個數(shù)據信息的每個數(shù)據信息在待組成語句中的句子成分。
[0142]在本實施例中,確定單元22包括查找子單元221和確定子單元222。
[0143]查找子單元221,用于針對每個所述格式化后的數(shù)據信息,從數(shù)據庫中查找與所述格式化后的數(shù)據信息匹配的至少一個描述詞語。
[0144]為了便于用戶閱讀生成的語句,需對采集到的數(shù)據信息采用常規(guī)的或用戶習慣的描述語言進行描述,而數(shù)據庫中存儲了與每個格式化后的數(shù)據信息對應的一個或多個描述詞語,因此,針對每個格式化的數(shù)據信息,查找子單元221可以從該數(shù)據庫中查找與每個格式化的數(shù)據信息匹配的至少一個描述詞語。
[0145]確定子單元222,用于根據與所述格式化后的數(shù)據信息匹配的至少一個描述詞語,確定每個所述格式化后的數(shù)據信息在待組成語句中的句子成分。
[0146]將采集到的每個數(shù)據信息進行格式化以及描述詞語的匹配后,確定子單元222對這些描述詞語會根據之前確定該描述詞語的句子成分的概率或根據使用習慣將其確定為相應的句子成分,句子成分的類型包括主語、謂語、賓語、定語、補語、狀語、表語等,例如對于收集終端的時間信息,可以將該時間信息確定為時間狀語,對于從GPS收集的信息,可以將該信息確定為地點狀語等。
[0147]選擇單元23,用于針對每個格式化后的數(shù)據信息,根據與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語在所述數(shù)據庫中使用的概率,從與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
[0148]在生成語句前,對于每個句子成分所采用的描述詞語一般只選擇一個,因此,選擇單元23需要在與格式化后的數(shù)據信息匹配的多個描述詞語中選擇一個描述詞語,該選擇的依據可以是這些描述詞語在數(shù)據庫中使用的概率,即被選擇用來生成語句的概率,或者也可以基于用戶語言習慣。
[0149]組成單元24,用于根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將所述至少一個數(shù)據信息組成語句。
[0150]在本實施例中,組成單元24包括選擇子單元241和組成子單元242。
[0151]選擇子單元241,用于根據所述至少一個數(shù)據信息的句子成分的類型,從句法結構庫中選擇包含所述至少一個數(shù)據信息的句子成分的類型的語句結構。
[0152]在句法結構庫中存儲了各種語句結構,每種語句結構中包含了一個或多個句子成分,每個句子成分在該語句結構中具有相應的位置。選擇子單元241從句法結構庫中選擇包含所有采集到的數(shù)據信息對應的句子成分的語句結構。
[0153]組成子單元242,用于按照所述至少一個數(shù)據信息的句子成分在所述語句結構中的位置,將選擇的與所述至少一個格式化后的數(shù)據信息匹配的描述詞語組成語句。
[0154]選擇了語句結構后,組成子單元242按照每個格式化后的數(shù)據信息對應的句子成分在該語句結構中的位置,將選擇的與該數(shù)據信息匹配的描述詞語填充到該位置,逐一填充完各個句子成分的位置,即組成了一個語句。
[0155]根據本發(fā)明實施例提供的一種語句生成裝置,可以根據終端的各種數(shù)據信息自動生成語句,用語句完整地描述在終端上發(fā)生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。
[0156]圖6為對圖4所示的本發(fā)明一種語句生成裝置的進一步細化的又一個實施例的結構示意圖。如圖6所示,該裝置3000包括:
[0157]收集單元31,用于收集終端的至少一個數(shù)據信息,其中,所述數(shù)據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種。
[0158]在本實施例中,收集單元31包括采集子單元311、檢測子單元312和格式化子單元313。
[0159]采集子單元311,用于采集終端的至少一個數(shù)據信息。
[0160]檢測子單元312,用于檢測所述至少一個數(shù)據信息的來源。
[0161]格式化子單元313,用于根據所述至少一個數(shù)據信息的來源,按照與所述來源對應的格式,將所述至少一個數(shù)據信息進行格式化,獲得至少一個格式化后的數(shù)據信息。
[0162]確定單元32,用于確定所述至少一個數(shù)據信息的每個數(shù)據信息在待組成語句中的句子成分。
[0163]在本實施例中,確定單元32包括查找子單元321和確定子單元322。
[0164]查找子單元321,用于針對每個所述格式化后的數(shù)據信息,從數(shù)據庫中查找與所述格式化后的數(shù)據信息匹配的至少一個描述詞語。
[0165]確定子單元322,用于根據與所述格式化后的數(shù)據信息匹配的至少一個描述詞語,確定每個所述格式化后的數(shù)據信息在待組成語句中的句子成分。
[0166]選擇單元33,用于針對每個格式化后的數(shù)據信息,根據與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語在所述數(shù)據庫中使用的概率,從與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
[0167]組成單元34,用于根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將所述至少一個數(shù)據信息組成語句。
[0168]在本實施例中,組成單元34包括匹配子單元341和獲取子單元342。
[0169]匹配子單元341,用于根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將選擇的與所述至少一個格式化后的數(shù)據信息匹配的描述詞語與語句模型庫中的語句進行匹配。
[0170]獲取子單元342,用于獲取所述匹配后的語句。
[0171]本實施例與上述實施例的不同之處在于:組成單元34與上述實施例的組成單元24不同。
[0172]語言模型的定義是“一個語言模型通常構建為字符串s的概率分布P(S),這里P(S)試圖反映字符串S作為一個句子出現(xiàn)的概率?!?br>
[0173]在η元語言模型中,句子s=Wl,W2…Wn,其概率計算公式可以表示為:
[0174]P (s) =P (Wl) P (W2 | Wl) P (W3 | W1W2)…P (ffn | ffl —ffn-1)
[0175]在本實施例中,語句模型庫中存儲了各種語句,匹配子單元341將要生成語句的與格式化的數(shù)據信息匹配的描述詞語與語句模型庫中的語句進行匹配,獲取子單元342獲取匹配后的語句。
[0176]具體地,例如,語句模型庫中存儲了語句I 早晨Lyn打電話給我”,則認為以上舉例中的要生成語句的描述詞語及句子成分與該語句I可以匹配,則獲得匹配后的語句為“早晨John打電話給我”。
[0177]語句模型庫中可能還存儲了語句2 “清晨,我和Lily通話”,則認為以上舉例中的要生成語句的描述詞語及句子成分與該語句2也可以匹配,但是由語句I的描述詞語構成語句I在生成的日記文本中出現(xiàn)的概率為54%,而由語句2的描述詞語構成語句2在生成的日記文本中出現(xiàn)的概率為30%,則選擇與在生成的日記文本中出現(xiàn)的概率最高的語句I進行匹配,獲取匹配后的語句。
[0178]根據本發(fā)明實施例提供的一種語句生成裝置,可以根據終端的各種數(shù)據信息自動生成語句,用語句完整地描述在終端上發(fā)生的活動或事件,方便用戶通過終端對這些活動或事件進行自動記錄。
[0179]以上所揭露的僅為本發(fā)明較佳實施例而已,當然不能以此來限定本發(fā)明之權利范圍,因此依本發(fā)明權利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
【權利要求】
1.一種語句生成方法,其特征在于,包括: 收集終端的至少一個數(shù)據信息,其中,所述數(shù)據信息包括所述終端的運行信息、所述終端的操作信息和所述終端從外部接口接收到的信息中的至少一種; 確定所述至少一個數(shù)據信息的每個數(shù)據信息在待組成語句中的句子成分; 根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將所述至少一個數(shù)據信息組成語句。
2.如權利要求1所述的方法,其特征在于,所述收集終端的至少一個數(shù)據信息,包括: 采集終端的至少一個數(shù)據信息; 檢測所述至少一個數(shù)據信息的來源; 根據所述至少一個數(shù)據信息的來源,按照與所述來源對應的格式,將所述至少一個數(shù)據信息進行格式化,獲得至少一個格式化后的數(shù)據信息; 所述確定所述至少一個數(shù)據信息的每個數(shù)據信息在待組成語句中的句子成分,包括:針對每個所述格式化后的數(shù)據信息,從數(shù)據庫中查找與所述格式化后的數(shù)據信息匹配的至少一個描述詞語; 根據與所述格式化后的數(shù)據信息匹配的至少一個描述詞語,確定每個所述格式化后的數(shù)據信息在待組成語句中的句子成分。
3.如權利要求2所述的方法,其特征在于,所述根據與所述格式化后的數(shù)據信息匹配的至少一個描述詞語,確定每個所述格式化后的數(shù)據信息在待組成語句中的句子成分之后,以及所述根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將所述至少一個數(shù)據信息組成語句之前,還包括: 針對每個格式化后的數(shù)據信息,根據與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語在所述數(shù)據庫中使用的概率,從與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
4.如權利要求3所述的方法,其特征在于,所述根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將所述至少一個數(shù)據信息組成語句,包括: 根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分的類型,從句法結構庫中選擇包含所述至少一個數(shù)據信息的句子成分的類型的語句結構; 按照所述至少一個數(shù)據信息的句子成分在所述語句結構中的位置,將選擇的與所述至少一個格式化后的數(shù)據信息匹配的描述詞語組成語句。
5.如權利要求3所述的方法,其特征在于,所述根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將所述至少一個數(shù)據信息組成語句,包括: 根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將選擇的與所述至少一個格式化后的數(shù)據信息匹配的描述詞語與語句模型庫中的語句進行匹配; 獲取所述匹配后的語句。
6.一種語句生成裝置,其特征在于,包括: 收集單元,用于收集終端的至少一個數(shù)據信息,其中,所述數(shù)據信息包括所述終端的運行信息、所述終端的操作的信息和所述終端從外部接口接收到的信息中的至少一種; 確定單元,用于確定所述至少一個數(shù)據信息的每個數(shù)據信息在待組成語句中的句子成分; 組成單元,用于根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將所述至少一個數(shù)據信息組成語句。
7.如權利要求6所述的裝置,其特征在于,所述收集單元包括: 采集子單元,用于采集終端的至少一個數(shù)據信息; 檢測子單元,用于檢測所述至少一個數(shù)據信息的來源; 格式化子單元,用于根據所述至少一個數(shù)據信息的來源,按照與所述來源對應的格式,將所述至少一個數(shù)據信息進行格式化,獲得至少一個格式化后的數(shù)據信息; 所述確定單元包括: 查找子單元,用于針對每個所述格式化后的數(shù)據信息,從數(shù)據庫中查找與所述格式化后的數(shù)據信息匹配的至少一個描述詞語; 確定子單元,用于根據與所述格式化后的數(shù)據信息匹配的至少一個描述詞語,確定每個所述格式化后的數(shù)據信息在待組成語句中的句子成分。
8.如權利要求7所述的裝置,其特征在于,還包括: 選擇單元,用于針對每個格式化后的數(shù)據信息,根據與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語在所述數(shù)據庫中使用的概率,從與所述格式化后的數(shù)據信息匹配的所述至少一個描述詞語中選擇一個描述詞語。
9.如權利要求8所述的裝置,其特征在于,所述組成單元包括: 選擇子單元,用于根據所述至少一個數(shù)據信息的句子成分的類型,從句法結構庫中選擇包含所述至少一個數(shù)據信息的句子成分的類型的語句結構; 組成子單元,用于按照所述至少一個數(shù)據信息的句子成分在所述語句結構中的位置,將選擇的與所述至少一個格式化后的數(shù)據信息匹配的描述詞語組成語句。
10.如權利要求8所述的裝置,其特征在于,所述組成單元包括: 匹配子單元,用于根據確定的所述至少一個數(shù)據信息在待組成語句中的句子成分,將選擇的與所述至少一個格式化后的數(shù)據信息匹配的描述詞語與語句模型庫中的語句進行匹配; 獲取子單元,用于獲取所述匹配后的語句。
【文檔編號】G06F17/30GK104462145SQ201310440040
【公開日】2015年3月25日 申請日期:2013年9月24日 優(yōu)先權日:2013年9月24日
【發(fā)明者】董振華, 歐陽靖民, 張弓 申請人:華為技術有限公司