买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】自然语言处理方法、装置、存储介质及终端设备_OPPO广东移动通信有限公司_201710854121.6 

申请/专利权人:OPPO广东移动通信有限公司

申请日:2017-09-20

公开(公告)日:2021-01-15

公开(公告)号:CN107656997B

主分类号:G06F16/36(20190101)

分类号:G06F16/36(20190101);G06F40/205(20200101);G06F40/30(20200101);G06F40/242(20200101);G06F40/289(20200101)

优先权:

专利状态码:有效-授权

法律状态:2021.01.15#授权;2018.03.02#实质审查的生效;2018.02.02#公开

摘要:本申请实施例公开了一种自然语言处理方法、装置、存储介质及终端设备,该方法包括:确定用户的终端设备上的目标应用;获取所述用户在操作所述目标应用的过程中确定的操作信息,作为目标记录信息;根据所述目标记录信息确定爬行网站;从所述爬行网站采集训练语句;将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型。本申请实施例的优点在于可以更准确地解析用户输入的信息以及了解用户的意图。

主权项:1.一种自然语言处理方法,其特征在于,包括:确定用户的终端设备上的目标应用;获取所述用户在操作所述目标应用的过程中确定的操作信息,作为目标记录信息;根据所述目标记录信息确定爬行网站,包括:对所述目标记录信息进行关键词提取处理,以确定对应的关键词;确定所述关键词中相同关键词的数量,根据所述相同关键词的数量对所述关键词进行筛选,以确定目标关键词;根据所述目标关键词确定对应的爬行网站;从所述爬行网站采集训练语句;将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型。

全文数据:自然语言处理方法、装置、存储介质及终端设备技术领域[0001]本申请实施例涉及基于人工智能技术进行语言语义识别的技术领域,尤其涉及一种自然语言处理方法、装置、存储介质及终端设备。背景技术[0002]自然语言处理是属于人工智能技术领域中的一个重要的方向,其应用领域涉及广泛,包括终端设备的智能助手、翻译工具和无人汽车等。通过自然语言处理技术可以根据用户的输入语音或文字确定用户的意图,并执行相应的操作;在用户不方便操作终端设备,或者忘记操作过程时,可以直接通过与智能助手“对话”而执行相应的操作。[0003]然而,由于相同的文字在不同的应用场景中所代表的含义并不单一,或者具有相同的文字会被不同的人表述为不同的含义。所以,终端设备上智能助手有时候并不能准确地理解用户输入的文字所要表达的真正的意图,所以需要一种更能准确理解用户意图的自然语言处理技术。发明内容[0004]本申请实施例提供的一种自然语言处理方法、装置、存储介质及终端设备,可以更准确地解析用户输入的信息以及了解用户的意图。[0005]第一方面,本申请实施例提供了一种自然语言处理方法,包括:[0006]确定用户的终端设备上的目标应用;[0007]获取所述用户在操作所述目标应用的过程中确定的操作信息,作为目标记录信息;[0008]根据所述目标记录信息确定爬行网站;[0009]从所述爬行网站采集训练语句;[0010]将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型。[0011]第二方面,本申请实施例提供了一种自然语言处理装置,包括:[0012]应用确定模块,用于确定用户的终端设备上的目标应用;[0013]目标记录获取模块,用于获取所述用户在操作所述目标应用的过程中确定的操作信息,作为目标记录信息;[0014]爬行确定模块,用于根据所述目标记录信息确定爬行网站;[0015]采集模块,用于从所述爬行网站采集训练语句;[0016]训练模块,用于将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型。[0017]第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的自然语言处理方法。[0018]第四方面,本申请实施例提供了一种终端设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如本申请实施例所述的自然语言处理方法。[0019]本申请实施例中提供的一种自然语言处理方法,通过获取用户使用终端设备上应用的操作信息确定对应的爬行数据的网站,调整用于训练自然语言处理系统的训练数据的信息来源,更接近用户的习惯和兴趣爱好。通过采用上述技术方案,可以使自然语言处理的识别结果更接近用户的意图。附图说明[0020]图1为本申请实施例提供的一种自然语言处理方法的流程示意图;[0021]图2为本申请实施例提供的另一种自然语言处理方法的流程示意图;[0022]图3为本申请实施例提供的另一种自然语言处理方法的流程示意图;[0023]图4为本申请实施例提供的另一种自然语言处理方法的流程示意图;[0024]图5为本申请实施例提供的另一种自然语言处理方法的流程示意图;[0025]图6为本申请实施例提供的一种自然语言处理装置的结构框图;[0026]图7为本申请实施例提供的一种终端设备的结构示意图。具体实施方式[0027]下面结合附图并通过具体实施方式来进一步说明本申请的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。[0028]在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。[0029]如智能手机的终端设备在人们的生活里越来越普及,随着发展起来的是装在智能手机中的应用软件,各个类别的应用能实现不同的功能,为用户的生活工作提供方便和辅助。而通过了解用户在使用终端设备上的应用的使用记录信息可以从一方面了解用户的行为习惯和兴趣爱好,通过在与用户的行为习惯和兴趣爱好对应的网站采集训练语句,并训练自然语言处理系统,可以使自然语言处理系统更准确地了解用户输入的自然语言的意图。[0030]图1为本申请实施例提供的一种自然语言处理方法的流程示意图,该方法可以由自然语言处理装置执行,其中该装置可以由软件和硬件实现,一般可以集成在终端设备中。如图1所示,该方法包括:[0031]步骤110、确定终端设备上的目标应用。[0032]示例性地,所述终端设备可以是手机、平板电脑以及其他智能终端设备。终端设备上装有用户的应用,即应用程序APPApplication,通过终端设备上的一些应用程序可以推测出用户的行为习惯和兴趣爱好。[0033]所述目标应用一般是具有用户的个性化操作信息输入的应用,个性化操作信息可以是自然文本语言,也可以是用户输入选择的定制信息等。[0034]例如,应用哔哩哔哩bilibili是具有互动分享和二次创造的潮流文化娱乐社区,使用应用哔哩哔哩的用户普遍会有一些比较明显的兴趣爱好,如二次元、番剧或舞蹈等。如果用户的终端设备上装有应用哔哩哔哩,则可以确定哔哩哔哩为目标应用。[0035]可选地,确定用户的终端设备上的交互应用、订阅应用和搜索应用中的至少一种,作为目标应用。[0036]其中,交互应用包括UGC用户原创内容,UserGeneratedContent应用和即时通讯应用等。和其他应用相比,用户使用交互应用会有较多的输出信息,而不仅仅只是接收信息。UGC应用包括如知乎、豆瓣、微博和LOFTER等应用,UGC应用用于获取用户的原创内容,并通过互联网平台将原创内容展示给其他用户,UGC应用的使用比较能够推测出用户的兴趣爱好和行为习惯。即时通讯应用包括如微信和QQ等应用,用户通过使用即时通讯应用与其他用户进行聊天和通讯时,会通过即时通讯软件直接输入内容信息,其中一般会涵盖用户的兴趣爱好和行为习惯的内容。[0037]订阅应用包括如今日头条、凤凰新闻等可定制的个性化应用。部分订阅应用会有默认的订阅版块,例如,包括要问、娱乐、体育、社会和军事等。用户使用订阅应用时可以编辑订阅版块,包括删除默认的订阅版块和增加默认的订阅版块中没有的版块。订阅应用对于用户的兴趣爱好和行为习惯具有较高的针对性。[0038]搜索应用包括如手机百度、微软必应和搜狗浏览器等应用。用户如果主动想要了解一个未知的信息时,会通过搜索应用进行搜索,再从搜索结果中进行筛选阅读并了解。搜索应用的使用也能推测出用户的兴趣爱好和行为习惯。[0039]将终端设备上的交互应用、订阅应用和搜索应用中的至少一种作为目标应用,通过用户使用这些目标应用的操作信息可以比较准确地了解用户的兴趣爱好和行为习惯。[0040]步骤120、获取所述用户在操作所述目标应用的过程中确定的操作信息,作为目标记录信息。[0041]示例性地,所述操作信息可以是根据用户在操作所述目标应用过程中输入的交互操作所确定的信息,交互操作的输入是为了用户个性化信息的输入,交互操作的形式可以包括点击输入操作、滑动输入操作和文本信息输入操作中的至少一个。例如,操作信息可以是通过文本信息输入操作和点击输入操作发布的微博内容,还可以是通过滑动输入操作和点击输入操作所订阅的版块,还可以是通过文本信息输入操作、点击输入操作和滑动输入操作进行搜索的搜索内容。[00«]可选地,如果所述目标应用包括交互应用,则所述目标记录信息为交互过程中所述用户输入的交互数据。[0043]交互应用是需要用户与服务器,或用户与其他用户,通过发送包括自然语言的交互消息进行交流的应用程序。交互应用包括UGC应用和即时通讯应用。UGC应用提倡用户个性化,通过用户在UGC应用时产生的交互数据可以确定用户的个性化特点。例如,应用知乎的交互数据包括用户通过滑动输入操作和点击输入操作所关注的话题、关注的问题和分享等,还包括用户通过文本信息输入操作和点击输入操作所回答的内容和所提出的问题等。应用豆瓣的交互数据包括用户通过滑动输入操作和点击输入操作所关注的小组和喜欢的内容等,还包括用户通过文本信息输入操作和点击输入操作所发布的广播和发布的曰记等。获取用户使用UGC应用的交互过程中输入的交互数据作为目标记录信息,可以了解到用户的行为习惯和兴趣爱好。[0044]通过获取即时通讯应用的交互数据可以获取到用户的输出内容,例如,用户通过文本信息输入操作和点击输入操作所发送的消息,用户通过滑动输入操作和点击输入操作所点击的链接内容等。获取用户使用即时通讯应用中输入的交互数据作为目标记录信息,也可以了解到用户的行为习惯和兴趣爱好。[0045]可选地,如果所述目标应用包括订阅应用,则所述目标记录信息为所述用户输入的订阅编辑数据。[0046]订阅应用是需要用户输入个性化订阅消息的应用程序。订阅编辑数据包括用户对订阅应用的订阅内容进行编辑的数据。部分订阅应用有默认的订阅内容,例如要问、娱乐、体育、社会和军事等版块,用户使用订阅应用时可以编辑订阅内容,包括删除默认的版块,和增加默认的订阅内容中没有的版块。另外,还有部分订阅应用在最初使用的时候没有默认的订阅版块,所以用户在最初使用这些订阅应用时,需要选择其感兴趣的订阅内容作为订阅编辑数据。所以通过用户输入的订阅编辑数据可以了解用户的行为习惯和兴趣爱好。[0047]可选地,如果所述目标应用包括搜索应用,则所述目标记录信息为搜索操作中所述用户输入的历史搜索式。[0048]搜索应用是需要用户输入搜索关键词,并根据搜索关键词搜索互联网生成搜索结果的应用程序。通过获取用户进行搜索操作的历史搜索式,可以了解到用户主动想要了解的信息。所以,通过用户进行搜索操作中输入的历史搜索式也可以从一方面了解用户的行为习惯和兴趣爱好。[0049]步骤130、根据所述目标记录信息确定爬行网站。[0050]通过从目标记录信息中提取相应的关联数据,并通过关联数据确定爬行网站。根据上文所述,目标记录信息包括交互数据、订阅编辑数据和历史搜索式中的至少一个,可以根据目标记录信息确定爬行网站。例如,交互数据包括应用知乎中的关注话题“纪录片”,订阅编辑数据包括“文化”,历史搜索式包括“CCTV9直播”,则可以提取出相应的关联数据,包括纪录片和文化等,所以可以确定爬行网站是某网站的纪录片版块专区,或者是某网站的文化版块专区。根据目标记录信息所确定的爬行网站比较接近用户的兴趣爱好和行为习惯。[0051]步骤140、从所述爬行网站采集训练语句。[0052]示例性地,从所述爬行网站对应的页面上采集符合采集条件的语句作为训练语句。所述采集条件可以是提取能够尽量反应用户习惯性用语的条件,或能够尽量反应页面实质内容的条件,可以包括所述对应的页面中的标题、包含预设内容和出现次数大于预设重复次数中的至少一种。[0053]采集条件可以是对应的页面中的标题语句。一个网站对应的页面上包含诸多信息,其中,标题会包含其对应的文章或内容的核心部分,所以不用采集整篇文章或整段内容,仅采集标题语句便可以得到和对应的文章或内容相关度比较高的语句。[0054]采集条件可以是包含预设内容的语句。预设内容可以是包含“所以”的语句,或包含“综上所述”的语句,包含上述预设内容的语句一般是具有结论性的语句,其所包含的信息和其对应的文章或内容也有着较高的相关度。[0055]采集条件可以是包括出现次数大于预设重复次数的语句。在一个页面中出现次数大于预设重复次数的语句,一般是该爬行网站中比较重要或比较热门的内容。从所述爬行网站上采集满足上述采集条件的训练语句,其包含的信息会比较符合用户的行为习惯和兴趣爱好。[0056]通过采集满足上述采集条件的语句作为训练词句,可以得到与用户的个性化特点有着较强关联性的语句。[0057]步骤150、将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型。[0058]所述自然语言处理系统是用于训练自然语言处理模型的工具,可以是神经网络模型,还可以是包括设定数据库或具备设定规则的数学模型。[0059]所述自然语言处理模块可以对用户输入的自然语言语句进行分析,并确定自然语言语句所包含的含义。在使用自然语言处理模块之前,需要对自然语言处理模块进行训练,训练方法是将大量的训练语句发送至自然语言处理系统,自然语言处理系统根据分割词典将训练语句分割并进行训练学习,以生成若干个训练词作为所述用户的个性词,并为所述个性词生成解析信息,根据个性词和对应的解析信息生成自然语言处理模型。[0060]由于训练语句与用户的个性化特点有着较强的关联性,分割后的训练词比较接近用户的语言习惯,能够反应用户的个性化特点。将分割后的训练词作为用户的个性词,使自然语言处理模型学习这些个性词,可以使自然语言处理模型更接近用户的行为习惯和兴趣爱好,更了解用户的语言习惯。[0061]用户使用经过训练的自然语言处理模块时,输入自然语言语句,自然语言处理系统将用户输入的自然语言语句分解成若干个分解词,并根据自然语言处理模型对若干个分解词进行解析、特征提取以及分类,进而确定用户输入的自然语言语句所包含的含义,并使自然语言处理系统根据确定的含义执行相应的操作。[0062]通过获取用户的终端设备上的应用使用信息来确定要采集训练语句的网站,能够得到比较接近用户习惯与兴趣的语句,而自然语言处理模块经过上述语句的训练,能够更接近用户的行为习惯和兴趣爱好,以及更了解用户的语言习惯。[0063]可选地,如图2所示,根据所述目标记录信息确定爬行网站可以通过下述方式实施:[0064]步骤131、对所述目标记录信息进行关键词提取处理,以确定对应的关键词。[0065]示例性地,当目标记录信息中的交互数据包括应用知乎中的关注问题“有哪些好的旅游纪录片推荐?”,可以根据预设的关键词库对该交互数据进行关键词提取处理,以提取关键词。[0066]所述预设的关键词库内包括多个预设关键词,所述多个预设关键词覆盖了不同类型用户的不同个性化特点所对应的关键词。所述关键词提取处理包括:基于关键词库对目标记录信息进行匹配分词处理,如果有与关键词库中的预设词匹配的词语,则提取出来作为关键词。例如,上文所述的目标记录信息是“有哪些好的旅游纪录片推荐?”,如果预设关键词库中包括的多个预设关键词中含有旅游和纪录片,则就可以通过进行匹配从上述目标记录信息中提取关键词,包括旅游和纪录片。[0067]示例性的,还可以首先对目标记录信息进行分词处理,提取出有实体意义的实体词,再根据提取出的实体词的出现的频率确定关键词。[0068]步骤132、确定所述关键词中相同关键词的数量,根据所述相同关键词的数量对所述关键词进行筛选,以确定目标关键词。[0069]示例性地,根据所述关键词中相同关键词的数量,从多至少对相同关键词进行排序,并筛选出前预设数值的相同关键词作为目标关键词。例如,通过交互数据提取的关键词包括旅游、纪录片和评价;另外,目标记录信息中的订阅编辑数据确定的关键词包括:读书、文化和旅游;以及,根据目标记录信息中的历史搜索式确定的关键词包括:记录片、视频和文化。其中,相同关键词为旅游的数量为2个,相同关键词为纪录片的为2个,相同关键词为文化的数量为2个,相同关键词为评价的数量为丨个,相同关键词为读书的数量为丨个,相同关键词为视频的数量为1个。如果预设数值为3,则筛选出其中相同关键词的数量较多的3个作为目标关键词,分别是:旅游、纪录片和文化。[0070]步骤133、根据所述目标关键词确定对应的爬行网站。[0071]可选地,如上文所述的目标关键词包括旅游、纪录片和文化,则可以通过这些目标关键词确定的爬行网站为某网站的旅游版块专区,纪录片版块专区和文化版块专区。针对从目标应用中获取的目标记录信息内容比较丰富的情况,所确定的关键词也会比较多。所以通过对关键词进行筛选,选择其中数量较多的相同关键词作为目标关键词,可以确定在用户的行为习惯和兴趣爱好中所占权重较高的关键词,也能进一步了解用户的个性化特点。[0072]可选地,如图3所示,从所述爬行网站采集训练语句可以通过下述方式实施:[0073]步骤141、将所述爬行网站对应的页面作为爬行页面。[0074]步骤142、从爬行页面上获取符合采集条件的语句作为训练语句。[0075]所述采集条件可以是提取能够尽量反应用户习惯性用语的条件,或能够尽量反应页面实质内容的条件。采集条件可以包括:所述对应的页面中的标题、包含预设内容和出现次数大于预设重复次数中的至少一种。[0076]采集条件可以是对应的页面中的标题语句。一个网站对应的页面上包含诸多信息,其中,标题会包含其对应的文章或内容的核心部分,所以不用采集整篇文章或整段内容,仅采集标题语句便可以得到和对应的文章或内容相关度比较高的语句。[0077]采集条件可以是包含预设内容的语句。预设内容可以是包含“所以”的语句,或包含“综上所述”的语句,包含上述预设内容的语句一般是具有结论性的语句,其所包含的信息和其对应的文章或内容也有着较高的相关度。[0078]采集条件可以是包括出现次数大于预设重复次数的语句。在一个页面中出现次数大于预设重复次数的语句,一般是该爬行网站中比较重要或比较热门的内容。从所述爬行网站上采集满足上述采集条件的训练语句,其包含的信息比较符合用户的行为习惯和兴趣爱好。[0079]通过采集满足上述采集条件的语句作为训练词句,可以得到与用户的个性化特点有着较强关联性的语句。[00S0]步骤143、如果在所述爬行页面中获取到关联链接时,将关联链接对应的关联页面作为爬行页面,并返回执行步骤142。[0081]示例性地,所述关联链接为爬行页面上可以用于打开下层的关联页面的链接,包括符合采集条件的语句对应的URL链接和爬行页面中的图片对应的URL链接等。通过获取爬行页面上符合采集条件的语句作为训练语句,再打开符合采集条件的语句对应的URL链接的关联页面,将该关联页面作为爬行页面返回执行采集语句的操作;或打开爬行页面中图片对应的URL链接的关联页面,将该关联页面作为爬行页面返回执行采集语句的操作。如此,可以将爬行网站的所有关联页面的符合采集条件的语句进行采集,以提高自然语言处理系统的训练语句的丰富和深度。[0082]可选地,如图4所示,将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型可以通过下述方式实施:[0083]步骤151、将训练语句发送至自然语言处理系统;[0084]步骤152、通过自然语言处理系统的分割词典将训练语句分割并进行训练学习,以生成至少一个训练词作为所述用户的个性词,并为所述个性词生成解析信息;其中,所述解析信息包括词性标注和词义注解,所述个性词和其解析信息作为所述用户的自然语言处理模型。[0085]所述自然语言处理系统是用于训练自然语言处理模型的工具,可以是神经网络模型,还可以是包括设定数据库或具备设定规则的数学模型。[0086]示例性地,所述自然语言处理系统包括:接收模块、分割模块和解析模块。[0087]接收模块用于接收训练语句,并将训练语句发送至分割模块。[0088]分割模块用于基于分割词典对训练语句进行匹配并切分,分割成至少一个训练词,作为用户的个性词。[0089]解析模块对个性词进行解析并生成对应的解析信息,解析信息包括词性标注和词义注解;词性标注即确定个性词在训练语句中的词性,是名词、动词或代词等等,可以通过预存的词性库对个性词进行词性标注。词义注解包括个性词的释义,可以通过预存的词义库对个性词进行注解,也可以通过网络搜索获取释义。根据经过分割和解析的个性词及其解析信息生成所述用户的自然语言处理模型。[0090]用户使用经过训练的自然语言处理模块时,输入自然语言语句,自然语言处理系统将用户输入的自然语言语句分解成若干个分解词,并根据自然语言处理模型对若干个分解词进行解析、特征提取以及分类,进而确定用户输入的自然语言语句所包含的含义,并使自然语言处理系统根据确定的含义执行相应的操作。[0091]因为相同的词语在不同的用户理解下,有着不同的释义。特别是一些比较具有个性色彩的词汇,不同用户的理解更是相差甚远。通过在个性词的解析信息中设置词义注解,自然语言处理模型通过其词义注解,对于个性词的理解会比较接近用户对于该个性词的理解。[0092]可选地,如图5所示,将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型之后还包括:[0093]步骤161、接收所述用户输入的校正语句,并发送至所述自然语言处理系统;[0094]步骤162、通过自然语言处理系统识别所述校正语句以提取校正信息,所述校正信息包括词性校正和或词义校正;[0095]步骤163、根据所述校正信息校正对应的所述解析信息。[0096]示例性地,用户可以对自然语言处理模型中训练生成的解析信息进行校正。例如,自然语言处理系统在训练过程中对个性词“奶糖”进行解析生成的词性标注是名词,词义注解是食物、甜食等。当用户输入的自然语言为“我忘了给奶糖喂食”,自然语言处理系统可能无法理解上述自然语言。[0097]用户可以通过输入校正语句“奶糖是我养的猫”,自然语言处理系统可以对校正语句进行识别以及提取校正信息,把个性词“奶糖”的词义注解校正为宠物、猫等。通过接收用户输入的校正语句可以对自然语言处理模型中一些解析信息错误的训练词进行校正,以提高自然语言处理的识别处理能力。[0098]如图6为本申请实施例提供的一种自然语言处理装置的结构框图,该装置可以由软件和或硬件实现,一般集成在终端设备中,如图6所示,该装置包括:[0099]应用确定模块210,用于确定用户的终端设备上的目标应用;[0100]目标记录获取模块220,用于获取所述用户在操作所述目标应用的过程中确定的操作信息,作为目标记录信息;[0101]爬行确定模块230,用于根据所述目标记录信息确定爬行网站;[0102]采集模块240,用于从所述爬行网站采集训练语句;[0103]训练模块2f50,用于将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型。[0104]可选地,应用确定模块具体用于:[0105]确定用户的终端设备上的交互应用、订阅应用和搜索应用中的至少一种,作为目标应用。[0106]可选地,如果所述目标应用包括交互应用,则所述目标记录信息为交互过程中所述用户输入的交互数据;[0107]如果所述目标应用包括订阅应用,则所述目标记录信息为所述用户输入的订阅编辑数据;[0108]如果所述目标应用包括搜索应用,则所述目标记录信息为搜索操作中所述用户输入的历史搜索式。[0109]可选地,爬行确定模块具体用于:[0110]根据所述目标记录信息进行关键词提取处理,以确定对应的关键词;[0111]确定所述关键词中相同关键词的数量,根据所述相同关键词的数量对所述关键词进行筛选,以确定目标关键词;[0112]根据所述目标关键词确定对应的爬行网站。[0113]可选地,采集模块具体包括:[0114]页面确定单元,用于将所述爬行网站对应的页面作为爬行页面;[0115]内容采集单元,用于从所述爬行页面上获取符合采集条件的语句作为训练语句;所述采集条件包括:所述对应的页面中的标题、包含预设内容和出现次数大于预设重复次数中的至少一种;[0116]关联确定单元,如果在所述爬行页面中获取到关联链接时,将所述关联链接对应的关联页面作为爬行页面,并执行内容采集单元。[0117]可选地,训练模块具体用于:[0118]将训练语句发送至自然语言处理系统;[0119]通过自然语言处理系统的分割词典将训练语句分割并进行训练学习,以生成至少一个训练词作为所述用户的个性词,并为所述个性词生成解析信息;其中,所述解析信息包括词性标注和词义注解,根据所述个性词和其解析信息生成所述用户的自然语言处理模型。[0120]可选地,还包括:[0121]校正模块,用于接收所述用户输入的校正语句,并发送至所述自然语言处理系统;[0122]通过自然语言处理系统识别所述校正语句以提取校正信息,所述校正信息包括词性校正和或词义校正;[0123]根据所述校正信息校正对应的解析信息。[0124]本申请实施例还提供了一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的自然语言处理操作,还可以执行本申请任意实施例所提供的自然语言处理方法中的相关操作。[0125]存储介质一一任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、ED0RAM,兰巴斯RambusRAM等;非易失性存储器,诸如闪存、磁介质例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络诸如因特网连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令例如具体实现为计算机程序)。[0126]本申请实施例提供了一种终端设备,该终端设备中可集成本申请实施例提供的自然语言处理装置。图7为本申请实施例提供的一种终端设备的结构示意图。如图7所示,该终端设备可以包括:壳体(图中未示出)、触摸屏(图中未示出)、触摸按键(图中未示出)、存储器301、中央处理器CentralProcessingUnit,CPU302又称处理器,以下简称CPU、电路板(图中未示出)和电源电路图中未示出)。所述电路板安置在所述壳体围成的空间内部;所述CPU302和所述存储器301设置在所述电路板上;所述电源电路,用于为所述终端设备的各个电路或器件供电;所述存储器301,用于存储可执行程序代码;所述CPU302通过读取所述存储器301中存储的可执行程序代码来运行与所述可执行程序代码对应的计算机程序,以实现以下步骤:[0127]确定用户的终端设备上的目标应用;[0128]获取所述用户在操作所述目标应用的过程中确定的操作信息,作为目标记录信息;[0129]根据所述目标记录信息确定爬行网站;[0130]从所述爬行网站采集训练语句;[0131]将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型。[0132]所述终端设备还包括:外设接口3〇3、RFRadioFrequency,射频)电路音频电路306、扬声器311、电源管理芯片3〇8、输入输出(IO子系统3〇9、触摸屏312、其他输入控制设备310以及外部端口304,这些部件通过一个或多个通信总线或信号线307来通信。[0133]应该理解的是,图示终端设备300仅仅是终端设备的一个范例,并且终端设备300可以具有比图中所示出的更多的或者更少的部件,可以组合两个或更多的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。[0134]下面就本实施例提供的用于自然语言处理的终端设备进行详细的描述,该终端设备以手机为例。[0135]存储器301,所述存储器301可以被CPU302、外设接口303等访问,所述存储器301可以包括高速随机存取存储器,还可以包括非易失性存储器,例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。[0136]外设接口303,所述外设接口303可以将设备的输入和输出外设连接到CPU302和存储器301。[0137]IO子系统309,所述IO子系统309可以将设备上的输入输出外设,例如触摸屏312和其他输入控制设备310,连接到外设接口303。10子系统309可以包括显示控制器3〇91和用于控制其他输入控制设备310的一个或多个输入控制器3092。其中,一个或多个输入控制器3092从其他输入控制设备310接收电信号或者向其他输入控制设备310发送电信号,其他输入控制设备310可以包括物理按钮按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是,输入控制器3092可以与以下任一个连接:键盘、红外端口、USB接口以及诸如鼠标的指示设备。[0138]触摸屏312,所述触摸屏312是用户的终端设备与用户之间的输入接口和输出接口,将可视输出显示给用户,可视输出可以包括图形、文本、图标、视频等。[0139]IO子系统309中的显示控制器3091从触摸屏312接收电信号或者向触摸屏312发送电信号。触摸屏312检测触摸屏上的接触,显示控制器3091将检测到的接触转换为与显示在触摸屏312上的用户界面对象的交互,即实现人机交互,显示在触摸屏312上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是,设备还可以包括光鼠,光鼠是不显示可视输出的触摸敏感表面,或者是由触摸屏形成的触摸敏感表面的延伸。[0140]RF电路305,主要用于建立手机与无线网络(即网络侧)的通信,实现手机与无线网络的数据接收和发送。例如收发短信息、电子邮件等。具体地,RF电路305接收并发送RF信号,RF信号也称为电磁信号,RF电路305将电信号转换为电磁信号或将电磁信号转换为电信号,并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路305可以包括用于执行这些功能的已知电路,其包括但不限于天线系统、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、CODECCOder-DECoder,编译码器芯片组、用户标识模块(SubscriberIdentityModule,SIM等等。[0141]音频电路3〇6,主要用于从外设接口303接收音频数据,将该音频数据转换为电信号,并且将该电信号发送给扬声器311。[0142]扬声器311,用于将手机通过RF电路305从无线网络接收的语音信号,还原为声音并向用户播放该声音。[0143]电源管理芯片308,用于为CPU302、I0子系统及外设接口所连接的硬件进行供电及电源管理。[0144]本申请实施例提供的终端设备,可以更准确地解析用户输入的信息以及了解用户的章图〇[0145]上述实施例中提供的自然语言处理装置、存储介质及终端设备可执行本申请任意实施例所提供的自然语言处理方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的自然语言处理方法。[0146]注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

权利要求:1.一种自然语言处理方法,其特征在于,包括:确定用户的终端设备上的目标应用;获取所述用户在操作所述目标应用的过程中确定的操作信息,作为目标记录信息;根据所述目标记录信息确定爬行网站;从所述爬行网站采集训练语句;将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型。2.如权利要求1所述的方法,其特征在于,确定用户的终端设备上的目标应用包括:_确定用户的终端设备上的交互应用、订阅应用和搜索应用中的至少一种,作为目标应用。3.如权利要求2所述的方法,其特征在于:如果所述目标应用包括交互应用,则所述目标记录信息为交互过程中所述用户输入的交互数据;如果所述目标应用包括订阅应用,则所述目标记录信息为所述用户输入的订阅编辑数据;如果所述目标应用包括搜索应用,则所述目标记录信息为搜索操作中所述用户输入的历史搜索式。4.如权利要求1至3任一项所述的方法,其特征在于,根据所述目标记录信息确定爬行网站包括:对所述目标记录信息进行关键词提取处理,以确定对应的关键词;确定所述关键词中相同关键词的数量,根据所述相同关键词的数量对所述关键词进行筛选,以确定目标关键词;根据所述目标关键词确定对应的爬行网站。5.如权利要求1至3任一项所述的方法,其特征在于,所述从所述爬行网站采集训练语句,包括:将所述爬行网站对应的页面作为爬行页面;从所述爬行页面上获取符合采集条件的语句作为训练语句;所述采集条件包括:所述对应的页面中的标题、包含预设内容和出现次数大于预设重复次数中的至少一种;如果在所述爬行页面中获取到关联链接时,将所述关联链接对应的关联页面作为爬行页面,并返回执行从所述爬行页面上获取符合采集条件的语句的操作。6.如权利要求1至3任一项所述的方法,其特征在于,所述将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型,包括:将训练语句发送至自然语言处理系统;通过自然语言处理系统的分割词典将训练语句分割并进行训练学习,以生成至少一个训练词作为所述用户的个性词,并为所述个性词生成解析信息;其中,所述解析信息包括词性标注和词义注解,根据所述个性词和其解析信息生成所述用户的自然语言处理模型。7.如权利要求6所述的方法,其特征在于,为所述个性词生成解析信息之后,还包括:接收所述用户输入的校正语句,并发送至所述自然语言处理系统;通过自然语言处理系统识别所述校正语句以提取校正信息;所述校正信息包括词性校正和或词义校正;根据所述校正信息校正对应的解析信息。8.—种自然语言处理装置,其特征在于,包括:应用确定模块,用于确定用户的终端设备上的目标应用;目标记录获取模块,用于获取所述用户在操作所述目标应用的过程中确定的操作信息,作为目标记录信息;爬行确定模块,用于根据所述目标记录信息确定爬行网站;采集模块,用于从所述爬行网站采集训练语句;训练模块,用于将所述训练语句采用自然语言处理系统进行训练,以生成所述用户的自然语言处理模型。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的自然语言处理方法。10.—种终端设备,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的自然语言处理方法。

百度查询: OPPO广东移动通信有限公司 自然语言处理方法、装置、存储介质及终端设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。