买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】机构简称提取方法、装置、计算机设备及存储介质_湖南财信数字科技有限公司_202311226820.8 

申请/专利权人:湖南财信数字科技有限公司

申请日:2023-09-22

公开(公告)日:2023-12-15

公开(公告)号:CN116976320B

主分类号:G06F40/216

分类号:G06F40/216;G06F40/253;G06F40/284;G06F40/289;G06F40/295

优先权:

专利状态码:有效-授权

法律状态:2023.12.15#授权;2023.11.17#实质审查的生效;2023.10.31#公开

摘要:本申请实施例属于自然语言处理技术领域,涉及一种机构简称提取方法、装置、计算机设备及存储介质,方法包括:对机构全称进行分词处理得到多个语素,并生成语素序列;生成语素序列全部的连续语素子序列;确定每个连续语素子序列的概率计算方式,概率计算方式中包含连续语素子序列中各语素的词频概率和条件概率;从预先建立的语素库中获取连续语素子序列中各语素的词频概率和条件概率,以计算连续语素子序列的序列概率;根据连续语素子序列的序列概率和序列长度,计算连续语素子序列的序列分值;根据得到的序列分值从各连续语素子序列中筛选目标子序列,并将筛选到的目标子序列作为目标机构的机构简称。本申请提高了机构简称提取的准确性。

主权项:1.一种机构简称提取方法,其特征在于,包括下述步骤:获取目标机构的机构全称;对所述机构全称进行分词处理得到多个语素,并根据各语素得到语素序列;生成所述语素序列全部的连续语素子序列,连续语素子序列包含至少两个连续的语素;对于每个连续语素子序列,确定所述连续语素子序列的概率计算方式,所述概率计算方式中包含所述连续语素子序列中各语素的词频概率和条件概率;基于所述概率计算方式,从预先建立的语素库中获取所述连续语素子序列中各语素的词频概率和条件概率,以计算所述连续语素子序列的序列概率;根据所述连续语素子序列的序列概率和序列长度,计算所述连续语素子序列的序列分值;根据得到的序列分值从各连续语素子序列中筛选目标子序列,并将筛选到的目标子序列作为所述目标机构的机构简称;所述概率计算方式表示为:;其中,、、、…、、、分别为连续的语素,为语素、、、…、、构成的连续语素子序列,为连续语素子序列的序列概率,为语素的词频概率,为语素的词频概率,为语素的词频概率,为语素的词频概率,为语素后接语素的条件概率,为语素后接语素的条件概率,为语素后接语素的条件概率,为预设的最小概率值;所述序列分值的计算公式表示为:;其中,score为连续语素子序列的序列分值,P为连续语素子序列的序列概率,k为修正系数,len为连续语素子序列的序列长度,e为自然对数。

全文数据:

权利要求:

百度查询: 湖南财信数字科技有限公司 机构简称提取方法、装置、计算机设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。