买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于局部词表的藏文分词评测集构建方法_西南民族大学_202211585580.6 

申请/专利权人:西南民族大学

申请日:2022-12-09

公开(公告)日:2024-02-20

公开(公告)号:CN116245096B

主分类号:G06F40/279

分类号:G06F40/279;G06F16/31;G06F18/214

优先权:

专利状态码:有效-授权

法律状态:2024.02.20#授权;2023.06.27#实质审查的生效;2023.06.09#公开

摘要:本发明属于藏语自然语言处理技术领域,涉及一种基于局部词表的藏文分词评测集构建方法,该方法在人工或借助词典建立的评测集的基础上,首先基于藏文评测句局部词表识别藏文评测句中的紧缩词,并将紧缩词添加到藏文评测句局部词表中,然后依据藏文评测句的字序列和局部词表自动建立字索引词表,之后根据藏文评测句的字序列和字索引词表构建藏文评测句的所有不同粒度下的评测答案,供藏文分词评测,解决了因切分粒度问题存在评测不公平的问题。

主权项:1.一种基于局部词表的藏文分词评测集构建方法,其特征在于:包括以下步骤:第一步,基于藏文评测句局部词表识别藏文评测句中的紧缩词,并将识别的紧缩词添加到局部词表中;第二步,以藏文评测句的字序列和藏文评测句局部词表建立字索引词表,并对字索引词表以词长降序排列;以藏文评测句的字序列和藏文评测句局部词表建立字索引词表的方法为:A判断藏文评测句是否为空;若藏文评测句为空,则字索引词表为空,字索引词表建立完毕,否则按B继续建立字索引词表;B置n=1,n表示藏文评测句中当前字的位置;C以藏文评测句的第n个字为索引的键,以藏文评测句的局部词表中首字与索引键相等的词为索引值建立索引词表;Dn=n+1;E判断藏文评测句的第n个字是否为空;若藏文评测句的第n个字为空,则字索引词表建立完毕,否则按F继续建立字索引词表;F判断以藏文评测句第n个字为索引键的索引词表是否存在;若以第n个字为索引键的索引词表存在,则转D继续建立字索引词表,否则按G继续建立字索引词表;G以藏文评测句的第n个字为索引的键,以藏文评测句的局部词表中首字与索引键相等的词为索引值建立索引词表,转D继续建立字索引词表;第三步,以藏文评测句的字序列和字索引词表构建藏文评测句评测答案;以藏文评测句的字序列和字索引词表构建藏文评测句评测答案的方法为:a判断藏文评测句是否为空;若藏文评测句为空,则藏文评测句评测答案为空,藏文评测句评测答案构建完毕,否则按b继续构建藏文评测句评测答案;b将藏文评测句的首字设置为当前索引键,从字索引词表中求出当前索引键对应的所有索引值,并以藏文评测句首子串的索引值分别构建藏文评测句评测答案;c判断藏文评测句评测答案中最后一个词的末尾字在藏文评测句中对应的直接后继字是否为空;若藏文评测句评测答案中最后一个词的末尾字在藏文评测句中对应的直接后继字为空,则该藏文评测句评测答案构建完毕,否则设置该直接后继字为新的当前索引键,按d继续构建字索引词表;d判断新的当前索引键对应的索引值是否为空;若新的当前索引键对应的索引值为空,则将藏文评测句中与该索引键对应字的直接后继字设置为新的当前索引键,按e继续构建藏文评测句评测答案,否则按e继续构建藏文评测句评测答案;e从索引词表中求出当前索引键对应的所有索引值,并以藏文评测句中当前索引键对应位置开始的索引值依次追加到每个藏文评测句评测答案尾部,转到c。

全文数据:

权利要求:

百度查询: 西南民族大学 一种基于局部词表的藏文分词评测集构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。