买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种自适应的基于词汇文本难度的生词标注系统及方法_北京林业大学;广州摩翼信息科技有限公司_202110316129.3 

申请/专利权人:北京林业大学;广州摩翼信息科技有限公司

申请日:2021-03-24

公开(公告)日:2023-08-08

公开(公告)号:CN112949259B

主分类号:G06F40/143

分类号:G06F40/143;G06F40/194

优先权:

专利状态码:有效-授权

法律状态:2023.08.08#授权;2021.07.02#实质审查的生效;2021.06.11#公开

摘要:本发明提出一种自适应的基于词汇文本难度的生词标注方法及系统,所述方法包括以下步骤:步骤一、进行文本词汇难度评估,计算词汇w在包含N个词语的文本text中出现n次的α概率分位数;步骤二、进行词表对比,确定文本text中不在词库Lex的超纲词汇,并将这些词汇按照难度排序后存储;步骤三、进行生词标注,计算基于词汇文本难度词汇列表的累积词汇量,并对超过难度要求的生词进行标注;步骤四、进行文本难度评估,并给出文本难度提示信息。本发明既可以根据学习者所处的学习阶段,也可以根据文本的具体用词情况和学习者的真实水平,自动实现阅读文本生词的自动标注。

主权项:1.一种自适应的基于词汇文本难度的生词标注方法,其特征在于,包括以下步骤:步骤一、进行文本词汇难度评估,计算词汇w在包含N个词语的文本text中出现n次的α概率分位数;所述步骤一、进行文本词汇难度评估,计算词汇w在包含N个词语的文本text中出现n次的α概率分位数;具体包括:步骤1.1将文本text中的所有单词变形转化为原型形式,单词变形包括:首字母大写、动词各种变形、名词复数变形、形容词副词比较级和最高级变形,文本中所有单词的原型构成的集合为WordSet,转步骤1.2;步骤1.2统计文本text中各单词原型出现的次数,使用Countw表示单词w文本text中出现的次数,用T记录文本中的总词数,转步骤1.3;步骤1.3对WordSet中的每一个单词w,利用公式textDifw,text=αw,nIw计算单词w在文本text中的难度,其中n=Countw,转步骤1.4;步骤1.4将WordSet中的所有单词按照其在文本text中的难度排序,将在当前文本中最难的词汇设为w1,次难词汇设为w2,其在文本中出现的次数分别为n1,n2,...,以此类推;将这些单词及文本出现次数按降序插入键值对序列sortedWordMapwi,ni;其中,键wi表示文本中难度排名第i位的单词,值ni存储难度排名第i位的单词在文本中出现的次数;所述步骤1.3中,利用公式textDifw,text=αw,nIw计算w在文本text中的难度,具体包括:待做词汇标注的英文文本为text,计算文本text中各个单词w的文本难度textDifw,text;然后,对文本中各单词按照难度由大到小的顺序排序并统计其出现次数;其中,在当前文本中最难的词汇为w1,次难词汇为w2,其在文本中出现的次数分别为n1,n2,...,以此类推;文本text包含N个单词,单词w在文本text中出现k次的概率由二项分布近似刻画,即: 其中,为在N个元素中选择k个元素的组合数,N为文本text的总词汇数,Propw为词语w在语料库中整体的出现概率;那么,词汇w在包含N个词语的文本text中出现n次的α概率分位数为:在text中w出现的条件下,w出现次数小于等于n次的概率累加,即: 而单词w在文本text中的难度textDifw,text由其在语料库中的信息量Iw=-lgPropw和w在文本text中出现n次的α概率分位数αw,n的乘积构成,即:textDifw,text=αw,nIw3步骤二、进行词表对比,确定文本text中不在词库Lex的超纲词汇,并将这些词汇按照难度排序后存储;步骤三、进行生词标注,计算基于词汇文本难度词汇列表的累积词汇量,并对超过难度要求的生词进行标注;具体包括:对前γ百分位的生词,利用词典进行词义标注或标注提示;具体步骤如下:步骤3.1令当前累计词量TC=0、处理词位I=0,转步骤3.2;步骤3.2令I=I+1,对生词序列UnknownList中的生词UI,计算累计词量TC=TC+CountUI;其中,CountUI表示单词UI在文本text中出现的次数,如果TCN=γ,将UI加入需标注生词集合WordToLabel,转步骤3.2;否则,转步骤3.3;步骤3.3遍历待标注生词集合WordToLabel,对其任意生词U,利用词典检索其对应的词义,用M记录,并将结果U,M存储到词标注序列LabelMap中;步骤3.4遍历词标注序列LabelMap,对任意生词及其对应的词义U,M,在文本中找到生词U第一次出现的位置,按“UM”的格式,对词义进行标注;步骤四、进行文本难度评估,并给出文本难度提示信息。

全文数据:

权利要求:

百度查询: 北京林业大学;广州摩翼信息科技有限公司 一种自适应的基于词汇文本难度的生词标注系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。