首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种对文言文中缺失文字的补全方法_丁杨_202311025114.7 

申请/专利权人:丁杨

申请日:2023-08-15

公开(公告)日:2024-05-10

公开(公告)号:CN117056859B

主分类号:G06F18/25

分类号:G06F18/25;G06F18/2415;G06F40/232;G06F40/30;G06N3/045;G06N3/048;G06N3/0442

优先权:

专利状态码:有效-授权

法律状态:2024.05.10#授权;2023.12.01#实质审查的生效;2023.11.14#公开

摘要:本发明属于人工智能技术领域,公开了一种对文言文中缺失文字的补全方法,包括如下步骤:步骤1,构建文言文数据集;步骤2,构建文言文缺失文字识别模型,用于对文言文中缺失文字进行预测;所述文言文缺失文字识别模型包括情绪识别模型、表义识别模型、表音识别模型、以及transformer编码器;情绪识别模型、表义识别模型、表音识别模型的输出端与transformer编码器连接;步骤3,对文言文缺失文字识别模型进行训练;步骤4,含有缺失文字的文言文语句输入到训练好的所述文言文缺失文字识别模型,对文言文中所述缺失文字进行预测。本发明将情绪、语义、语音进行进行提取和融合,提高了补缺文字效率与质量。

主权项:1.一种对文言文中缺失文字的补全方法,其特征在于,包括如下步骤:步骤1,构建文言文数据集;步骤2,构建文言文缺失文字识别模型,用于对文言文中缺失文字进行预测;所述文言文缺失文字识别模型包括情绪识别模型、表义识别模型、表音识别模型、以及transformer编码器;情绪识别模型、表义识别模型、表音识别模型的输出端与transformer编码器连接;步骤3,采用文言文数据集分别对情绪识别模型、表义识别模型和表音识别模型进行训练,训练好后,再采用文言文数据集对所述文言文缺失文字识别模型整体训练;其中,采用文言文数据集对所述情绪识别模型进行训练,具体为,将含有缺失文字的文言文语句输入到情绪识别模型,进行情绪识别,输出所述含有缺失文字的文言文语句的情感倾向,包括如下步骤:步骤311,所述缺失文字左侧文本表示为Senleft,所述缺失文字右侧文本表示为Senright,分别对Senleft和Senright进行Emb.文字编码操作,得到两个编码张量left和right,表示为:left=EmbSenleftright=EmbSenright步骤312,将所述编码张量left和right分别输入到Bi_LSTm.双向长短期记忆网络,进行特征提取,得到:outl=Bi_LSTMleftoutr=Bi_LSTmright将outl和outr进行拼接操作,再经过Softmax激活函数进行输出,得到所述含有缺失文字的文言文语句的情感倾向emotion=SoftmaxCatoutl,outr其中Cat.表示将两个特征向量进行拼接操作;softmax.是用于最终分类的激活函数;采用文言文数据集对表音识别模型进行训练,具体为,将所述含有缺失文字的文言文语句输入到表音识别模型,进行拼音识别,输出所述缺失文字的带音调的拼音,包括如下步骤:步骤321,采用Word2Vec的词向量编码以及哈夫曼树算法对含有缺失文字的文言文语句进行拼音识别,得到所述缺失文字的拼音信息;所述拼音信息不包括音调;步骤322,采用Embedding文字编码对输入的文言文语句进行编码,得到编码向量Word_emb:Word_emb=EmbSen步骤323,将编码向量Word_emb输入到双向长短期记忆网络Bi_LSTM,进行特征提取,得到特征向量Temp;Temp=Bi_LSTMWord_emb步骤324,提取到的特征向量Temp继续送入transformer网络中进行全局信息的提取,输出缺失文字的声调tone=Transformer_LayerTemp步骤325,将所述缺失文字的声调tone与其拼音相结合,得到缺失文字的带音调的拼音Pinyin;步骤4,含有缺失文字的文言文语句输入到训练好的所述文言文缺失文字识别模型,对文言文中所述缺失文字进行预测。

全文数据:

权利要求:

百度查询: 丁杨 一种对文言文中缺失文字的补全方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。