【发明授权】一种对文言文中缺失文字的补全方法_丁杨_202311025114.7

导航：龙图腾网> 最新专利技术> 一种对文言文中缺失文字的补全方法_丁杨_202311025114.7

申请/专利权人：丁杨

申请日：2023-08-15

公开（公告）日：2024-05-10

公开（公告）号：CN117056859B

主分类号：G06F18/25

分类号：G06F18/25;G06F18/2415;G06F40/232;G06F40/30;G06N3/045;G06N3/048;G06N3/0442

优先权：

专利状态码：有效-授权

法律状态：2024.05.10#授权;2023.12.01#实质审查的生效;2023.11.14#公开

摘要：本发明属于人工智能技术领域，公开了一种对文言文中缺失文字的补全方法，包括如下步骤：步骤1，构建文言文数据集；步骤2，构建文言文缺失文字识别模型，用于对文言文中缺失文字进行预测；所述文言文缺失文字识别模型包括情绪识别模型、表义识别模型、表音识别模型、以及transformer编码器；情绪识别模型、表义识别模型、表音识别模型的输出端与transformer编码器连接；步骤3，对文言文缺失文字识别模型进行训练；步骤4，含有缺失文字的文言文语句输入到训练好的所述文言文缺失文字识别模型，对文言文中所述缺失文字进行预测。本发明将情绪、语义、语音进行进行提取和融合，提高了补缺文字效率与质量。

主权项：1.一种对文言文中缺失文字的补全方法，其特征在于，包括如下步骤：步骤1，构建文言文数据集；步骤2，构建文言文缺失文字识别模型，用于对文言文中缺失文字进行预测；所述文言文缺失文字识别模型包括情绪识别模型、表义识别模型、表音识别模型、以及transformer编码器；情绪识别模型、表义识别模型、表音识别模型的输出端与transformer编码器连接；步骤3，采用文言文数据集分别对情绪识别模型、表义识别模型和表音识别模型进行训练，训练好后，再采用文言文数据集对所述文言文缺失文字识别模型整体训练；其中，采用文言文数据集对所述情绪识别模型进行训练，具体为，将含有缺失文字的文言文语句输入到情绪识别模型，进行情绪识别，输出所述含有缺失文字的文言文语句的情感倾向，包括如下步骤：步骤311，所述缺失文字左侧文本表示为Senleft，所述缺失文字右侧文本表示为Senright，分别对Senleft和Senright进行Emb.文字编码操作，得到两个编码张量left和right，表示为：left＝EmbSenleftright＝EmbSenright步骤312，将所述编码张量left和right分别输入到Bi_LSTm.双向长短期记忆网络，进行特征提取，得到：outl＝Bi_LSTMleftoutr＝Bi_LSTmright将outl和outr进行拼接操作，再经过Softmax激活函数进行输出，得到所述含有缺失文字的文言文语句的情感倾向emotion＝SoftmaxCatoutl,outr其中Cat.表示将两个特征向量进行拼接操作；softmax.是用于最终分类的激活函数；采用文言文数据集对表音识别模型进行训练，具体为，将所述含有缺失文字的文言文语句输入到表音识别模型，进行拼音识别，输出所述缺失文字的带音调的拼音，包括如下步骤：步骤321，采用Word2Vec的词向量编码以及哈夫曼树算法对含有缺失文字的文言文语句进行拼音识别，得到所述缺失文字的拼音信息；所述拼音信息不包括音调；步骤322，采用Embedding文字编码对输入的文言文语句进行编码，得到编码向量Word_emb：Word_emb＝EmbSen步骤323，将编码向量Word_emb输入到双向长短期记忆网络Bi_LSTM，进行特征提取，得到特征向量Temp；Temp＝Bi_LSTMWord_emb步骤324，提取到的特征向量Temp继续送入transformer网络中进行全局信息的提取，输出缺失文字的声调tone＝Transformer_LayerTemp步骤325，将所述缺失文字的声调tone与其拼音相结合，得到缺失文字的带音调的拼音Pinyin；步骤4，含有缺失文字的文言文语句输入到训练好的所述文言文缺失文字识别模型，对文言文中所述缺失文字进行预测。

全文数据：

权利要求：

百度查询：丁杨一种对文言文中缺失文字的补全方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：航空机载设备履历本制作方法_中国电子科技集团公司第十研究所_202410228814.4

下一篇：用于治理光伏台区过电压与三相不平衡的控制方法及系统_山东大学_202410066279.7

相关技术

航空机载设备履历本制作方法_中国电子科技集团公司第十研究所_202410228814.4

用于治理光伏台区过电压与三相不平衡的控制方法及系统_山东大学_202410066279.7

虚拟对象处理方法、装置、计算机设备和存储介质_广州仰望星空云科技有限公司_202311841061.6

一种基于夏玉米密植后用滴灌技术调控水肥的设计与操作方法_漯河市农业机械技术中心_202410276648.5

基于黑盒查询的信号智能检测网络接收端对抗样本生成方法_中国人民解放军战略支援部队信息工程大学_202410140382.1

网络健康度评估方法、装置、设备及存储介质_中移动信息技术有限公司_202311714288.4

一种低压电机控制器的电源转换电路和方法_深圳硅山技术有限公司_202311783275.2

一种以关节舒适为导向的数字化口腔种植修复治疗方法_苏州云睿瓷牙科技术有限公司_202410238392.9

一种自动指天的偏心平面天线_北京遥测技术研究所_202410166071.2

一种基于多尺度多头信息聚合的图像描述方法_北京工业大学_202410172702.1

一种复杂环境下上跨地铁隧道的基坑降水开挖方法_中铁二十二局集团第三工程有限公司_202311870391.8

基于算力网络的数据传输方法和算力网络系统_中国铁塔股份有限公司_202410196102.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种对文言文中缺失文字的补全方法_丁杨_202311025114.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务