买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】藏汉跨语言论文剽窃检测方法和系统_中央民族大学;中国电子技术标准化研究院_201911401141.3 

申请/专利权人:中央民族大学;中国电子技术标准化研究院

申请日:2019-12-30

公开(公告)日:2023-09-15

公开(公告)号:CN111178040B

主分类号:G06F40/205

分类号:G06F40/205;G06F40/58;G06F18/22

优先权:["20191024 CN 2019110197146"]

专利状态码:有效-授权

法律状态:2023.09.15#授权;2020.06.12#实质审查的生效;2020.05.19#公开

摘要:本发明提供一种藏汉跨语言论文剽窃检测方法和系统,涉及信息处理技术领域。本发明通过大规模的藏汉句对语料来训练和优化孪生长短时记忆网络模型,使得训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型准确性好,通过该基于孪生长短时记忆网络的藏汉跨语言相似度计算模型在检测句对相似度时,无需任何先验知识,也无需人工干预,保障了句对相似度值检测结果的准确性,从而保障了以句对相似度值为判定依据的论文剽窃检测的准确性。

主权项:1.一种藏汉跨语言论文剽窃检测方法,其特征在于,所述方法由计算机执行,包括:S1、基于数据增强方法生成藏汉句对语料,包括:S101、使用汉语句对训练基于孪生长短时记忆网络汉语单语相似度计算模型,调整模型参数,优化基于孪生长短时记忆网络汉语单语相似度计算模型,具体包括:使用翻译工具将SICK语料中的英文句对翻译成相对应的汉文句对、藏文句对,最终形成英文、汉文、藏文三种单语语料库以及英-汉、英-藏、汉-藏三种跨语言语料库,使用跨语言语料库中的10000个汉语句对训练基于孪生长短时记忆网络汉语单语相似度计算模型,调整参数使模型性能达到最优;S102、将藏汉平行语料中的汉语句对输入到经过优化的基于孪生长短时记忆网络汉语单语相似度计算模型,计算藏汉平行语料中汉语句对之间的相似度值,获得两个汉语句对之间的相似度值,并以该值作为对应的藏文句对之间的相似度值,同时也作为对应的藏汉跨语言句对之间的相似度值,加上两对藏汉平行句对,获得四个带有相似度值标签的藏汉跨语言句对,计算公式如下:sim1=similaritycn1,cn2similaritytib1,tib2=sim1similaritycn1,tib2=similaritycn2,tib1=sim1similaritycn1,tib1=similaritycn2,tib2=MAX其中:cn和tib代表藏汉平行语料中的汉语句和藏语句,cn1和cn2是任意两个汉语句子,tib1是cn1的藏汉平行语料中的藏语句,tib2是cn2的藏汉平行语料中的藏语句;sim1是cn1和cn2两个汉语句子之间的相似度,MAX是相似度最大值;所述藏汉平行句对为相似度值为最大值藏汉句对,所述四个带有相似度值标签的藏汉跨语言句对为cn1-tib2、cn2-tib1、cn1-tib1、cn2-tib2;S103、重复步骤S102,获取藏汉句对;S2、基于所述藏汉句对语料训练孪生长短时记忆网络模型,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型;S3、基于所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测藏文论文相似度,根据相似度值判断论文是否为剽窃论文。

全文数据:

权利要求:

百度查询: 中央民族大学;中国电子技术标准化研究院 藏汉跨语言论文剽窃检测方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。