【发明授权】基于BERT的两阶段民间故事检索方法_陕西师范大学_202210188618.X

导航：龙图腾网> 最新专利技术> 基于BERT的两阶段民间故事检索方法_陕西师范大学_202210188618.X

申请/专利权人：陕西师范大学

申请日：2022-02-28

公开（公告）日：2024-03-01

公开（公告）号：CN114547251B

主分类号：G06F16/33

分类号：G06F16/33;G06F16/31;G06N3/08;G06F16/951

优先权：

专利状态码：有效-授权

法律状态：2024.03.01#授权;2022.06.14#实质审查的生效;2022.05.27#公开

摘要：一种基于BERT模型的两阶段民间故事检索方法，由收集民间故事、民间故事数据预处理、构建民间故事数据集、一阶段构建向量搜索引擎、筛选候选民间故事集合、训练BERT模型、二阶段确定相关度、展示检索结果步骤组成。采用本发明与现有的传统检索方法进行了对比试验，实验结果表明，本发明可以更好地了解民间故事的上下文信息，更好地将查询请求与民间故事结合起来，在提升了检索准确率的同时还加快了检索速度。本发明具有检索结果准确、检索速度快等特点，可以在海量的民间故事中准确找到用户想要了解的民间故事。

主权项：1.一种基于BERT模型的两阶段民间故事检索方法，其特征在于由下述步骤组成：1收集民间故事从民族民间文化资源管理系统中找到民间故事部分，采用爬虫方法将民间故事中的文本数据爬取下来，得到民间故事；2民间故事数据预处理删除民间故事内容中的乱码、内容为空、与内容不符、同义词随机替换的部分；3构建民间故事数据集将民间故事处理成标题-内容的民间故事对，制作成民间故事数据集Y，Y∈{t1:c1,t2:c2,…,tn:cn}，其中tn表示第n个民间故事的标题，cn表示第n个民间故事的内容，n选取10000条民间故事，按9：1的比例分为训练集、测试集；4一阶段构建向量搜索引擎采用BERT-whitening模型将民间故事数据集Y转化成词向量J，用Faiss检索方法对词向量J建立数据库向量D，D∈{d1,d2,…,dn}，将数据库向量D采用倒排快速索引方法分割为N个空间，N为有限的正整数，构建成向量搜索引擎；5筛选候选民间故事集合将用户的查询请求q通过BERT-whitening模型转化成查询向量qV，将查询向量qv与数据库向量D按下式确定余弦相似度cosθ：其中·表示点积操作，d表示数据库向量中的一个向量，||||表示取模操作，返回前k个候选民间故事集合G，G∈{g1,g2,…,gk}，k取值为20～50；6训练BERT模型将民间故事数据集Y输入至BERT模型进行训练，按下式确定交叉熵损失函数Ly,a：Ly,a＝y×lna+1-y×ln1-a其中，y为真实值，y取值为0或1,a为预测值，a∈0,1；模型的学习率r∈[10-5,10-3]，丢弃率取值为[0.05,0.1]，训练轮数为[10,15]，每轮训练的批尺寸为8，优化器选择Adam，迭代至交叉熵损失函数Ly,a收敛；7二阶段确定相关度将训练好的BERT模型输出的词嵌入E和第l个编码层的输出Xl，l为有限的正整数，对查询请求q和候选民间故事集合按下式确定候选民间故事集合G的相关度F1：E＝Es+Ep+EtX1＝E Q＝Xl-1×WQK＝Xl-1×WKV＝Xl-1×WVF1＝sH12其中表示多头注意力计算的输出，Es表示句子词嵌入，Ep表示位置词嵌入，Et表示词嵌入，C表示将注意力矩阵连接操作，Aj表示注意力矩阵，sH12表示softmax函数，Xl-1是BERT模型的第l-1层输出，dk是输入向量的维度，j表示多头注意力的个数，WQ，WK,WV是线性映射矩阵，Q、K、V表示在训练过程中学习参数矩阵；按下式确定相关度F：F＝0.5×F1+0.5×F2 wi＝sri其中，F2表示查询请求和候选民间故事子片段的相似度和，ri表示查询请求和候选民间故事子片段的相似度，wi表示每个子片段相关度的权重，sri表示softmax函数；8展示检索结果将相关度F进行由高到低的排序，相似度最高的民间故事作为最终检索结果展示给用户。

全文数据：

权利要求：

百度查询：陕西师范大学基于BERT的两阶段民间故事检索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

下一篇：自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

相关技术

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

一种可收集粉尘的切割机_安徽楚风建设有限公司_202321187487.X

一种打孔装置_广州市骏褀无纺布实业有限公司_202321762517.5

用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

一种防卡管测斜仪探头_中国建筑西南勘察设计研究院有限公司_202420526288.5

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

电子设备_深圳市嘉晋实业有限公司_202322601396.2

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

故事相关技术

交互式故事绘本生成方法、装置、电子设备及存储介质_科大讯飞股份有限公司_202311829372.0

一种基于AI个性化故事系统和互动故事视频生成方法_华数传媒网络有限公司_202311636841.7

一种基于多源异构特征融合的可控故事生成方法_江南大学_202311828251.4

通过基于故事的问答式评估和基于故事的语音提取来诊断痴呆症的方法及系统_伊莫克有限公司_202280053587.5

一种基于外部知识增强的故事生成方法及系统_北京大学_202211159343.3

一种事故事件快速维护方法及系统_华能济南黄台发电有限公司_202311575665.0

一种公益活动绘本故事公益箱_李晓燕_202322370472.3

基于社区发现算法建立攻击故事解释的方法及存储介质_中国科学技术大学先进技术研究院_202311769483.7

影片故事情节的挑选方法、设备及存储介质_北京奇艺世纪科技有限公司_202311745445.8

基于BERT的两阶段民间故事检索方法_陕西师范大学_202210188618.X

民间相关技术

基于BERT的两阶段民间故事检索方法_陕西师范大学_202210188618.X

基于数字孪生的民间藏品数字化采集登记系统及方法_张勇_202310003906.8

一种用于民间舞蹈教学训练的教学训练器械_山东青年政治学院_202320660857.0

一种民间融资资金存管系统_嘉兴银行股份有限公司_202310494299.X

一种民间美术用的防飞溅颜料混合装置_温州理工学院_202310031766.5

一种用于民间艺术设计的涂色装置_九江学院_202210302386.6

一种基于互联网的民间美术教学演示装置_南阳师范学院_202110445429.1

一种民间中草药舒筋草的快速繁殖方法_桂林理工大学_202210586141.0

一种民族民间音乐理论学习用乐谱展架_丽水学院_202210576476.4

一种用于民间艺术数字化保护的组合式展示装置_黑河学院_202110870204.0

阶段相关技术

用于TOD轨道上盖开发项目施工阶段的塔吊基础构造_中冶赛迪城市建设(重庆)有限公司_202322370792.9

基于双阶段扩散模型的磁粒子图像去噪方法、系统及设备_北京航空航天大学_202410102203.5

一种虚拟电厂集群两阶段调度优化方法_华北电力大学_202410077278.2

考虑光伏随机性的综合能源系统建设多阶段规划方法_南方电网科学研究院有限责任公司_202010856055.8

用于两阶段物理侧行链路控制信道资源预留的方法和UE_高通股份有限公司_202080032173.5

面向配电网恢复力提升的多类型分布式电源两阶段规划方法_国网浙江省电力有限公司经济技术研究院_202210330903.0

破碎围岩分阶段注浆加固装置与方法_中国矿业大学(北京)_202410114558.6

一种基于直拉法拉晶熔料阶段的单晶提渣方法_乐山市京运通半导体材料有限公司_202410156548.9

用于生成正畸矫治器中间阶段的深度学习_3M创新有限公司_202280059627.7

基于机器视觉的大批量糕点烘焙阶段识别方法_西安大业食品有限公司_202410276143.9

龙图腾网&IPTOP

【发明授权】基于BERT的两阶段民间故事检索方法_陕西师范大学_202210188618.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务