买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于自然语言处理的隐私政策摘要方法_天津大学_202011192179.7 

申请/专利权人:天津大学

申请日:2020-10-30

公开(公告)日:2021-01-08

公开(公告)号:CN112199727A

主分类号:G06F21/62(20130101)

分类号:G06F21/62(20130101);G06N3/04(20060101)

优先权:

专利状态码:有效-授权

法律状态:2022.04.15#授权;2021.01.26#实质审查的生效;2021.01.08#公开

摘要:本发明公开了一种基于自然语言处理的隐私政策摘要方法,步骤1、进行数据收集,包括有标注的、数据量大的文本摘要数据作为源域数据和包括隐私政策摘要数据的目标域数据;步骤2、建立引入Attention层的Seq2seq机制和PointerGenerator机制的训练模型结构;步骤3、进行训练,实现对隐私政策生成简短的摘要。与现有技术相比,本发明1首次实现对隐私政策生成简短的摘要;能够大大提高隐私政策的可读性,增强了用户对数据收集方的隐私数据操作的了解程度,更加清晰地了解数据收集方如何收集使用自己的个人信息;3帮助数据收集方直接生成带有摘要的隐私政策。

主权项:1.一种基于自然语言处理的隐私政策摘要方法,其特征在于,该方法具体包括以下流程:步骤1、进行数据收集,包括有标注的、数据量大的文本摘要数据作为源域数据和包括隐私政策摘要数据的目标域数据;步骤2、建立引入Attention层的Seq2seq机制和PointerGenerator机制的训练模型结构:在Hidden层中,Encoder端使用的是BiLSTM模型,Decoder端使用的是LSTM模型;模型的输入x=x1,x2,...,xJ,,通过WordEmbedding层将输入向量化,然后进入Hidden层中的Encoder端,得到输出具体公式如下: ct=ftct-1+itgtht=ottanhct其中,it表示输入门,决定哪些信息需要更新;ft表示遗忘门,决定哪些数据从细胞单元中抛弃;ot表示输出门,决定当前细胞输出哪些信息,gt是候选状态,是被选地用来更新的内容;权重Wii、Wif、Wio、Wig、Whi、Whf、Who、Whg和向量bii、bif、bio、big、bhi、bhf、bho、bhg是模型参数,表示输入xt的WordEmbedding,ct表示神经元状态;通过以上的公式得到经过Decoder端的隐层状态带有注意力机制的Encoder端-Decoder端,从序列中学习到每一个元素的重要程度,然后按重要程度将元素合并;注意力机制是作为Encoder端和Decoder端之间的接口,向Decoder端提供来自每个Encoder端隐藏状态的信息;Hidden层得到经Encoder端的输出he和经Decoder端的输出hd,作为Attention层的输入,首先计算出的值,表示一个对齐模型,用于衡量Encoder端的位置j的词;计算公式如下: 其中,valign和Walign表示权重参数,向量balign是模型参数;计算注意力权重 通过注意力权重得到目标单词的Contextvector对Encoder输出的隐层状态hiddenstate的加权平均,公式如下: 联合Decoder端的隐层状态计算注意力隐层状态 计算词汇分布Pvocab,t: 当时间戳t>1时,Decoder端的隐层状态的计算公式为: PointerGenerator机制通过计算生成概率Pgen,t从而决定是从输入文本中直接复制一个单词或者从词汇分布Pgen,t生成一个单词;Pgen,t的计算公式如下: 其中,Ws,z,Ws,h,Ws,E和bs是学习参数,σ是sigmoid激活函数;此时,最终的词汇分布Pgyt和注意力分布Pcyt按照如下公式进行定义: 最终的词汇分布的计算公式如下: 通过最终的词汇分布确定本模型的输出,输出摘要文本y:y=y1,y2,...yT步骤3、进行训练,实现对隐私政策生成简短的摘要,包括:对源域数据实现利用步骤2的模型进行初始训练;利用源域数据训练得到的模型参数作为目标域训练的模型参数的初始值,将收集到的目标域数据按照8∶1∶1的比例划分为训练集、测试集、验证集,按照十交叉验证的方式对模型继续训练,对参数进行微调,此时学习率设置为0.2,批处理大小为64。

全文数据:

权利要求:

百度查询: 天津大学 一种基于自然语言处理的隐私政策摘要方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。