买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于代表词对的RESTful API文档主题分布提取方法_浙江工业大学_202110570270.6 

申请/专利权人:浙江工业大学

申请日:2021-05-25

公开(公告)日:2024-04-16

公开(公告)号:CN113378558B

主分类号:G06F40/284

分类号:G06F40/284;G06F40/44;G06F18/214;G06F17/16

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2021.09.28#实质审查的生效;2021.09.10#公开

摘要:一种基于代表词对的RESTfulAPI文档主题分布提取方法,所述方法包括以下步骤:第一步:对文档进行分词处理,并进行停止词去除与时态归一化;第二步:将分词结果转换为词对集合;第三步:在主题模型的迭代过程中计算代表词对,并利用代表词对实现概率采样算法,完成主题模型训练,输出RESTfulAPI的文档主题分布。本发明提出一种基于代表词对的RESTfulAPI文档主题分布提取方法,该方法设计了一种以BTM主题模型为基础的词对模型,通过一种基于主题分布信息的概率采样策略,来寻找训练过程中对当前采样主题关联度高的代表词对,并通过调节词对在采样过程中的权重信息,降低噪声问题带来的干扰。

主权项:1.一种基于代表词对的RESTfulAPI文档主题分布提取方法,其特征在于,所述方法包括以下步骤:第一步:对文档进行分词处理,并进行停止词去除与时态归一化;第二步:将分词结果转换为词对集合;第三步:在主题模型的迭代过程中计算代表词对,并利用代表词对实现概率采样算法,完成主题模型训练,输出RESTfulAPI的文档主题分布;所述第三步的过程如下:3.1设置一个大小为k*1的零矩阵nz,用来存放每个主题对应的词对数,其中k为主题数量,设置一个大小为k*|Voc|的零矩阵nwz,用来存放每个词汇被分入每个主题的次数,其中|Voc|表示词汇表中词汇数量,零矩阵指矩阵元素全为0的矩阵;3.2随机对词对赋予主题,初始化nz与nwz;3.3设置迭代次数iteration,设置当前迭代次数为iter;3.4开始第一次迭代,遍历词对集合B,对每个词对b进行采样操作;3.5计算代表词对矩阵S;3.6继续进行迭代,将当前迭代次数iter加1,遍历词对集合B,对每个词对b进行采样操作;3.7重复步骤3.5操作;3.8判断iter大小,当其等于iteration时,停止迭代;3.9根据公式,计算文档主题分布theta,公式如下: Pz|d表示文档d对于主题z的概率,ndz表示该文档中被分入主题z的单词数量;所述3.4的步骤如下:3.4.1将nz[b.topic],nwz[b.topic][b.word1]与nwz[b.topic][b.word2]的值分别减1,以排除当前词对b的影响;3.4.2调用如下公式对每一个主题z进行采样: 其中表示去除了当前词对b影响后,词对b属于主题z的概率,nz表示属于主题z的词汇数量,即为矩阵nz中nz[z]的数值,∝表示成正比例,α与β为超参数,nwi|z表示词汇表中序号为b.word1的单词wi被归为主题z的次数,即矩阵nwz中nwz[z][b.word1]的数值,nwj|z表示词汇表中序号为b.word2的单词wj被归为主题z的次数,即矩阵nwz中nwz[z][b.word2]的数值,M为词汇表中单词数量,将所有主题求得的概率按顺序存入列表distribution;3.4.3对上一步中求出的概率分布distribution使用轮盘赌操作,获取词对b对应的新主题,将其设为b.topic,轮盘赌算法又称比例选择算法,通过将概率分布分段累加,获得每个个体对应的累积概率,在[0,1]区间内产生一个随机数,选择累积概率大于或等于该随机数且与其差距最小的个体作为轮盘赌输出结果;3.4.4将矩阵nz中nz[b.topic]位置的值加1,同时将矩阵nwz中nwz[b.topic][b.word1]位置与nwz[b.topic][b.word2]位置的值分别加1,使矩阵接受采样结果。

全文数据:

权利要求:

百度查询: 浙江工业大学 基于代表词对的RESTful API文档主题分布提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。