买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于LSTM和社交网络的层次化文本分类方法_西安理工大学_202111565473.2 

申请/专利权人:西安理工大学

申请日:2021-12-20

公开(公告)日:2024-04-09

公开(公告)号:CN114443809B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/35;G06F16/9536;G06F40/284;G06F40/289;G06N3/0442;G06N3/09;G06Q50/00

优先权:

专利状态码:有效-授权

法律状态:2024.04.09#授权;2022.05.24#实质审查的生效;2022.05.06#公开

摘要:本发明公开一种基于LSTM和社交网络的层次化文本分类方法,步骤包括:步骤1,从社交网站上采集文本数据,对原数据集中质量较低且无意义的文本进行检测和过滤后对数据进行人工标记;步骤2,对步骤1得到的带标签的数据集进行平衡化处理;步骤3,对步骤2平衡化后的数据集进行分词及产生词向量;步骤4,将步骤3得到的词向量集进行投入LSTM网络中进行监督学习,得到初步分类结果;步骤5,将初步分类结果中正确结果的部分投入至社交网络模型作进一步分类,得到的分类结果与初步分类结果相结合即为最终分类结果。本发明针对不常见的极度不平衡,耦合,丰富暗语,社交性质的数据有较好的分类效果。

主权项:1.基于LSTM和社交网络的层次化文本分类方法,其特征在于,步骤包括:步骤1,从社交网站上采集文本数据,对原数据集中质量较低且无意义的文本进行检测和过滤,然后进行人工标记;步骤2,对步骤1得到的带标签的数据集进行平衡化处理;所述步骤2包括:步骤2.1:使用数据增强方法,按照原样本的50%采用随机采样技术采集标准样本,然后增强两次;步骤2.2,将经过数据清洗后的数据生成多个特征词袋,这个特征词袋中包含数据倾斜类别的完整的种元词汇,词性包括动词,名词,形容词,副词,按照不同词性来形成多个子袋,将同一个子袋中的词汇按照与原样本相同的句法结构在句子的相同位置做词语替换从而生成新的句子以扩展数据集样本;步骤3,对步骤2平衡化后的数据集进行分词及产生词向量也即转化为数值空间中的词向量;步骤4,将步骤3得到的词向量集进行投入LSTM网络中进行监督学习,得到初步分类结果;步骤5,将初步分类结果中正确结果的部分投入至社交网络模型作进一步分类,得到的分类结果与初步分类结果相结合即为最终分类结果;其中,步骤4得到的初步分类结果,筛选出正确的文本作为下一阶段社交网络的种元来进行二次回收;首先拿到LSTM阶段分类正确的结果数据,以这一部分数据为基准形成种元库Seeds,种元将作为社交网络的起始结点去搜索和构建以该结点为中心结点或者子结点的社交网络体系结构;社交网络构建完毕以后,将会输出社交网络二次回收的数据,该结果与上一阶段LSTM正确或错误的分类结果均有重合,由于社交网络主要是对上一阶段误分数据的纠正,所以secondaryrecoveryresults中更多地会包含wrongresult,它是对LSTM误分数据的二次回收,最后我们将LSTM分类结果与社交网络回收以后的分类结果融合,得到最后的分类结果Finalresult。

全文数据:

权利要求:

百度查询: 西安理工大学 基于LSTM和社交网络的层次化文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。