【发明授权】基于LSTM和社交网络的层次化文本分类方法_西安理工大学_202111565473.2

导航：龙图腾网> 最新专利技术> 基于LSTM和社交网络的层次化文本分类方法_西安理工大学_202111565473.2

申请/专利权人：西安理工大学

申请日：2021-12-20

公开（公告）日：2024-04-09

公开（公告）号：CN114443809B

主分类号：G06F16/33

分类号：G06F16/33;G06F16/35;G06F16/9536;G06F40/284;G06F40/289;G06N3/0442;G06N3/09;G06Q50/00

优先权：

专利状态码：有效-授权

法律状态：2024.04.09#授权;2022.05.24#实质审查的生效;2022.05.06#公开

摘要：本发明公开一种基于LSTM和社交网络的层次化文本分类方法，步骤包括：步骤1，从社交网站上采集文本数据，对原数据集中质量较低且无意义的文本进行检测和过滤后对数据进行人工标记；步骤2，对步骤1得到的带标签的数据集进行平衡化处理；步骤3，对步骤2平衡化后的数据集进行分词及产生词向量；步骤4，将步骤3得到的词向量集进行投入LSTM网络中进行监督学习，得到初步分类结果；步骤5，将初步分类结果中正确结果的部分投入至社交网络模型作进一步分类，得到的分类结果与初步分类结果相结合即为最终分类结果。本发明针对不常见的极度不平衡，耦合，丰富暗语，社交性质的数据有较好的分类效果。

主权项：1.基于LSTM和社交网络的层次化文本分类方法，其特征在于，步骤包括：步骤1，从社交网站上采集文本数据，对原数据集中质量较低且无意义的文本进行检测和过滤，然后进行人工标记；步骤2，对步骤1得到的带标签的数据集进行平衡化处理；所述步骤2包括：步骤2.1：使用数据增强方法，按照原样本的50％采用随机采样技术采集标准样本，然后增强两次；步骤2.2，将经过数据清洗后的数据生成多个特征词袋，这个特征词袋中包含数据倾斜类别的完整的种元词汇，词性包括动词，名词，形容词，副词，按照不同词性来形成多个子袋，将同一个子袋中的词汇按照与原样本相同的句法结构在句子的相同位置做词语替换从而生成新的句子以扩展数据集样本；步骤3，对步骤2平衡化后的数据集进行分词及产生词向量也即转化为数值空间中的词向量；步骤4，将步骤3得到的词向量集进行投入LSTM网络中进行监督学习，得到初步分类结果；步骤5，将初步分类结果中正确结果的部分投入至社交网络模型作进一步分类，得到的分类结果与初步分类结果相结合即为最终分类结果；其中，步骤4得到的初步分类结果，筛选出正确的文本作为下一阶段社交网络的种元来进行二次回收；首先拿到LSTM阶段分类正确的结果数据，以这一部分数据为基准形成种元库Seeds,种元将作为社交网络的起始结点去搜索和构建以该结点为中心结点或者子结点的社交网络体系结构；社交网络构建完毕以后，将会输出社交网络二次回收的数据，该结果与上一阶段LSTM正确或错误的分类结果均有重合，由于社交网络主要是对上一阶段误分数据的纠正，所以secondaryrecoveryresults中更多地会包含wrongresult，它是对LSTM误分数据的二次回收，最后我们将LSTM分类结果与社交网络回收以后的分类结果融合，得到最后的分类结果Finalresult。

全文数据：

权利要求：

百度查询：西安理工大学基于LSTM和社交网络的层次化文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种高效散热电源_广州市力为电子有限公司_202322175013.X

下一篇：一种环形导轨间歇循环通电装置_东莞市臻域自动化设备有限公司_202322566793.0

相关技术

一种高效散热电源_广州市力为电子有限公司_202322175013.X

一种环形导轨间歇循环通电装置_东莞市臻域自动化设备有限公司_202322566793.0

一种高效型苗种植机_海南勤璞园农业科技有限公司_202322496666.8

一种钝化复合功能层和TOPCon电池_中环新能(安徽)先进电池制造有限公司_202322011797.2

夹具_新疆蓝晶新材料科技有限公司_202322100063.1

电池壳清洗用旋转框架安装槽的限位结构_无锡金杨丸伊电子有限公司_202322328357.X

一种钻井液生产粉尘收集装置_新乡市隆驰化学有限责任公司_202322388957.5

一种文旦柚栽培用的施肥装置_莆田冠腾科技有限公司_202322446584.2

一种火车集卡装卸装置_杭州奥拓机电股份有限公司_202322190678.8

一种醋酸钠生产用搅拌装置_安徽海逸生物科技有限公司_202322412726.3

一种吸尘器高密封过滤网_苏州佳奇克电子有限公司_202322293337.3

键合劈刀_有研(广东)新材料技术研究院_202322391831.3

龙图腾网&IPTOP

【发明授权】基于LSTM和社交网络的层次化文本分类方法_西安理工大学_202111565473.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务