申请/专利权人:合肥工业大学
申请日:2024-01-09
公开(公告)日:2024-04-09
公开(公告)号:CN117851544A
主分类号:G06F16/33
分类号:G06F16/33;G06F16/35;G06N3/04;G06N3/084
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.04.26#实质审查的生效;2024.04.09#公开
摘要:本发明提供一种基于LDA和ANN的企业年报文本数据挖掘方法、系统、存储介质和电子设备,涉及企业大数据分析领域。本发明中,首先对待分析的企业年报文本数据进行数据清洗,清洗过程至少包括利用正则表达式提取目标文本以获取优化之后的文本;其次通过LDA主题模型识别主题构建相应的文本向量;再次将获取的LDA文档‑主题多项式分布作为ANN模型的输入变量,基于预先选取的反映主题重要性的评估指标,并运用该模型评估输入变量相对于评估指标的重要性;最后根据ANN模型多次训练结果的标准误差,确定各项文本主题的最终排序。充分挖掘了企业自身自产的数据要素价值,更好辅助企业利益相关者评估企业发展潜力和优化投资决策。
主权项:1.一种基于LDA和ANN的企业文本数据挖掘方法,其特征在于,包括:采集待分析的企业年报文本数据;对所述企业年报文本数据进行数据清洗,清洗过程至少包括利用正则表达式提取目标文本以获取优化之后的文本;将所述优化文本作为LDA主题模型的输入,获取相应的LDA主题分布概率、LDA文档-主题多项式分布以及LDA主题-词多项式分布,并根据前述各项多项式分布概率计算困惑度;根据所述困惑度确定主题数量,并根据主题词对确定的所有主题进行人工命名,以识别文本主题并构建相应的文本向量;将所述LDA文档-主题多项式分布作为ANN模型的输入变量,基于预先选取的反映主题重要性的评估指标,对模型进行多次训练后获取各项所述文本向量的重要性排序,并根据多次训练结果的标准误差,确定各项所述文本主题的最终排序。
全文数据:
权利要求:
百度查询: 合肥工业大学 基于LDA和ANN的企业文本数据挖掘方法和系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。