买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于词袋模型的企业挂靠产业方法_上交所技术有限责任公司_202310890621.0 

申请/专利权人:上交所技术有限责任公司

申请日:2023-07-19

公开(公告)日:2023-11-07

公开(公告)号:CN117009519A

主分类号:G06F16/35

分类号:G06F16/35;G06F16/33;G06F16/951

优先权:

专利状态码:在审-实质审查的生效

法律状态:2023.11.24#实质审查的生效;2023.11.07#公开

摘要:本发明涉及行业分类领域,具体来说是一种基于词袋模型的企业挂靠产业方法,所述方法具体如下:S1词袋语料的获取,利用爬虫提取战略性新兴产业分类文件并构建初始词袋的语料,待匹配词袋的语料库同样利用爬虫取自新招股说明书的该部分文本;S2词袋的构建,使用LTP中文分词工具对语料库分词,然后通过基于正则表达式、词性标注和停用词库的规则筛选分词结果,得到基于已有文件的初始行业词袋和根据新文件生成的待匹配词袋。本发明同现有技术相比,其优点在于:本发明对样本的要求不高,不需要大量企业挂靠行业的标注数据;本发明随着科创板上市企业的增加,该方案中建立的词袋会随之自动迭代更新,逐渐提高挂靠准确率。

主权项:1.一种基于词袋模型的企业挂靠产业方法,其特征在于所述方法具体如下:S1词袋语料的获取,利用爬虫提取战略性新兴产业分类文件并构建初始词袋的语料,待匹配词袋的语料库同样利用爬虫取自新招股说明书的该部分文本;S2词袋的构建,使用LTP中文分词工具对语料库分词,然后通过基于正则表达式、词性标注和停用词库的规则筛选分词结果,得到基于已有文件的初始行业词袋和根据新文件生成的待匹配词袋;S3根据词袋生成词袋向量,假设某一行业的初始词袋WordBag1包含k个词汇{word11,word12,...,word1k},每个词汇的词频为{num11,num12,...,num1k}。现对某拟上市企业的新招股说明书分词筛选处理后,得到待匹配词袋WordBag0,该词袋包含m个词汇{word21,word22,...,word2m},每个词汇的词频为{num21,num22,...,num2m};S3.1先将WordBag1与WordBag0合并后去重,得到两个词袋的并集WordBagall。不妨设这个并集包含n个词汇{word31,word32,...,word3n},其中n≥k且n≥m,并集词袋向量表示为Vecall=[word31,word32,...,word3n];S3.2WordBag1和WordBag0作为这个并集的两个子集,各包含有该并集中的部分词汇。对于WordBag1,在Vecall中使用的词频填充替换对应位置的词汇,得到n维词袋向量Vecbag1=[num11,...,0,...,num1k,...,0,...];对于WordBag0,在Vecall中使用1填充替换对应位置的词汇,在Vecall中不包含于WordBag0的词汇则用0填充替换,得到n维词袋向量Vecbag0=[...,1,...,0,...,1,...,0];S4利用步骤S3提出的词袋向量生成方法,通过计算词袋向量的余弦相似度,将得到待匹配词袋与六大行业初始词袋的相似度结果,最后对结果进行筛选得到挂靠行业结果。

全文数据:

权利要求:

百度查询: 上交所技术有限责任公司 一种基于词袋模型的企业挂靠产业方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。