买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于自然语言处理分类技术的岗位职能识别方法_广东职教桥数据科技有限公司_202310566855.X 

申请/专利权人:广东职教桥数据科技有限公司

申请日:2023-05-19

公开(公告)日:2023-10-03

公开(公告)号:CN116595973B

主分类号:G06F40/279

分类号:G06F40/279;G06F40/216;G06F16/35;G06F18/22

优先权:

专利状态码:有效-授权

法律状态:2023.10.03#授权;2023.09.01#实质审查的生效;2023.08.15#公开

摘要:本发明提供一种基于自然语言处理分类技术的岗位职能识别方法,利用人工智能自然语言处理技术有效解决筛选方式简单、人力成本高、准确度低等问题;利用长短期记忆解决长序列训练过程中的梯度消失和梯度爆炸问题,通过对文本序列的不断迭代有选择继承历史信息以获得当前更好的语义表征,所以其能够在更长的序列中有更好的表现;采用attention机制的作用是给不同的词或字分配不同的注意力,解决重要词的信息会被抑制,关键的语义特征丢失,造成信息损失的问题;因此基于自然语言处理分类技术的岗位职能识别的AI匹配技术具有全面科学客观性、快速高效、精准度高的优点。

主权项:1.一种基于自然语言处理分类技术的岗位职能识别方法,其特征在于,包括以下步骤:S1、对招聘信息的输入进行预处理;S2、对预处理后的招聘信息确定规则识别;S3、通过规则对岗位职能进行识别和筛选,得到候选集;S4、对所述候选集进行过滤;S5、对所述职能进行打分,并根据同职能关系进行重定向,输出岗位列表;在步骤S1中,所述预处理包括:S101:基本转换,矢量计算,核心关键词提取,基本转换为将岗位职能报表中的文字转小写与转为半角操作;S102:对招聘信息进行清洗,具体步骤为:S1021:去除岗位职能中的后缀,保留职位要求和职位描述,去除薪资福利、公司简介;S1022:采用fasttext对招聘信息中的句子进行分类,对职位介绍、薪资福利、岗位要求进行分类;S103:对行业人才需求信息的岗位名称及职位描述进行数据预处理采用ICTCLAS分词器,将数据的文字进行分词处理;S104:将title与全文中的关键词进行筛选并构建序列titleist、fullist,所述titleist为title关键词序列,所述fullist为全文关键词序列,统计序列titleist与序列fullist的关键词总量T和L,计算关键词权重比例,=,,所述和分别为序列titleist中第k位和第k+1位元素,所述和分别为序列fullist中第k位和第k+1位元素,指标权重计算,根据给定的和赋值,得到title与全文中关键词的权重,,,所述为title的权重值,Q2为全文的权重值,根据权重值Q1、Q2选择title中权重最高的2个词和全文中权重最高的5个词,将这7个词命名为核心关键词,所述title为招聘信息的标题,所述全文即为招聘信息中的除标题外的内容,对输入计算Word2Vec矢量;所述计算Word2Vec矢量的方法为:通过title与全文中的关键词的权重值构建权重矩阵,通过所述权重矩阵基于TextRank算法title与全文中的关键词得到关键词的词向量,并将所述关键词的词向量定义为p(x,y),所述x表示title关键词的权重值,所述y表示全文关键词权重值,并根据所述的关键词的词向量p(x,y)计算核心关键词的客观权重,计算关键词的信息熵,计算公式为: ;其中,表示第个关键词的信息熵,表示关键词个数;计算评价指标熵权,计算公式为: ;进而得到核心关键词的客观权重向量,对主观权重和客观权重向量进行优化拟合,得到综合权重矩阵,计算公式为: ;计算得到综合权重矩阵,通过所述权重矩阵计算得到Word2Vec矢量;确认规则的具体步骤为:确定规则分为title命中确定规则和全文命中确定规则,所述title或全文中包含核心关键词时直接将其识别为对应的职能;在步骤S4中,候选集拉取:根据所述核心关键词拉取标所述招聘信息的全文倒排获得候选职能;用预处理里面的7个核心关键词拉取关键词,全选所述候选职能,职能的倒排索引获取相关的候选职能,选取关键词对职能的倒排索引构建是基于库内JD和简历进行统计,所述库内JD为数据库中进行岗位职能识别任务的招聘信息,取每个职能下信息相关度pmi3的词,所述pmi为职能相关度指数,最终候选集为通过对信息相关度的拉取的候选集和所述规则命中的并集;候选集过滤,具体步骤为:S401:职能核心关键词命中过滤:通过核心关键词命中过滤:每个职能预定义了必须命中的关键词,将所述最终候选集通过核心关键词过滤,若招聘信息中的title和全文都没有命中该职能的所有核心关键词,则强制过滤,被规则命中的候选职能则不属于被核心关键词命中的范围,所以不需要强制过滤;S402:否定词过滤:基于词向量预训练模型及词性分析,抽取各职能名称中的动词词组与输入title中的动词词组进行词向量相似度分析,相似度低于0.5则视为否定词直接进行过滤,触发了否定词规则则直接过滤,用于过滤掉明显互斥的结果;S403:英文核心词过滤:当输入title和职能中都有英文关键词且英文关键词失配的时候,直接过滤;S404、相似性过滤:结合全文矢量对候选职能计算相似性,title与全文中Word2Vec矢量相似性低于0.5的直接进行过滤;在步骤S5中,打分排序:对通过过滤的候选职能进行打分排序,取分数最高者,通过上一步过滤的候选职能集合进行打分,打分考虑了下列因素:title命中的关键词及权重;输入全文中的Word2Vec矢量和职能的Word2Vec矢量之间的相似度;输入全文中的关键词矢量和职能的关键词矢量的相似度;输入全文中命中职能核心技能的数量;输入title和职能的文本重合率;职能本身属性:热度、是否有行业属性;判断是否是被规则命中;英文核心词是否命中;最终结果重定向:根据同职能关系进行重定向,输入关联阈值,大于此阈值的数据输出,得到一个岗位列表,从而实现岗位职能识别AI匹配技术。

全文数据:

权利要求:

百度查询: 广东职教桥数据科技有限公司 一种基于自然语言处理分类技术的岗位职能识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。