Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 IP管家助手 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 济南大学杜韬获国家专利权

济南大学杜韬获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉济南大学申请的专利基于网址域名的文本分词方法、系统、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN111104801B

龙图腾网通过国家知识产权局官网在2023-09-26发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:201911367979.5,技术领域涉及:G06F40/289;该发明授权基于网址域名的文本分词方法、系统、设备及介质是由杜韬;李依谦;曲守宁;朱连江;王信堂;王希普设计研发完成,并于2019-12-26向国家知识产权局提交的专利申请。

基于网址域名的文本分词方法、系统、设备及介质在说明书摘要公布了:本发明公开了基于网址域名的文本分词方法、系统、设备及介质,包括:数据采集,采集若干个网址域名;对每个网址域名进行分词处理;将分词处理后的单词进行文本格式化处理;分析文本格式化处理后得到单词的单词词性;根据单词词性进行词形还原;将词形还原后的结果存储到单词库中;将待分词的网址域名,采用双向最大匹配算法与单词库进行匹配,如果匹配成功,则得到文本向量化结果;如果匹配失败,则对待分词的网址域名进行清洗,将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配。

本发明授权基于网址域名的文本分词方法、系统、设备及介质在权利要求书中公布了:1.基于网址域名的文本分词方法,其特征是,包括:数据采集,采集若干个网址域名;对每个网址域名进行分词处理,其中,按每个用户为单位,提取浏览网站域名至列向量L1;基于Trie树结构实现高效的词图扫描,生成句子中英文所有成词情况所构成的有向无环图,采用动态规划查找最大概率路径,找出基于词频的最大切分组合,将网址域名列向量L1输入jieba分词全模式模型,剔除符号,将每条记录中包含的所有看作是词语的字符串都扫描出来,存储至列向量L2;将分词处理后的单词进行文本格式化处理;分析文本格式化处理后得到单词的单词词性,其中,对列向量L2实行文本格式化操作,彻底删除标志符号和无用的字符,并以一条网址域名为单位记录,其中包含的若干单词字符串做为子记录,储存至数据集S1中;采用正则表达式标注器,通过制定tagset转化为统一符号,利用英语单词中的后缀信息来推测一个单词的词性,将数据集S1中的子记录按照顺序匹配,当全部都不匹配时,会被标注为概率最大的词性,最后按照一条网址域名为单位记录,以各英语单词与其对应的词性为子记录,储存至数据集S2;根据单词词性进行词形还原;将词形还原后的结果存储到单词库中,具体为:根据单词词性,调用WordNet函数,进行词形还原操作,进而将各种单词的变形都还原为同一个形式,生成词典D1;用户构建个性化词库D2,在NLTK中利用StandfordNLP工具包完成对词库D2的操作;取个性化词库D2与词典D1的并集,生成词库,;将待分词的网址域名,采用双向最大匹配算法与单词库进行匹配,如果匹配成功,则得到文本向量化结果;如果匹配失败,则对待分词的网址域名进行清洗,将清洗后的结果再次采用双向最大匹配算法与单词库进行匹配,具体为:将待分词的网址域名,采用正向最大匹配算法与词库进行匹配,记录下匹配结果;将待分词的网址域名,采用逆向最大匹配算法与词库进行匹配,记录下匹配结果;如果匹配结果等于匹配结果,则选择匹配结果作为将待分词的网址域名的最终分词结果;若匹配结果不等于匹配结果,则选取网址域名正向最大匹配算法的结果R1和网址域名逆向最大匹配算法的结果R2中单个英文单词字数较多的结果,作为待匹配网址域名双向最大匹配算法的最终结果R3。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人济南大学,其通讯地址为:250022 山东省济南市市中区南辛庄西路336号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。