买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于词频和逆文档频率的精准匹配硬件日志分类方法_电子科技大学_202311799305.9 

申请/专利权人:电子科技大学

申请日:2023-12-25

公开(公告)日:2024-03-19

公开(公告)号:CN117725216A

主分类号:G06F16/35

分类号:G06F16/35;G06F16/903;G06F40/216;G06F40/284

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.05#实质审查的生效;2024.03.19#公开

摘要:本发明公开了一种基于词频和逆文档频率的精准匹配硬件日志分类方法,为基于精准正则匹配算法以及词频和逆文档频率算法对日志进行整理、分类,管理硬件日志和其他文本的辅助程序设计和维护的方法。该方法利用正则匹配进行精准匹配和模糊匹配,从而进行日志的有效整理和分类,并进行原文和筛选的记录和保存,同时新增支持用户自定义筛选规则,如果有默认功能之外的需求,用户可以根据自己的具体需求进行自定义筛选。本发明对复杂和繁琐的硬件开发过程中的日志文件和其他相应文件进行筛选、整理和归类,高效地提取针对本次研发的有用信息,极大地简化了开发流程的的调试环节,缩短了测试和调试的时间,优化了开发过程的测试的效率。

主权项:1.一种基于词频和逆文档频率的精准匹配硬件日志分类方法,其特征在于,包括以下步骤:1、获取日志文件上传或直接复制的方式,获取硬件开发过程中产生的日志文件;2、选择算法所述算法包括两种算法,分别是词频和逆文档频率算法以及正则匹配算法,其中,正则匹配算法是必须开启的算法,用户根据自己的需求决定是否开启词频和逆文档频率算法,词频和逆文档频率算法包括可以单独开启的词频算法以及在开启词频算法基础上进一步开启的逆文档频率算法;3、选择模式基于正则匹配算法包含常规模式和额外的用户自定义模式,用户根据自己的需要进行选择;在常规模式中,提供一些常见的利于硬件系统开发的模式,包括常见的“Warning”警告、“Info”信息以及“Error”错误的分类模式以及进行所有分类的全分类模式;在用户自定义模式中,是针对某些特定的场合或者特定的需求,用户根据自己的需求或特制系统的需求进行额外功能的规定和定制;4、获取匹配规则或格式根据选择的模式获取匹配规则或格式:如果步骤3中,选择的模式为常规模式,则根据选择的常规模式,自动获取相应的匹配规则;如果选择用户自定义模式,则需要用户输入自己的需求即匹配格式;5、转义对匹配规则或用户输入的匹配格式进行转义,以便于用户的快速理解和开发,也为不具备正则相关知识的用户提供便捷的使用可能;6、进行匹配运算针对获得日志文件和转义后的匹配规则或格式进行匹配运算,包括匹配查找、匹配结果获取、筛选并清理匹配结果、迭代运算、整理和归类步骤:6.1、匹配查找首先需要在所有获得的日志文件中匹配查找,即是把步骤5中进行转义后的匹配规则或格式,对所有日志文件进行查找运算:如果没有做限定的,则进行全查找模式即把日志文件中所有满足匹配规则或格式的项都筛选匹配;6.2、匹配结果获取对查找到的匹配结果进行提取,得到匹配文件,如果需要,向前后索引到所需提取的内容,而不单单是只提取匹配的内容,此外,默认按照不同的序号进行分类;6.3、筛选并清理匹配结果筛选提取匹配结果为有效信息,保存照清除筛选提取的匹配结果后的日志并进行对比,以便能更好的分析出开发遇到的问题;6.4、迭代运算清除筛选提取的匹配结果后的日志文件供下一轮的筛选,支持多轮筛选,默认按照日志中的索引号进行分类,所有索引号相同的日志列到一个文件;6.5、整理和归类最后将所有的日志文件,包含获取的日志文件、所有匹配文件以及清除筛选后索引号分类的文件,都整理并罗列出来,供用户快速查阅;7、进行词频算法运算如果在步骤2中开启了基于词频算法,则对步骤6得到的所有日志文件进行词频算法运算:7.1、分词对转义后的匹配规则或格式中的关键词和筛选后的所有日志文件进行分词运算,从而得到核心分词词组;7.2、统计对每个核心分词词组进行计数,记录每个核心分词词组在出现的次数;7.3、标准化将每个核心分词词组在出现的次数除以日志文件中总的词数,得到词频TFt,d: 其中,nt,d表示核心分词词组t在日志文件d中出现的次数,nk,d表示任一核心分词词组k在日志文件d中出现的次数,∑knk,d表示日志文件d中总的词数;根据词频nt,d对步骤6得到的所有日志文件进行整合优化,按照重要程度的排列和分类;8、进行逆文档频率算法运算如果在步骤2中开启了逆文档频率算法,可对步骤7后的结果进行逆文档频率算法运算:8.1、求解IDF值核心分词词组t对于所有日志文件集合D的逆文档频率值即IDF值IDFt,D为: 其中,|D|表示所有日志文件集合D中日志文件的数量,|d∈D:t∈d|表示包含核心分词词组t的日志文件d的数量;8.2、求解TF-IDF值对于核心分词词组t,其在日志文件d的TF-IDF值TF-IDFt,d,D为:TF-IDFt,d,D=TFt,d×IDFt,DTF-IDF值TF-IDFt,d,D越大,表示核心分词词组t对于日志文件d的重要性越;8.3、优化整合数据根据TF-IDF值TF-IDFt,d,D对步骤6得到的所有日志文件进行整合优化,按照重要程度的排列和分类;9、对比和回溯按照时间节点作为每一轮的分类原则,在对某一模块进行编译的时候,每一轮的编译都会产生临时日志文件,保存每一轮留下的日志,从而方便开发者比较和回溯。

全文数据:

权利要求:

百度查询: 电子科技大学 一种基于词频和逆文档频率的精准匹配硬件日志分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。