买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种警情文本的标准案发时间提取方法及系统_中科曙光南京研究院有限公司_202011195667.3 

申请/专利权人:中科曙光南京研究院有限公司

申请日:2020-10-30

公开(公告)日:2024-04-05

公开(公告)号:CN112541075B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/284;G06F40/295;G06Q50/26

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2021.04.09#实质审查的生效;2021.03.23#公开

摘要:本发明公开了一种警情文本的标准案发时间提取方法及系统,属于公安警情文本提取技术领域。包括以下步骤:将警情文本中的时间要素以命名实体识别的方式按顺序依次进行提取;将警情文本切分成多个文本分句,并构建文本分句与时间要素的键值对;建立并训练案发时间识别模型,通过案发时间识别模型对文本分句中的表述内容进行识别以确定案发时间;将确定的案发时间进行标准化处理;对标准化处理后的案发时间进行合并处理,并进一步对合并后的案发时间进行标记。本发明在命名实体识别时间要素的基础上增加案发时间识别模型,准确识别并提取案发时间信息,为民警快速准确分析警情、核查警情提供业务便利和支持。

主权项:1.一种警情文本的标准案发时间提取方法,其特征在于,包括:步骤1:将警情文本中的时间要素以命名实体识别的方式按顺序依次进行提取;步骤2:将警情文本切分成多个文本分句,并构建文本分句与时间要素的键值对;步骤3:建立并训练案发时间识别模型,通过案发时间识别模型对文本分句中的表述内容进行识别以确定案发时间;步骤4:将确定的案发时间进行标准化处理;步骤5:对标准化处理后的案发时间进行合并处理,并进一步对合并后的案发时间进行标记;所述步骤1采用正则表达式提取时间要素,具体过程为:步骤11:首先去除警情文本中括号内的内容,排除括号内容中的时间要素干扰信息;步骤12:然后利用正则表达式对文本中的时间要素进行提取,正则表达式为:[0-9]{4}年?[0-9]{1,2}月?[0-9]{1,2}日?今|昨|前?[\\u4E00-\\u9FA5]?夜|早|上午|下午|晚?[\\u4E00-\\u9FA5]?[0-9]{0,2}[时|点]?[0-9]{0,2}分;式中:[0-9]{4}年,表示四位数字加“年”,用来匹配年时间;[0-9]{1,2}月,表示一位或两位数字加“月”,用来匹配月时间;[0-9]{1,2}日,表示一位或两位数字加“日”,用来匹配日时间;今|昨|前[\\u4E00-\\u9FA5],用来匹配“今天”、“昨天”以及“前天”的相对日期描述;夜|早|上午|下午|晚[\\u4E00-\\u9FA5],用来匹配“夜里”、“早上”、“上午”、“下午”的时段描述;[0-9]{1,2}[时|点],表示一位或两位数字加“时”或“点”,用来匹配具体小时;[0-9]{1,2}分,表示一位或两位数字加“分”,用来匹配具体分钟;所述步骤2进一步为:首先,将提取到的时间要素按照警情文本中出现的先后顺序依次进行排列,并将第一个时间定为报警时间;然后,通过标点符号正则匹配,将警情文本切分成多个文本分句;最后,确定除报警时间以外的时间要素所在的文本分句;如果文本分句中包含时间要素,且该文本分句的左右两个分句不包含时间要素,则将左右两个不包含时间要素的文本分句与包含时间要素的分句进行合并形成新的文本分句;构建时间要素与文本分句一一对应的键值对;所述步骤3中的案发时间识别模型包括预训模型和判别模型;所述预训模型首先建立数据库,该数据库中的训练数据来源于人工标记案发时间的历史警情数据,通过将警情文本中含有时间要素的文本分句与训练数据进行对比,确定警情文本中的案发时间;并且,对判别后的文本分句数据进行自动标记后补充进数据库;所述判别模型包括输入层、隐藏层以及输出层;输入层为对警情文本进行切分的含有时间要素的文本分句,节点数为文本分句的数量;隐藏层为预训过程中新补入数据库中的数据以及数据库中原有的数据;输出层为通过对比确定文本分句中时间要素的是否为案发时间,输出层的节点的数量与需要进行判别文本分句的数量相等;针对判别过程出现超过训练数据库的数据外延情况,通过人为对输入的文本分句进行处理,并将处理后的数据补入数据库,所述隐藏层的数据随着训练过程的增加逐渐增多;所述判别模型对判别结果进行误差测算: 式中,Xij为含有时间要素的文本分句样本,PXij为文本分句中时间要素为案发时间的概率,QXij为文本分句中时间要素非案发时间的概率,并且PXij+QXij=1,M为隐藏层的节点数,N为含有时间要素的文本分句样本数量;HP,Q值越小,代表判别结果的误差越小。

全文数据:

权利要求:

百度查询: 中科曙光南京研究院有限公司 一种警情文本的标准案发时间提取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。