申请/专利权人:杭州瑞成信息技术股份有限公司
申请日:2022-12-02
公开(公告)日:2023-09-12
公开(公告)号:CN115952279B
主分类号:G06F16/34
分类号:G06F16/34;G06F16/332;G06F40/30;G06F40/289;G06N3/047;G06N3/049;G06N3/0442;G06N3/045;G06N3/08
优先权:
专利状态码:有效-授权
法律状态:2023.09.12#授权;2023.04.28#实质审查的生效;2023.04.11#公开
摘要:本申请涉及一种文本大纲的提取方法、装置、电子装置和存储介质,该方法包括:基于待提取文本的可读字符,获取待提取文本中每句文本的句内容特征,以及基于待提取文本的格式,获取待提取文本中每句文本的句格式特征,句内容特征包含对应句文本的字特征;基于句内容特征以及句格式特征,获取待提取文本中每句文本的句融合特征;基于每段文本中每句文本的句内容特征及对应的权重,获取待提取文本中每段文本的段落特征;基于句融合特征以及段落特征,获取待提取文本对应的大纲信息。本申请解决了相关技术中文本大纲提取的准确性不高的问题,丰富了文本特征的层次,融合了不同层次的文本特征之间的相关性,提高了文本大纲提取的准确性。
主权项:1.一种文本大纲的提取方法,其特征在于,包括:基于待提取文本的可读字符,获取所述待提取文本中每句文本的句内容特征,以及基于所述待提取文本的格式,获取所述待提取文本中每句文本的句格式特征;基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征;所述基于所述句内容特征以及所述句格式特征,获取所述待提取文本中每句文本的句融合特征包括:对所述句内容特征以及所述句格式特征进行融合,得到所述待提取文本中每句文本的句融合特征;基于每段文本中每句文本的所述句内容特征及对应的权重,获取所述待提取文本中每段文本的段落特征;所述基于每段文本中每句文本的所述句内容特征及对应的权重,获取所述待提取文本中每段文本的段落特征包括:基于每段文本中每句文本的所述句内容特征,确定所述句内容特征对应的权重,基于所述权重对所有所述句内容特征进行加权处理,得到所述待提取文本中每段文本的段落特征;基于所述句融合特征以及所述段落特征,获取所述待提取文本对应的大纲信息;所述基于所述句融合特征以及所述段落特征,获取所述待提取文本对应的大纲信息包括:基于所述句融合特征以及所述段落特征进行加权融合以及归一化处理,确定所述待提取文本对应的大纲信息。
全文数据:
权利要求:
百度查询: 杭州瑞成信息技术股份有限公司 文本大纲的提取方法、装置、电子装置和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。