【发明授权】一种文本纠错数据的构造方法、装置和存储介质_广东南方网络信息科技有限公司_202211701492.8

申请/专利权人：广东南方网络信息科技有限公司

申请日：2022-12-29

公开（公告）日：2024-04-12

公开（公告）号：CN117077664B

主分类号：G06F40/284

分类号：G06F40/284;G06F40/289;G06F40/253;G06F40/232;G06F18/24;G06F40/242

优先权：

专利状态码：有效-授权

法律状态：2024.04.12#授权;2023.12.05#实质审查的生效;2023.11.17#公开

摘要：本发明公开了一种文本纠错数据的构造方法、装置及存储介质，方法包括：获取第一语料数据，对所述第一语料数据进行词性标注，生成词性标签，根据所述词性标签对所述第一语料数据进行句法分析，生成句法标签；其中所述句法标签包括：主谓关系、动宾关系和状中关系；根据第一语料数据的词性标签和句法标签，构造对应错误类型的文本纠错数据；所述错误类型包括语序不当、成分残缺和成分赘余，通过考虑文本句子的词性和句法信息，构造更加符合人类真实错误的文本纠错数据。

主权项：1.一种文本纠错数据的构造方法，其特征在于，包括：获取第一语料数据，对所述第一语料数据进行词性标注，生成词性标签，根据所述词性标签对所述第一语料数据进行句法分析，生成句法标签；其中所述句法标签包括：主谓关系、动宾关系和状中关系；根据第一语料数据的词性标签和句法标签，构造对应错误类型的文本纠错数据；所述错误类型包括语序不当、成分残缺和成分赘余；根据第一语料数据的词性标签和句法标签，构造对应的文本纠错数据，具体为：根据词性标签和句法标签依次判断第一语料数据中是否包含预设类型的分词；其中，所述预设类型包括同义词、近义词、关联词和状语；判断第一语料数据中的分词是否能够在近义词词表中匹配到近义词，若是，则生成成分赘余的构造信息；若所述第一语料数据中的分词不能够在近义词词表中匹配到近义词，则判断所述第一语料数据中是否包含关联词的分词；若是，则生成关联词语序不当的构造信息；若所述第一语料数据中不包含关联词的分词，则判断所述第一语料数据中是否包含状语的分词，若是，则生成状语语序不当的构造信息；若所述第一语料数据中不包含状语的分词，则生成成分残缺的构造信息；根据所述构造信息、词性标签和句法标签，构造对应的文本纠错数据；所述根据所述构造信息、词性标签和句法标签，构造对应的文本纠错数据，具体为：若构造信息为成分赘余，获取第一语料数据的近义词分词，在所述近义词分词左边或者右边随机插入近义词词表中对应的近义词，标注成分赘余的错误类型，生成文本纠错数据；若构造信息为关联词语序不当，则根据词性标签和句法标签，获取第一语料数据的一对关联词分词和主语分词，将所述主语分词移动到第一个关联词之前，标注关联词语序不当的错误类型，生成文本纠错数据；若构造信息为状语语序不当，则根据词性标签和句法标签，获取第一语料数据的状语分词及其修饰的动词或者宾语；若所述状语分词修饰宾语，则将所述状语分词移动到动词前面；若所述状语分词修饰动词，则将所述状语分词移动到动词宾语前面；标注状语语序不当的错误类型，生成文本纠错数据；若构造信息为成分残缺，则根据句法标签，将第一语料数据的句子的主语、谓语或者宾语删除，并对应标注主语、谓语或者宾语残缺的错误类型，生成文本纠错数据。

全文数据：

权利要求：

百度查询：广东南方网络信息科技有限公司一种文本纠错数据的构造方法、装置和存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种叠瓦电池片检测用工装_江苏龙恒新能源有限公司_202322351795.8

下一篇：一种大米加工砂辊碾米机_湖北九龙湖米业有限公司_202322482168.8

相关技术

一种叠瓦电池片检测用工装_江苏龙恒新能源有限公司_202322351795.8

一种大米加工砂辊碾米机_湖北九龙湖米业有限公司_202322482168.8

双组份胶水即停防干装置_重庆金芯麦斯传感器技术有限公司_202322250925.9

一种吸尘器高密封过滤网_苏州佳奇克电子有限公司_202322293337.3

一种具有除臭机构的集成中央气体处理装置_龙岩忠友环境科技有限公司_202322062347.6

一种火车集卡装卸装置_杭州奥拓机电股份有限公司_202322190678.8

一种天然气管道不停输开孔装置_盐城新奥燃气有限公司_202322202238.X

一种高精度智能浊度检测装置_江苏奥坤仪表科技有限公司_202322546638.2

一种防堵污水管道_浩卓泵业(杭州)有限公司_202322092893.4

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

电池包和用电装置_蔚来电池科技(安徽)有限公司_202322200695.5

一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

构造相关技术

一种新型墙柱外部模板构造_吉林建工集团有限公司_202322120936.5

一种屋面楼板防渗透构造_中建海峡建设发展有限公司_202322394221.9

一种老旧房屋防水加固构造_广东筑实建设有限公司_202322535315.3

一种根据构造特点自由融合方法、装置、电子设备及介质_中国石油化工股份有限公司_202211295721.0

构造土方体模型的方法、装置、计算机设备及存储介质_广联达科技股份有限公司_202110236567.9

用于TOD轨道上盖开发项目施工阶段的塔吊基础构造_中冶赛迪城市建设(重庆)有限公司_202322370792.9

一种手持式路面构造深度激光测定装置_黄晓明_202210451413.6

挠性基板与汇流条的连接构造、布线模块及蓄电模块_株式会社自动网络技术研究所_202080040822.6

构造物评价系统、构造物评价装置以及构造物评价方法_株式会社东芝_202110503511.5

光学构造体以及光学构造体的制造方法_凸版印刷株式会社_202080050722.1

方法相关技术

图像处理方法、图像处理模型和训练方法_北京百度网讯科技有限公司_202310251906.X

能力确定方法、上报方法、装置、设备及存储介质_北京小米移动软件有限公司_202280001087.7

通信方法及装置_华为技术有限公司_202010617172.9

定子及其制造方法_LG麦格纳电子动力总成有限公司_202110012057.3

通信方法及装置_华为技术有限公司_202211296381.3

信息处理方法_丰田自动车株式会社_202311358127.6

曝光方法、曝光装置、以及物品的制造方法_佳能株式会社_202311346914.9

蓄电设备的检查方法及制造方法_丰田自动车株式会社_202010574534.0

冰箱及其控制方法_LG电子株式会社_202080061858.2

冰箱及其控制方法_重庆海尔制冷电器有限公司_202211295888.7

装置相关技术

定影装置及图像形成装置_富士胶片商业创新有限公司_202310510018.5

发热装置及电子雾化装置_深圳市基克纳科技有限公司_202322129414.1

操控装置、显示装置及车辆_小米汽车科技有限公司_202320552919.6

液体试剂供应装置及分析装置_东亚DKK株式会社_202010736498.3

基板处理装置和流体加热装置_东京毅力科创株式会社_202311318777.8

输入装置_欧姆龙株式会社_201980039113.3

台架装置_北京车和家汽车科技有限公司_202322479605.0

过滤装置_合肥学院_201910547672.7

景观装置_万达商业规划研究院有限公司_202322576816.6

蓄电装置_丰田自动车株式会社_202210313089.1

龙图腾网&IPTOP

【发明授权】一种文本纠错数据的构造方法、装置和存储介质_广东南方网络信息科技有限公司_202211701492.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务