【发明授权】低资源条件下融合多策略数据增强的依存句法分析方法_昆明理工大学_202111078682.4

导航：龙图腾网> 最新专利技术> 低资源条件下融合多策略数据增强的依存句法分析方法_昆明理工大学_202111078682.4

申请/专利权人：昆明理工大学

申请日：2021-09-15

公开（公告）日：2022-09-23

公开（公告）号：CN113901791B

主分类号：G06F40/211

分类号：G06F40/211;G06F40/242;G06F40/247;G06N3/04;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2022.09.23#授权;2022.01.25#实质审查的生效;2022.01.07#公开

摘要：本发明涉及低资源条件下融合多策略数据增强的依存句法分析方法，属于自然语言处理领域。本发明包括：构造泰语、越南语和英语的同词性同义词典；利用同义词典对三种语言的小规模UDUniversalDependenciestreebanks数据集进行同义词替换扩充训练数据；利用多种mixup数据增强策略在模型训练不同阶段对训练数据中原词与同义词进行mixup产生虚拟新词进行后续训练。本发明针对低资源依存句法分析问题提出多种数据增强策略。提出的方法通过同义词替换有效扩充了训练数据，缓解了未知词问题。通过多种mixup的数据增强策略，有效缓解了模型过拟合问题，提高模型的泛化能力。

主权项：1.低资源条件下融合多策略数据增强的依存句法分析方法，其特征在于：所述方法的具体步骤如下：Step1、对获取的依存句法分析数据进行处理，再获取若干种不同语言的词语的同义信息，根据同义信息构建同词性同义词典；Step2、根据构建的同义词典，对数据集中的语料通过同义词直接替换的方式对其进行数据增强，获得若干种不同语言依存句法分析扩增的训练数据；Step3、根据构建的同义词典，得到训练数据中词语对应的同词性的同义词，通过多种mixup数据增强的方式在双仿射模型的Embedding阶段后、BiLSTM阶段后或经过MLP阶段后的不同模型位置对训练数据中原词与同义词进行mixup以产生虚拟新词，利用虚拟新词进行训练以及打分器打分；所述Step3包括：采用词语向量与词性标注向量拼接的形式作为模型输入，原词的输入向量为对应同义词的输入向量为其中ewi和edi分别对应原词向量和同义词向量，eti为词性标注向量；在Embedding阶段后融入mixup；在BiLSTM阶段后融入mixup；在MLP阶段后融入mixup；所述在Embedding阶段后融入mixup的具体步骤如下：Step3.2.1、经过Embedding过程后得到x原和x同，二者经过mixup的过程得到新的训练数据：其中，w1和w2分别表示x原和x同，为新得到的虚拟的训练数据，λ是遵从beta分布，即λ～Betaα,α,α∈0,∞,λ∈[0,1]得到的参数；Step3.2.2、对于没有同义词的单词，w1和w2都用x原表示，经过同样的mixup过程产生训练数据；Step3.2.3、得到的带有的新的训练数据经过BiLSTM得到特征ri，使得每个输入元素都能联系上下文；Step3.2.4、ri经过两个不同的用于降维的多层感知机MLP后分别得到特征和 Step3.2.5、和经过双仿射打分器获得分数矩阵；其中，矩阵H是经过MLP二次编码出来的特征向量h的堆栈形式，是分数矩阵；所述在BiLSTM阶段后融入mixup的具体步骤如下：Step3.3.1、原词和同义词一起经过Embedding过程后得到x原和x同，再一起经过BiLSTM阶段得到x原的带有上下文特征的ri和x同的带有上下文特征的ri′，之后二者经过mixup的过程得到新的训练数据；其中，w1和w2分别表示ri和ri′，为新得到的虚拟的特征，λi是遵从beta分布，即λ～Betaα,α,α∈0,∞,λ∈[0,1]得到的参数，为每一对参与mixup的特征分配一个λi；Step3.3.2、对于没有同义词的单词，w1和w2都用ri表示，经过同样的mixup过程产生特征；Step3.3.3、得到的带有的新的特征后，后续过程同Step3.2.4以及Step3.2.5；所述在MLP阶段后融入mixup的具体步骤如下：Step3.4.1、原词和同义词一起经过Embedding过程后得到x原和x同，再一起经过BiLSTM阶段得到x原的带有上下文特征的ri和x同的带有上下文特征的ri′，之后一起经过两个不同的用于降维的多层感知机MLP，原词得到对应特征和同义词得到对应特征和最后在这个阶段分别mixup得到进入打分器的新特征；其中，新得到的和为新的虚拟的特征；λi是遵从beta分布，即λ～Betaα,α,α∈0,∞,λ∈[0,1]得到的参数，为每一对参与mixup的特征分配一个λi；Step3.4.2、对于没有同义词的单词，和与和是一致的；Step3.4.3、得到新的训练数据后，打分过程同Step3.2.5。

全文数据：

权利要求：

百度查询：昆明理工大学低资源条件下融合多策略数据增强的依存句法分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种管腔器械热风回流干燥架_郝桂娥_202322079009.3

下一篇：一种清水池平流池液位监测报警装置_广东筠诚建筑科技有限公司_202322170244.1

相关技术

一种管腔器械热风回流干燥架_郝桂娥_202322079009.3

一种清水池平流池液位监测报警装置_广东筠诚建筑科技有限公司_202322170244.1

用于高压柜体的固定防护装置_江苏贯中电气有限公司_202322341188.3

一种醋酸酐含量检测装置_山东嘉驰新材料股份有限公司_202322220520.0

一种RFID工具车_苏州思瑞达信息技术有限公司_202322163343.7

一种高效散热电源_广州市力为电子有限公司_202322175013.X

一种便于排气的食品包装盒_湖南达美程智能科技股份有限公司_202322230896.X

一种火车集卡装卸装置_杭州奥拓机电股份有限公司_202322190678.8

一种方便使用的口腔检查器_邹莉_202322113588.9

一种锁具用弹簧盖结构_江苏鸿基金属制品有限公司_202322616576.8

一种治疗、教学一体的便携式牙科治疗仪_粤稳健医疗科技(广东)有限公司_202321999645.1

一种食品烘焙摇摆烤炉_济南真诺机械有限公司_202322596689.6

策略相关技术

海上风机组并网策略控制方法、装置、设备及介质_北京华能新锐控制技术有限公司_202211297208.5

一种多智能体追逃问题建模与围捕策略生成方法_西北工业大学_202210104867.6

基于多策略原型生成的低资源神经机器翻译方法_昆明理工大学_202210293213.2

基于用户行为轨迹的服务策略分配方法、装置及电子设备_上海淇玥信息技术有限公司_202011132006.6

基于多层标注策略的跨境民族文化实体关系抽取方法及装置_昆明理工大学_202210733201.7

一种基于层介数连边策略的指挥控制超网络建模方法_岭南师范学院_202210846478.0

用于调整至少部分自动化驾驶的车辆的驾驶策略的方法和设备_大众汽车有限公司_202010221864.1

图像数据播放策略智能调节系统_镇江安健影像有限公司_202410087068.1

一种基于同策略正则化策略评估的离线强化学习方法_中国矿业大学_202410056084.4

基于层次化策略图的目标分配方法_中国航天科工集团八五一一研究所_202311683511.3

增强相关技术

磁场增强组件和磁场增强器件_清华大学_202110183927.3

磁场增强组件以及磁场增强器件_清华大学_202110183930.5

提供增强视图的方法、移动增强现实查看装置_赫克斯冈技术中心_202110180659.X

物理广播信道（PBCH）的覆盖增强_高通股份有限公司_202110126960.2

增强芯片散热的屏蔽罩_苏州浩曦微电子科技有限公司_202322464269.2

硅沉积增强性组合物和其方法_路博润先进材料公司_202080033955.0

虚拟或增强现实场景中的动态通知呈现_索尼互动娱乐股份有限公司_202280060270.4

利用模型增强的自监督学习_硕动力公司_202280060208.5

通过过表达锌指蛋白OsCIP3增强水稻低温耐受性的方法_中国科学院植物研究所_202010627453.2

基于主题信息增强的弱监督方面类别检测方法_昆明理工大学_202210652339.4

数据相关技术

多接入数据连接上的数据分组引导_联想(新加坡)私人有限公司_201880092121.X

管理IOT网络中的数据和数据使用_勤达睿公司_202080032483.7

数据存储方法及装置_恒生电子股份有限公司_202311433168.7

数据标注方法及装置_深圳市优必选科技股份有限公司_202010604308.2

数据存储方法、数据读取方法、电子设备和存储介质_北京壁仞科技开发有限公司_202410218124.0

产品全生命周期评价的数据收集方法及数据收集系统_北京中创绿发科技有限责任公司_202110549695.9

融合试题数据和解答数据的多知识点标注方法和系统_华中师范大学_202011282980.0

一种数据关系捕获及大数据关系树构建方法_中通服创立信息科技有限责任公司_202111142241.6

高并发性数据迁移方法及数据安全存储装置_北京中领启天信息科技有限公司_202311552020.5

一种基于大数据的农业数据分析管理系统及方法_上海华维可控农业科技集团股份有限公司_202310584420.8

龙图腾网&IPTOP

【发明授权】低资源条件下融合多策略数据增强的依存句法分析方法_昆明理工大学_202111078682.4

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务