【发明公布】一种基于孪生循环神经网络的泰文句子切分方法_昆明理工大学_201911309244.7

导航：龙图腾网> 最新专利技术> 一种基于孪生循环神经网络的泰文句子切分方法_昆明理工大学_201911309244.7

申请/专利权人：昆明理工大学

申请日：2019-12-18

公开（公告）日：2020-05-08

公开（公告）号：CN111126037A

主分类号：G06F40/211(20200101)

分类号：G06F40/211(20200101);G06F40/30(20200101);G06F40/126(20200101);G06N3/04(20060101);G06N3/08(20060101)

优先权：

专利状态码：有效-授权

法律状态：2021.10.29#授权;2020.06.02#实质审查的生效;2020.05.08#公开

摘要：本发明公开了一种基于孪生循环神经网络的泰文句子切分方法，属于句子切分领域。本发明方法不需要人工设计特征，也不依赖词性标注和句法信息。与已有方法相比，本发明所提出的方法更加简洁，句子切分效果也有了提升；本发明方法对空格前后的词序列进行编码获取句子切分的特征时，空格前和空格后的词序列使用相同的模型框架，并且共享了相同的参数，这样更好的考虑了空格前后词序列之间的可比性，同时缩减了参数，更有利于模型的训练；通过词嵌入和循环神经网络学习词序的特征表示有助于捕获句子中的隐含语义，从而提升句子切分的性能。

主权项：1.一种基于孪生循环神经网络的泰文句子切分方法，其特征在于：所述方法的具体步骤如下：Step1、将语料中以空格前后的词序列作为孪生循环神经网络模型输入层的输入，分别得到空格前后的词序列所对应的one-hot矩阵表示X；其中，孪生循环神经网络模型表示两个循环神经网络模型，X＝[x1,x2,...,xt,…,xT]，每个词对应的one-hot向量表示xt的维数为Nw维，T表示词序列中词的数量，Nw为词汇表的大小，即从语料中统计并去重后的词语数量；Step2、将step1分别得到的空格前后的词序列所对应的one-hot矩阵表示X通过孪生循环神经网络模型中的嵌入层参数矩阵分别得到空格前后的词序列对应的词嵌入矩阵表示E；其中，E＝WEX＝[e1,e2,...,et,…,eT]，et∈Rd，et表示第t个词所对应的词嵌入表示，和Rd中的R表示实数域，d表示词序列中每个词所对应的词嵌入表示的维数；Step3、采用孪生循环神经网络模型中的循环网络层对step2分别得到的空格前后词序列中每个词所对应的词嵌入表示et进行编码，分别得到空格前后的词序列编码表示hl和hr；其中，hl表示空格前的词序列所对应的编码表示，hr表示空格后词序列所对应的编码表示；Step4、将step3分别得到的空格前后词序列编码表示hl和hr通过孪生循环神经网络模型的隐含层综合学习，得到最终的编码向量表示h作为句子切分的特征；Step5、在孪生循环神经网络模型的输出层采用sigmoid对step4得到的句子切分特征h进行二分类操作：y＝sigmoidW2h+b2其中，y表示模型分类结果，W2是输出层的权重矩阵，b2是偏置矩阵；Step6、采用对数损失函数作为孪生循环神经网络模型的损失函数，同时采用一种自适应学习速率梯度下降优化算法Adam训练该模型，Adam算法根据对数损失函数对每个模型参数梯度的一阶矩估计和二阶矩估计来动态调整Adam算法学习速率，从而训练出泰文句子切分的最优孪生循环神经网络模型；其中，针对一个样本数量为M的批次数据，其损失函数定义如下：对数损失函数是求在空格前词序列中第i个词的编码表示和空格后词序列中第i个词的编码表示的条件下分类结果为y的概率，log表示对数函数。

全文数据：

权利要求：

百度查询：昆明理工大学一种基于孪生循环神经网络的泰文句子切分方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种清洁机的抽吸通道及其应用的清洁机_无锡同方聚能控制科技有限公司_202322109631.4

下一篇：一种高效立式淬火炉装料装置_广西南南铝加工有限公司_202322156427.8

相关技术

一种清洁机的抽吸通道及其应用的清洁机_无锡同方聚能控制科技有限公司_202322109631.4

一种高效立式淬火炉装料装置_广西南南铝加工有限公司_202322156427.8

一种高效厂房空调通风结构_中国水利水电第十四工程局有限公司_202322366576.7

搅拌机构及搅拌装置_浙江嘉灵环保科技有限公司_202322183653.5

一种书籍储存装置_滇西科技师范学院_202322370399.X

一种自冷式热风循环烧结机_新疆昆仑钢铁有限公司_202322238930.8

一种耐高温材料生产用烘干装置_武强县勃林玻纤有限责任公司_202322113409.1

一种电池浆料混合设备_江西享能电子科技有限公司_202322105610.5

一种砖块单元体幕墙系统_山东津单幕墙有限公司_202322061257.5

PFC控制电路、开关电源电路及充电器_江西吉安奥海科技有限公司_202322014827.5

一种自动化凝胶乳化装置_河南德源祥生物科技有限公司_202322371616.7

一种壳体粗糙度检测装置_麦格纳动力总成(江西)有限公司_202322202117.5

龙图腾网&IPTOP

【发明公布】一种基于孪生循环神经网络的泰文句子切分方法_昆明理工大学_201911309244.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务