买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于GBRT的PSC命题说话题型评分算法_新疆大学_202210419236.3 

申请/专利权人:新疆大学

申请日:2022-04-20

公开(公告)日:2022-08-02

公开(公告)号:CN114841367A

主分类号:G06N20/00

分类号:G06N20/00;G10L25/60;G10L25/27

优先权:

专利状态码:在审-公开

法律状态:2022.08.02#公开

摘要:本发明公开了一种基于GBRT的PSC命题说话题型评分算法,涉及信息技术领域,该基于GBRT的PSC命题说话题型评分算法包括用于获得评测参考文本的语音识别子系统与在此基础上通过参考文本相关方法实现发音错误检测的发音错误检测子系统,通过按照一定的规则解析子系统的输出,即可获得命题说话评分模型的评分特征,在进行研究时,语音识别子系统采用百度智能云提供的普通话语音识别公开接口服务,而发音错误检测子系统采用云知声提供的普通话语音评测公开接口服务。

主权项:1.一种基于GBRT的PSC命题说话题型评分算法,其特征在于:所述基于GBRT的PSC命题说话题型评分算法包括用于获得评测参考文本的语音识别子系统与在此基础上通过参考文本相关方法实现发音错误检测的发音错误检测子系统,通过按照一定的规则解析子系统的输出,即可获得命题说话评分模型的评分特征,在进行研究时,语音识别子系统采用百度智能云提供的普通话语音识别公开接口服务,而发音错误检测子系统采用云知声提供的普通话语音评测公开接口服务,在Ubuntu20.04系统的服务器上进行,使用的GPU为NVIDIARTX3090。使用的深度学习框架为PyTorch1.10,使用的Python运行时版本为Python3.8,实验中使用的CTC损失函数实现由PyTorch提供,实验中使用的回归算法实现来自于Scikit-learn、LightGBM与XGboost库,使用的Scikit-learn版本为1.0.2,LightGBM版本为3.3.2,XGBoost版本为1.5.2,实验中使用的回归模型包括Scikit-learn提供的线性回归、MLP回归、SVR、GBRT,以及由相应的库独立提供的LightGBM回归与XGBoost回归,将线性回归模型作为基线模型,对于性能会显著受超参数影响的MLP回归、GBRT、LightGBM、XGBoost模型,使用皮尔逊相关系数作为超参数优化的目标,在训练集上通过K-Fold交叉验证与超参数搜索找到使模型性能最佳的超参数组合,K-Fold的折数根据相关研究,通过对训练集样本的数量取自然对数,确定为6折,在模型配置方面,SVR模型使用RBF核,GBRT模型使用HuberLoss作为损失函数并限制最大深度为3,XGBoost模型与LightGBM模型同样使用基于直方图算法的决策树分裂点搜索算法,为了加快XGBoost模型进行超参数搜索的速度,在超参数搜索阶段XGBoost使用GPU进行模型训练,在正式的模型训练阶段与其他模型一样使用CPU进行训练,进行实验时的全局随机种子固定为1234,从而确保实验结果可复现。

全文数据:

权利要求:

百度查询: 新疆大学 基于GBRT的PSC命题说话题型评分算法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。