申请/专利权人:北京语源科技有限公司
申请日:2023-10-18
公开(公告)日:2024-04-30
公开(公告)号:CN117313713B
主分类号:G06F40/274
分类号:G06F40/274;G06F40/284;G06F40/30;G06F18/27;G06N5/04
优先权:
专利状态码:有效-授权
法律状态:2024.04.30#授权;2024.01.16#实质审查的生效;2023.12.29#公开
摘要:本发明涉及数据处理技术领域,具体涉及一种自回归大语言模型的推理方法,该方法包括:获取当前输入内容和预设领域内的资料;从构建的目标数据库中筛选出后向词汇集合;确定当前词汇和每个候选辅助词汇对应的语言多样性指标;确定当前词汇对应的辅助词汇数量;确定每个候选辅助词汇对应的语义关联程度;从所有候选辅助词汇中筛选出目标辅助词汇;确定每个目标辅助词汇对应的目标权重;根据当前词汇、预设主权重、所有目标辅助词汇及其对应的目标权重,通过自回归大语言模型,对当前输入内容进行下一个词汇的推荐。本发明通过对获取的当前输入内容和预设领域内的资料进行数据处理,提高了推理词汇的准确性和对下一个词汇推荐的准确度。
主权项:1.一种自回归大语言模型的推理方法,其特征在于,包括以下步骤:获取当前输入内容和预设领域内的资料,并根据获取的资料,构建目标数据库,其中,当前输入内容中的最后一个词汇为当前词汇;将所述当前输入内容中除了所述当前词汇之外的每种词汇,确定为候选辅助词汇;从所述目标数据库中筛选出每个候选辅助词汇和所述当前词汇对应的后向词汇集合;根据所述当前词汇和每个候选辅助词汇对应的后向词汇集合,确定所述当前词汇和每个候选辅助词汇对应的语言多样性指标;根据候选辅助词汇的数量和所述当前词汇对应的语言多样性指标,确定所述当前词汇对应的辅助词汇数量;根据每个候选辅助词汇对应的语言多样性指标和所述当前词汇,确定每个候选辅助词汇对应的语义关联程度;根据语义关联程度,从所有候选辅助词汇中筛选出所述辅助词汇数量个目标辅助词汇;根据预设主权重和每个目标辅助词汇对应的语义关联程度,确定每个目标辅助词汇对应的目标权重;根据所述当前词汇、所述预设主权重、所有目标辅助词汇及其对应的目标权重,通过自回归大语言模型,对所述当前输入内容进行下一个词汇的推荐;所述根据所述当前词汇和每个候选辅助词汇对应的后向词汇集合,确定所述当前词汇和每个候选辅助词汇对应的语言多样性指标,包括:根据所述当前词汇对应的后向词汇集合中所有后向词汇在所述目标数据库中出现的概率,确定所述当前词汇对应的语言多样性指标;根据每个候选辅助词汇对应的后向词汇集合中所有后向词汇在所述目标数据库中出现的概率,确定每个候选辅助词汇对应的语言多样性指标;当前词汇对应的语言多样性指标对应的公式为: 其中,MD是当前词汇对应的语言多样性指标;N是当前词汇对应的后向词汇集合中后向词汇的数量;PTi是当前词汇对应的后向词汇集合中第i个后向词汇在目标数据库中出现的概率;i是当前词汇对应的后向词汇集合中后向词汇的序号;log2PTi是以2为底PTi的对数;exp是以自然常数为底的指数函数;PTmax是当前词汇对应的后向词汇集合中所有后向词汇在目标数据库中出现的概率中的最大值。
全文数据:
权利要求:
百度查询: 北京语源科技有限公司 一种自回归大语言模型的推理方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。