买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于Django的文本标注平台_北京计算机技术及应用研究所_202011138791.6 

申请/专利权人:北京计算机技术及应用研究所

申请日:2020-10-22

公开(公告)日:2023-07-18

公开(公告)号:CN112199084B

主分类号:G06F16/958

分类号:G06F16/958;G06F16/35;G06F21/62;G06F18/241;G06F18/214;G06N3/0442;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2023.07.18#授权;2021.01.26#实质审查的生效;2021.01.08#公开

摘要:本发明涉及一种基于Django的文本标注平台,其中,包括:算法模块、项目模块、用户模块以及标签模块;用户模块用于存储用户信息以及进行登录验证;标签模块对项目的标签进行增、删以及改,不同项目设置不同标签,同一项目标签不可重复,并用于根据标签类型进行标注;算法模块根据打包算法程序,通过项目模块在项目中选择算法,进行预标注模型训练,项目模块将项目已标注数据传入算法模块,训练出预标注模型后,通过项目模块进行预标注,将项目中未标注数据传入预标注模型,算法模块将标注后的数据存入数据库,项目模块在对项目中所有未达标文件进行预标注,预标注完成后在系统界面上查看预标注后的数据。

主权项:1.一种基于Django的文本标注平台,其特征在于,包括:算法模块、项目模块、用户模块以及标签模块;用户模块用于存储用户信息以及进行登录验证;标签模块对项目的标签进行增、删以及改,不同项目设置不同标签,同一项目标签不可重复,并用于根据标签类型进行标注;算法模块根据打包算法程序,通过项目模块在项目中选择算法,进行预标注模型训练,项目模块将项目已标注数据传入算法模块,训练出预标注模型后,通过项目模块进行预标注,将项目中未标注数据传入预标注模型,算法模块将标注后的数据存入数据库,项目模块在对项目中所有未打标文件进行预标注,预标注完成后在系统界面上查看预标注后的数据;其中,预标注算法使用的是深度学习中的BILSTM-CRF模型算法;深度学习中的BILSTM-CRF模型算法包括:BILSTM-CRF模型的第一层是look-up层,利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量xi∈Rd,d是embedding矩阵的维度;BILSTM-CRF模型的第二层是双向LSTM层,将一个句子的各个字的charembedding序列x1,x2,…,xn作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接得到完整的隐状态序列;h1,h2,…,hn∈Rx×m;BILSTM-CRF模型的第三层是CRF层,进行句子级的序列标注;CRF层的参数是一个k+2×k+2的矩阵A,Aij表示的是从第i个标签到第j个标签的转移得分,进而为在一个位置进行标注的时候利用此前已经标注过的标签,如果记一个长度等于句子长度的标签序列y=y1,y2,…,yn,那么模型对句子x的标签等于y的打分为: 整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由LSTM输出的pi决定,另一部分则由CRF的转移矩阵A决定,利用Softmax得到归一化后的概率: BILSTM-CRF模型训练时通过最大化对数似然函数,给出了对一个训练样本x,yx的对数似然: BILSTM-CRF模型在预测过程时使用动态规划的Vitebi算法来求解最优路径:y*=argmaxscorex,y′。

全文数据:

权利要求:

百度查询: 北京计算机技术及应用研究所 基于Django的文本标注平台

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。