【发明授权】文本中词语分类方法、言语创造性评价方法和系统_河海大学_201810757336.0

导航：龙图腾网> 最新专利技术> 文本中词语分类方法、言语创造性评价方法和系统_河海大学_201810757336.0

申请/专利权人：河海大学

申请日：2018-07-11

公开（公告）日：2022-03-08

公开（公告）号：CN109241276B

主分类号：G06F16/35(20190101)

分类号：G06F16/35(20190101);G06F40/289(20200101);G06F40/216(20200101)

优先权：

专利状态码：有效-授权

法律状态：2022.03.08#授权;2019.02.19#实质审查的生效;2019.01.18#公开

摘要：本发明公开了一种文本中词语分类方法、言语创造性评价方法和系统，其中文本中词语分类方法包括如下步骤；1、分行读取文本，以正则方式分割每行文本数据，获得短语和词语；2、将步骤1获得的短语和词语采用结巴分词进一步切分，获得简单词语；3、设置分类参数，根据词频得到候选主题，进行初步分类；4、选择每一类中词频最高的词语作为本类的主题；5、对每一类词语，遍历本类中所有词语，判断是否属于本类主题，如果是，则划分到所述主题下；否则划分到低频词集合中；6、对低频词集合使用word2vec.model作进一步划分；7、统计分类结果。该词语分类方法适用于词汇或词语独立或孤立出现，而不是以篇章或句子形式出现的场景。

主权项：1.文本中词语分类方法，其特征在于，包括如下步骤；1分行读取文本，以正则方式分割每行文本数据，过滤标点符号和数字，获得短语和词语；2将步骤1获得的短语和词语进一步切分，并过滤停用词，获得简单词语，设共获得L个简单词语；统计每个简单词语的词频；3设置分类参数K[k,limit]，其中k为频次参数，limit为词频限制参数；词频高于k的词语中选择词频最高的前limit个设置为候选主题；对L个简单词语依次判断属于哪个候选主题，进行初步分类，设分为M类，M≤limit；4对分类后的结果，选择每一类中词频最高的词语作为本类的主题；5对每一类词语，遍历本类中所有词语，判断是否属于本类主题，如果属于本类的主题，则划分到所述主题下；如果不属于本类主题，划分到低频词集合中；6对低频词集合使用word2vec.model作进一步划分；7统计分类结果，得到P类。

全文数据：文本中词语分类方法、言语创造性评价方法和系统技术领域本发明属于数据处理、机器学习与分类领域，具体涉及一种文本中词语的分类方法，以及言语创造性评价方法和系统。背景技术分类Classification、估计Estimation、预测Prediction、相关性分组或关联规则Affinitygroupingorassociationrules、聚类Clustering、描述和可视化DescriptionandVisualization、复杂数据类型挖掘TextWeb图形图像视频音频等都属于数据挖掘技术。分类是一种基本的机器学习任务。通过事物的分类分析可以确定其类别或彼此间的关联性，能够根据事物特征的相似性或相异性将相似、相近或者相异的事物分别归并或划分到合适的类别或组内。在已有的技术中，基于TF-IDFTermFrequency–InverseDocumentFrequency,词频-逆文本频率指数的向量空间模型文本相似度计算方法是使用最广泛的文本相似度计算方法，这种方法主要以词语或单词在文本中出现的频率以及在文本集中出现的该词的频率来表征词的权重，通过计算向量之间的余弦相似度来计算文本间的相似度，由于该方法忽略了文本中词项的含义，因而也就无法分辨出同义词与多义词，而同义词与多义词对于计算文档相似度具有重要的意义。此外，对于大多数文本数据集而言，词项的数目和文本数目通常都很大，加之采用词频向量模型必须将文本转换为词项数目与文本数目大致相当的矩阵，且经过转换后的矩阵的行数为文本集内的词项数，列数为文本集中的文本数量，两者通常都是几千或几万维，这样下来矩阵维度就很高且结构很稀疏。基于词项语义来考察文本相似度的方法在文本表示模型上多数沿用了词频向量模型，通过引入外部词典如WordNet、HowNet、同义词词林等来计算词项之间的相似度，但该方法无法解决词典中未登录词的语义问题，而且这种方法很难移植到没有语义词典的应用中。LDALatentDirichletAllocation模型是另一种广泛应用于分类的技术，主要是使语料或材料库中提供的各个词语或词汇最终聚集到不同类别的主题下。聚集到相同主题或同一类别中的各个词语或词汇通常在语义上彼此之间的关系更加紧密或近似，而聚集到不同类别或不同主题下的词语或词汇之间的联系更加薄弱或没有明显关联。这种方法的优点在于它避免了对文本材料中各个词语或词汇之间的语义相似性或关联性进行复杂的运算，而且不依赖于外部词典，就能够获得或者提供足够有价值的有关词语或词汇之间语义相似性的信息。但这种方法最显著的不足就是它一般是针对分析较长篇幅的语料或文本中词汇与词语的语义相似度。在实际生活中，许多词汇的呈现是由于情境或即时交流的限制，通常是单个的词汇或词语，孤立的方式出现或者与少数几个词语相伴出现。因此，上述方法可能并不适合具有短篇或者非篇章的词汇语义相似性的分析。伴随着创新驱动战略的启动和深入，创造性越来越被各行各业所重视。如何评估和测量创造性自然成为一个非常重要的现实问题。通过理论与实践领域的充分联动形成了不少颇具价值的创造性测量工具。总体上，这些创造性测量工具主要围绕创造性思维过程和创造性思维结果产品来设计，且可以根据各自特点划分为不同的类别。其中，创造性成就测验、发散思维测验和顿悟类测验是最常用的三种创造性测评工具。创造性成就测验和顿悟类测验的评分相对明确，通常是通过问卷的评定等级或者测试者提供答案的正确与否来确定他们的创造性成就或聚合思维表现。发散思维测验则是一类非常重要和广泛使用的发散思维和创造性潜能的测验工具，其中最常用的是“一物多用测验”alternativeusetest,又称替代用途测验和“非常规用途测验”uncommonusetest。一般地，该测验会事先向测验者呈现一个或若干个常规物品，要求测验者在规定时间内尽可能多列举出该物品的其他用途或新应用途。该测验有明显的发散的特点，答案不唯一，因此没有非常客观的方法。当前学界和实践过程中主要是通过哈佛大学Amiable教授提出的同感评估技术或称共识性评估技术consesusassessmenttechnique,CAT来对测验者提供的答案进行评估，主要评估言语创造性的灵活性或变通性flexibility、原创性originality或新颖性novelty、以及流畅性fluency。由于言语创造性评价测验中词汇或词语的出现通常不是篇章或句子形式，而是少数几个独立或孤立出现的词语。因此，上述的方法无法应用到语言创造性思维尤其是发散思维测验之中。发明内容发明目的：针对现有技术中存在的问题，本发明提供了一种基于word2vec的文本中词语分类方法，以及应用该方法的言语创造性评价方法和系统。该词语分类方法适用于词汇或词语独立或孤立出现，而不是以篇章或句子形式出现的场景。本发明提供的言语创造性评价方法基于创造性测验的同感评估技术或共识性评估原理，从流畅性、原创性和变通性三个方面来进行评分。技术方案：本发明一方面提供了一种文本中词语分类方法，包括如下步骤；1分行读取文本，以正则方式分割每行文本数据，过滤标点符号和数字，获得短语和词语；2将步骤1获得的短语和词语进一步切分，并过滤停用词，获得简单词语，设共获得L个简单词语；统计每个简单词语的词频；3设置分类参数K[k,limit]，其中k为频次参数，limit为词频限制参数；词频高于k的词语中选择词频最高的前limit个设置为候选主题；对L个简单词语依次判断属于哪个候选主题，进行初步分类，设分为M类，M≤limit；4对分类后的结果，选择每一类中词频最高的词语作为本类的主题；5对每一类词语，遍历本类中所有词语，判断是否属于本类主题，如果属于本类的主题，则划分到所述主题下；如果不属于本类主题，划分到低频词集合中；6对低频词集合使用word2vec.model作进一步划分；7统计分类结果，得到P类。所述正则方式分割每行文本数据，包括定义特定字符及特定字符的组合，组成规则字符串；搜索文本匹配一个或多个规则字符串，对文本数据进行过滤。所述步骤2采用结巴分词对短语和词语进一步切分。步骤4中选择每一类中词频最高的词语，且词频大于设定的频次参数k时，该词语才被设为本类的主题，否则本类所有词语都划分到低频词集合中。作为一种改进，初步分类之后还包括用户自主提升分类精确度，所述用户自主提升分类精确度为：设计相似字文本和相似词文本，对初步分类后的M类词语进行合并，得到N类，N≤M；所述步骤4为：对用户自主提升分类精确度后的结果，选择每一类中词频最高的词语作为本类的主题。另一方面，本发明提供了一种言语创造性评价方法，包括如下步骤：S1获取用户输入的言语文本；S2采用上述任一种文本中词语分类方法对言语文本进行分类；S3根据言语文本分类结果，计算原创性、流畅性、变通性统计结果，得到所述用户的创造性评价结果；所述原创性为当前用户输入的某个词语在所有用户群体输入的词语中出现的频次；所述流畅性为言语分类结果中所有类别的词语个数之和；所述变通性为言语分类结果中的类别数。同时，本发明提供了一种言语创造性评价系统，包括数据导入模块、数据处理模块、运行模块和输出模块；所述数据导入模块用于接收用户输入的言语文本；所述数据处理模块采用上述任一种文本中词语分类方法对言语文本进行分类；所述运行模块根据言语文本分类结果，计算原创性、流畅性、变通性统计结果，得到所述用户的创造性评价结果；输出模块用于输出或存储中间结果和最终结果。有益效果：与现有技术相比，本发明公开的文本中词语分类方法具有分类准确，且分类过程可以通过修改停用词文本、相似词文本和相似字文本来调整的优点。言语创造性评价方法和系统数据直接导入，不涉及任何必须的人工处理；操作简单，结果呈现界面友好。分类结果和数据统计结果分别存入result.txt和result.xls中，可以反复使用与保存。result.xls中首个横行即清楚显示各个类别名以及“原创性”、“流畅性”、“变通性”三个指标的结果，纵列依次呈现了每个被试在不同类别中所占的回答数，并在其后统计出流畅性、变通性以及原创性的计分，结果呈现直观易懂。为了保证精度和必要的人工调整，用户可以在查看分类结果后，适当根据需要和理论基础合理提升分类精度或准确度。附图说明图1为本发明公开的文本中词语分类方法的流程图；图2为本发明公开的言语创造性评价系统；图3为本发明公开的言语创造性评价系统中各模块逻辑关系图。具体实施方式下面结合附图和具体实施方式，进一步阐明本发明。实施例1：如图1所示，为本发明公开的文本中词语分类方法的流程图，包括如下步骤：步骤1、分行读取文本，以正则方式分割每行文本数据，过滤标点符号和数字，获得短语和词语；正则方式分割每行文本数据，包括定义特定字符及特定字符的组合，组成规则字符串；搜索文本匹配一个或多个规则字符串，对文本数据进行过滤；文本中的短语间存在“，”、“。”和“；”等标点符号则自动转换成空格，获得相应词组。步骤2、将步骤1获得的短语和词语进一步切分，并过滤停用词，获得简单词语，设共获得L个简单词语；统计每个简单词语的词频；本发明中采用结巴分词对短语和词语进一步切分；停用词为无意义字符或词语，如“想不到了”、“不知道”等无实际意义回答。本实施例中停用词组成stopWord文本，通过过滤stopWord文本中的停用词，将无意义词语过滤掉。stopWord文本可以通过多次测评和训练来调整，使之给出的分类结果越来越准确。步骤3、设置分类参数K[k,limit]，其中k为频次参数，limit为词频限制参数；词频高于k的词语中选择词频最高的前limit个设置为候选主题；对L个简单词语依次判断属于哪个候选主题，进行初步分类，设分为M类，M≤L。如果词频高于k的词语不足limit个，那么最终选择的候选主题数目为词频高于k的词语的数目，少于limit，这种情况下M＜limit。考虑一般情况，有M≤limit。分类参数K[k,limit]的设置要合理，k和limit的取值要与待处理的词语数据量相匹配。步骤4、对分类后的结果，选择每一类中词频最高的词语作为本类的主题；步骤5、对每一类词语，遍历本类中所有词语，判断是否属于本类主题，如果属于本类的主题，则划分到所述主题下；如果不属于本类主题，划分到低频词集合中；为了取得更好的聚类效果，步骤4中选择每一类中词频最高的词语，且词频大于设定的频次参数k时，该词语才被设为本类的主题，否则本类所有词语都划分到低频词集合中。步骤6、对低频词集合使用word2vec.model作进一步划分；步骤7、统计分类结果，得到P类。实施例2：通常情况下，实施例1中的分类结果可以符合要求，用户不需进行处理。在某些精度要求高的情况下，为了获得更精确的分类效果，用户可以人为干预分类。本实施例在步骤3的初步分类之后还包括用户自主提升分类精确度，所述用户自主提升分类精确度为：设计相似字文本和相似词文本，对初步分类后的M类词语进行合并，得到N类，N≤M；由此步骤4在用户自主提升分类精确度的结果上操作，所述步骤4为：对用户自主提升分类精确度后的结果，选择每一类中词频最高的词语作为本类的主题。本实施例中相似词文本命名为Normalword.txt，表示的是同类词语的处理单元。例如，“铁钉”提供的功能包括“打孔”和“钻孔”，应该划分为同一类别之中。假设系统根据某种内在运算结果将其划分为两个不同类别时，通过Normalword.txt，将“打孔”和“钻孔”两个词语合并为同一类别。本实施例中相似字文本命名为simchar.txt，其是在Normalword.txt的基础上又一次精细划分。例如，铁钉的“打孔”和“钻孔”都表示同一含义，则可以把“打”和“钻”放在simchart.txt中的同一行，将包含这两个字的词语划分在同一个类别中。与stopWord文本类似，Normalword.txt和simchar.txt文本也可以通过多次测评和训练来调整，使之给出的分类结果越来越准确，这也是本方法的一大优点。实施例3：本发明还公开了一种应用上述文本中词语分类方法的言语创造性评价方法，该方法基于创造性测验的同感评估技术或共识性评估原理，从流畅性、原创性和变通性三个方面来进行评分，包括如下步骤：S1获取用户输入的言语文本；S2采用上述文本中词语分类方法对言语文本进行分类；S3根据言语文本分类结果，计算原创性、流畅性、变通性统计结果，得到所述用户的创造性评价结果；根据同感性评分规则，所述原创性为当前用户输入的某个词语在所有用户群体输入的词语中出现的频次；所述流畅性为言语分类结果中所有类别的词语个数之和；所述变通性为言语分类结果中的类别数。本发明公开的言语创造性评价方法可以应用于图2所示的言语创造性评价系统中，该系统包括数据导入模块、数据处理模块、运行模块和输出模块；各模块间的逻辑关系如图3所示。其中，数据导入模块用于接收用户输入的言语文本data.txt；数据处理模块采用上述文本中词语分类方法对言语文本data.txt进行分类，处理过程中还需要输入停止词stopWord文本、相似词文本Normalword.txt和相似字simchar.txt这三个文本；运行模块根据言语文本分类结果，计算原创性、流畅性、变通性统计结果，得到所述用户的创造性评价结果，用户可以根据评价结果，修改停止词stopWord文本、相似词文本Normalword.txt和相似字simchar.txt这三个文本来进一步提升分类准确度；输出模块用于输出或存储中间结果和最终结果。本实施例中，分类结果保存在result.txt文件中，创造性评价结果保存在result.xls文件中，可以反复使用与保存。为了评估言语创造性评价系统的可靠性，本实施例借助已有数据对系统评价结果与三名经过训练人员简称a,b,c的评价结果之间的关联性进行分析。该数据为152名测试者就“蜡烛”的非常规用途测试或发散思维测验的结果。如表1所示，三名人工处理关于“蜡烛”变通性flexibility结果的一致性相关系数为0.979，与言语创造性评价系统得出的结果，其肯德尔相关系数为0.836，除去第一位评分者后的肯德尔相关系数为0.810。三名人工处理关于“蜡烛”流畅性fluency结果的肯德尔相关系数为1，与言语创造性评价系统得出的结果肯德尔相关系数为0.860，除去第一位评分者后的相关系数为0.834。同时，三名人工处理关于“蜡烛”原创性originality结果的一致性相关系数为0.804，与言语创造性评价系统得出的结果肯德尔相关系数为0.627，除去第一位评分者后肯德尔相关系数为0.638。表1系统评分与a,b,c三位评分者结果关联性分析系统与a、b、c系统与b、ca,b与c流畅性0.8600.8341.000变通性0.8360.8100.979原创性0.6270.6380.804

权利要求：1.文本中词语分类方法，其特征在于，包括如下步骤；1分行读取文本，以正则方式分割每行文本数据，过滤标点符号和数字，获得短语和词语；2将步骤1获得的短语和词语进一步切分，并过滤停用词，获得简单词语，设共获得L个简单词语；统计每个简单词语的词频；3设置分类参数K[k,limit]，其中k为频次参数，limit为词频限制参数；词频高于k的词语中选择词频最高的前limit个设置为候选主题；对L个简单词语依次判断属于哪个候选主题，进行初步分类，设分为M类，M≤limit；4对分类后的结果，选择每一类中词频最高的词语作为本类的主题；5对每一类词语，遍历本类中所有词语，判断是否属于本类主题，如果属于本类的主题，则划分到所述主题下；如果不属于本类主题，划分到低频词集合中；6对低频词集合使用word2vec.model作进一步划分；7统计分类结果，得到P类。2.根据权利要求1所述的文本中词语分类方法，其特征在于，所述正则方式分割每行文本数据，包括定义特定字符及特定字符的组合，组成规则字符串；搜索文本匹配一个或多个规则字符串，对文本数据进行过滤。3.根据权利要求1所述的文本中词语分类方法，其特征在于，所述步骤2采用结巴分词对短语和词语进一步切分。4.根据权利要求1所述的文本中词语分类方法，其特征在于，初步分类之后还包括用户自主提升分类精确度，所述用户自主提升分类精确度为：设计相似字文本和相似词文本，对初步分类后的M类词语进行合并，得到N类，N≤M；所述步骤4为：对用户自主提升分类精确度后的结果，选择每一类中词频最高的词语作为本类的主题。5.根据权利要求1所述的文本中词语分类方法，其特征在于，步骤4中选择每一类中词频最高的词语，且词频大于设定的频次参数k时，该词语才被设为本类的主题，否则本类所有词语都划分到低频词集合中。6.言语创造性评价方法，其特征在于，包括如下步骤：S1获取用户输入的言语文本；S2采用权利要求1-5中任一项所述的文本中词语分类方法对言语文本进行分类；S3根据言语文本分类结果，计算原创性、流畅性、变通性统计结果，得到所述用户的创造性评价结果；所述原创性为当前用户输入的某个词语在所有用户群体输入的词语中出现的频次；所述流畅性为言语分类结果中所有类别的词语个数之和；所述变通性为言语分类结果中的类别数。7.言语创造性评价系统，其特征在于，包括数据导入模块、数据处理模块、运行模块和输出模块；所述数据导入模块用于接收用户输入的言语文本；所述数据处理模块采用权利要求1-5中任一项所述的文本中词语分类方法对言语文本进行分类；所述运行模块根据言语文本分类结果，计算原创性、流畅性、变通性统计结果，得到所述用户的创造性评价结果；输出模块用于输出或存储中间结果和最终结果。

百度查询：河海大学文本中词语分类方法、言语创造性评价方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种弱监督云检测方法_安徽大学_202310764234.2

下一篇：基于对抗样本的人体康复运动数据增强方法_大连海事大学_202110864746.7

相关技术

一种弱监督云检测方法_安徽大学_202310764234.2

基于对抗样本的人体康复运动数据增强方法_大连海事大学_202110864746.7

一种电石渣煅烧氧化钙粉体循环压球系统及工艺_江苏中圣园科技股份有限公司_202011333705.7

RS485总线中多传感器编址方法、数据采集设备和系统_广州鲁邦通物联网科技股份有限公司_202011486283.7

基于模糊控制的电力设备智能调控方法_太原理工大学_202410258512.1

一种带角度弹性垫圈的热处理方法及热处理装置_贵州航天精工制造有限公司_202111464284.6

用于控制空调的方法及装置、空调_青岛海尔空调电子有限公司_202210048335.5

一种适用于热辅助治疗的硝酸2-(4-甲基噻唑-5-基)乙酯盐脑靶向脂质体_山东京卫制药有限公司_202311121383.3

双极化天线阵列测向角度的获取方法、系统、设备及介质_网络通信与安全紫金山实验室_202111062353.0

虹吸定量加药装置及加药方法_江西华兴四海机械设备有限公司_202111502512.4

一种基于红外检测技术的探测装置及使用方法_黎明职业大学_201911007934.7

一种农产品供应链信息管理系统_河南建设产业投资有限公司_202311393351.9

方法相关技术

制造方法_意法半导体(克洛尔2)公司_202311475458.8

训练数据生成方法、图像检测方法、图像分类方法及装置_第四范式(北京)技术有限公司_202211345497.1

图像特征处理方法、图像对比方法、模型训练方法及装置_浙江深象智能科技有限公司_202410418358.X

编码方法、解码方法和处理比特流的方法_松下电器(美国)知识产权公司_202410304249.5

增殖方法_花王株式会社_202080014224.1

控制棒组件的安装方法、取出方法以及更换方法_中国原子能科学研究院_202111129136.9

排烟机拖车及其掉头方法、自行行走方法_苏州瑞奇安机电科技有限公司_202410210474.2

视频处理方法、影视视频处理方法及装置_阿里巴巴集团控股有限公司_202010147566.2

半导体结构及其制备方法、晶圆切割方法_北京弘图半导体有限公司_202410157714.7

喷墨记录方法及层合体的制造方法_富士胶片株式会社_202280064929.3

分类相关技术

建筑垃圾分类处理装置_中国二十二冶集团有限公司_202410267794.1

用于分类内群与离群数据的数据分类方法_宏达国际电子股份有限公司_202311473906.0

一种高光谱图像分类模型的构建方法、分类方法及系统_西北大学_202010781786.0

三轮垃圾分类清运车_城发城市服务科技(河南)有限公司_202322430834.3

一种垃圾分类装置_青岛卓易策略数据信息技术有限公司_202322167583.4

一种方便分类洗衣篮_青岛金富工艺品有限公司_202322206174.0

一种器械分类放置架_枣庄市山亭区人民医院_202321790402.7

自动化水果分类装箱机_桂林电子科技大学_201711190935.0

一种垃圾分类填埋场_南平臻境环保有限责任公司_202322214910.7

一种垃圾分类清运车_苏州伯德环境发展有限公司_202410350640.9

言语相关技术

一种基于图卷积神经网络的教师非言语行为检测方法_华中师范大学_202210438914.0

基于视觉言语运动特征的自动化构音障碍评估方法及系统_天津大学_202410250817.8

用于在端到端模型中跨语言语音识别的基于音素的场境化_谷歌有限责任公司_202311813671.5

用于代理CS管理者的基于自由言语情感分析的AI化身指导系统_顾客服务分享股份有限公司_202211318237.5

拟人化的副语言语音合成方法及系统_暗物智能科技(广州)有限公司_202410288143.0

多语言语音识别方法、装置、系统及计算机可读存储介质_北京声智科技有限公司_202011389152.7

一种言语训练构音棋_上海市儿童福利院_202321778539.0

一种基于人工智能的自然语言语义分析系统_王徐衍_202310176340.9

跨语言语音生成方法、系统及存储介质_广州赛灵力科技有限公司_202410054026.8

基于领域对抗学习的多语言语音情感识别系统_重庆邮电大学_202311863177.X

龙图腾网&IPTOP

【发明授权】文本中词语分类方法、言语创造性评价方法和系统_河海大学_201810757336.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务