买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于浏览器历史记录的用户工作效率可视评估方法_西南科技大学_201910013767.0 

申请/专利权人:西南科技大学

申请日:2019-01-07

公开(公告)日:2024-04-30

公开(公告)号:CN110245816B

主分类号:G06Q10/0639

分类号:G06Q10/0639

优先权:

专利状态码:有效-授权

法律状态:2024.04.30#授权;2019.10.15#实质审查的生效;2019.09.17#公开

摘要:本发明公开了一种基于浏览器历史记录的用户工作效率可视评估方法,包括以下步骤:自动提取浏览器历史记录数据;挖掘用户上网行为特征;定义工作效率评估方法,计算用户专注度;综合包括访问网站类别、专注度的指标构建用户上网健康度模型;针对每种上网行为特征属性设计可视化表达方式,以多种可视化元素构成用户的工作效率评估报告。本发明综合所有行为特征生成用户工作效率评估报告,以此建议更合理的生活作息分配,帮助用户结合兴趣爱好提高工作效率;通过本发明,在办公等公共环境下,用户可以直观地查看自己的工作效率和工作专注度,从而便于组织监管和自我状态调整;本发明运算量小、体积小、效率高。

主权项:1.基于浏览器历史记录的用户工作效率可视评估方法,其特征在于:包括以下步骤:步骤一、自动提取浏览器历史记录数据;步骤二、挖掘用户上网行为特征,以访问时间、网页文本主题、访问频次为主要特征;步骤三、定义工作效率评估方法,计算用户专注度;步骤四、综合包括访问网站类别、专注度的指标构建用户上网健康度模型;步骤五、针对每种上网行为特征属性设计可视化表达方式,以多种可视化元素构成用户的工作效率评估报告;所述步骤二中,所述挖掘用户上网行为特征的方法为:首先通过遍历浏览器历史记录数据的时间属性,分别统计月、周、天、小时这些不同时间粒度的网页访问时间占比分布;再使用Python网络爬虫程序对每条浏览器历史记录数据中url所对应的网站页面文本信息进行爬取并保存文本内容;使用分词算法进行文本分词,使用TF-IDF算法统计各词的频次,得到网页的高频词汇;最后将浏览器历史记录的每条url以正则表达式保留其主站的域名,统计每个域名访问总次数;同时使用爬虫程序爬取主流分类库网站,建立网站分类库,将其分为如下六大类别:教育、娱乐、新闻、搜索、购物、社会,利用该分类库对用户浏览器历史网址进行归类,统计每一类网站数量;所述步骤三中,所述计算用户专注度的方法为:将计算得到的网页分类数据,每一条数据按其数值和时间属性在时间轴上模拟打点,若在浏览教育类型网页的某个时间段内,存在一个或者多个访问其它非教育类型网页的时段与之重合,其重叠部分则可以认为工作学习的专注度不足;在一段时间宽度为Ai的工作时段内存在M段离散的重叠区域,设Oj为第j段重叠部分非教育类型网页的访问次数,Ej为第j段重叠部分教育类网页的访问次数,Wj为第j段访问时间重叠部分的时间宽度,则定义为当前Ai工作时间段内专注度的数值衡量;若在整体时间轴上存在N个离散的工作学习时间段,则定义用户完整的专注度为

全文数据:基于浏览器历史记录的用户工作效率可视评估方法技术领域本发明涉及一种上网用户工作效率的评估方法,尤其涉及一种基于浏览器历史记录的用户工作效率可视评估方法。背景技术可视分析是大数据分析的重要方法,能够有效地弥补计算机自动化分析方法的劣势与不足。可视分析技术将人面对图形图像信息时所具备的感知认知能力与计算机分析计算能力优势进行有机融合,在数据挖掘等方法的基础上,综合利用认知理论、数据可视化以及人机交互技术,辅助人们更为直观和高效地洞悉大数据背后的信息、知识与智慧。目前用户在使用浏览器访问网页的过程中,会产生大量的网页历史记录。多数主流的浏览器会将用户历史记录保存在本地文件中,而通常这些文件中包括以下三个部分:url地址,网页的title和访问时间。但目前尚没有任何文献公开使用浏览器历史记录数据对上网用户的工作效率进行评估的方法,这不但不利于用户本人了解自己的上网工作效率,更不利于企业了解员工的工作效率,所以不能将上网数据与工作效率结合。发明内容本发明的目的就在于为了解决上述问题而提供一种基于浏览器历史记录的用户工作效率可视评估方法。本发明通过以下技术方案来实现上述目的:一种基于浏览器历史记录的用户工作效率可视评估方法,包括以下步骤:步骤一、自动提取浏览器历史记录数据;步骤二、挖掘用户上网行为特征,以访问时间、网页文本主题、访问频次为主要特征;步骤三、定义工作效率评估方法,计算用户专注度;步骤四、综合包括访问网站类别、专注度的指标构建用户上网健康度模型;步骤五、针对每种上网行为特征属性设计可视化表达方式,以多种可视化元素构成用户的工作效率评估报告。作为优选,所述步骤二中,所述挖掘用户上网行为特征的方法为:首先通过遍历浏览器历史记录数据的时间属性,分别统计月、周、天、小时这些不同时间粒度的网页访问时间占比分布;再使用Python网络爬虫程序对每条浏览器历史记录数据中url所对应的网站页面文本信息进行爬取并保存文本内容;使用分词算法进行文本分词,使用TF-IDF算法统计各词的频次,得到网页的高频词汇;最后将浏览器历史记录的每条url以正则表达式保留其主站的域名,统计每个域名访问总次数;同时使用爬虫程序爬取主流分类库网站,建立网站分类库,将其分为如下六大类别:教育、娱乐、新闻、搜索、购物、社会,利用该分类库对用户浏览器历史网址进行归类,统计每一类网站数量。python网络爬虫_一款任何网站都能抓取的爬虫工具;TF-IDFtermfrequency-inversedocumentfrequency是一种用于信息检索与数据挖掘的常用加权技术;url是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。作为优选,所述步骤三中,所述计算用户专注度的方法为:将计算得到的网页分类数据,每一条数据按其数值和时间属性在时间轴上模拟打点,若在浏览教育类型网页的某个时间段内,存在一个或者多个访问其它非教育类型网页的时段与之重合,其重叠部分则可以认为工作学习的专注度不足。作为优选,所述步骤三中,所述计算用户专注度的方法为:在一段时间宽度为Ai的工作时段内存在M段离散的重叠区域,设Oj为第j段重叠部分非教育类型网页的访问次数,Ej为第j段重叠部分教育类网页的访问次数,Wj为第j段访问时间重叠部分的时间宽度,则定义为当前Ai工作时间段内专注度的数值衡量;若在整体时间轴上存在N个离散的工作学习时间段,则定义用户完整的专注度为作为优选,所述步骤四中,所述用户上网健康度模型的构建包括以下步骤:步骤1、将六大类别网站合并成两大类,即有益网站和有害网站,有益网站包括教育、搜索、社会类网站,有害网站包括娱乐、购物、新闻类网站,根据重要程度和影响程度,给六大类别网站赋予依次不同的权重:2、2、1、2、2、1,有益网站的时间之和乘以权重得到有益得分,有害网站的时间之和乘以权重得到有害得分,有益得分记为第一个指标,有害得分记为第二个指标,专注度记为第三个指标;步骤2、根据熵值法建立评估模型:选取n个对象,3项指标即有益得分、有害得分和专注度,构成一个初始矩阵Xij表示为第i个对象的第j个指标的数值;步骤3、数据标准化处理:对于有益得分和专注度,对于有害得分,经上述标准化处理后得到的数据仍记为Xij;步骤4、计算第j项指标下第i个对象占该指标的比重:步骤5、计算第j项指标的熵值:令k=1ln3,则0≤ej≤1;步骤6、计算第j项指标的差异系数:对于第j项指标,指标值Xij的差异越大,对方案评价的作用越大,熵值ej就越小;而gj=1-ej,则gj越大指标越重要;步骤7、求权数:步骤8、计算各对象的综合得分:该得分为健康度评估模型所得到的健康值。作为优选,所述步骤五中,所述工作效率评估报告的定义方法为:针对不同上网行为特征属性设计多样化的可视化表达方式,多种可视化表达方式进行布局构成评估报告。作为优选,所述步骤五中,所述工作效率评估报告的定义方法为:针对网址分类情况,绘制雷达图,呈现用户对不同类别网站的访问偏好;对计算得到的网页高频词汇排名TOP50,绘制文字云,呈现该用户最常访问网站信息的关键词,从而定义用户的兴趣爱好;基于数据的时间段分类,绘制条形图,呈现用户一天不同时段,一周不同天次,一月不同天数等不同时间粒度情况下的网页访问次数;针对网页访问时间段统计数据,绘制环形时间轴图,以一天为单位,呈现用户在一天中不同时间段,即早上、中午、下午、傍晚、深夜四个阶段网页的访问次数,从而定义用户的上网习惯;针对用户深夜阶段的网页浏览次数,绘制日历图,以日历的形式呈现用户每天的熬夜情况;针对计算所得的用户上网健康值和用户工作学习专注度,采用红绿渐变色来编码,颜色越绿健康值越高,工作学习越专注。本发明的有益效果在于:本发明针对办公等公共环境下的用户上网行为,巧妙地运用其浏览器历史记录数据,通过以上方法深度发掘分析其背后的价值,定义用户专注度计算方法衡量用户的工作效率和工作专注度,定义用户上网健康度评估模型计算用户上网行为的健康度,最后借助图形界面直观呈现用户的上网行为特征,综合所有行为特征生成用户工作效率评估报告,以此建议更合理的生活作息分配,帮助用户结合兴趣爱好提高工作效率;通过本发明,在办公等公共环境下,用户可以直观地查看自己的工作效率和工作专注度,从而便于组织监管和自我状态调整;本发明运算量小、体积小、效率高,能有效呈现用户上网行为的动态变化特征。附图说明图1是本发明所述基于浏览器历史记录的用户工作效率可视评估方法的整体流程图;图2是本发明中挖掘用户上网行为特征的流程图;图3是本发明中计算用户专注度的流程图;图4是本发明中构建用户上网健康度模型的流程图;图5是本发明中用户工作效率评估报告的示意图。具体实施方式下面结合附图对本发明作进一步说明:如图1所示,本发明所述基于浏览器历史记录的用户工作效率可视评估方法,包括以下步骤:步骤一、自动提取浏览器历史记录数据;步骤二、挖掘用户上网行为特征,以访问时间、网页文本主题、访问频次为主要特征;步骤三、定义工作效率评估方法,计算用户专注度;步骤四、综合包括访问网站类别、专注度的指标构建用户上网健康度模型;步骤五、针对每种上网行为特征属性设计可视化表达方式,以多种可视化元素构成用户的工作效率评估报告。如图2所示,所述步骤二中,所述挖掘用户上网行为特征的方法为:首先通过遍历浏览器历史记录数据的时间属性,分别统计月、周、天、小时这些不同时间粒度的网页访问时间占比分布;再使用Python网络爬虫程序对每条浏览器历史记录数据中url所对应的网站页面文本信息进行爬取并保存文本内容;使用分词算法进行文本分词,使用TF-IDF算法统计各词的频次,得到网页的高频词汇;最后将浏览器历史记录的每条url以正则表达式保留其主站的域名,统计每个域名访问总次数;同时使用爬虫程序爬取站长之家以及ALEXA、SimilarWeb这几个分类库网站,这其中囊括了国内外90%的主流网站,建立网站分类库,将其分为如下六大类别:教育、娱乐、新闻、搜索、购物、社会,利用该分类库对用户浏览器历史网址进行归类,统计每一类网站数量。如图3所示,所述步骤三中,所述计算用户专注度的方法为:将计算得到的网页分类数据,每一条数据按其数值和时间属性在时间轴上模拟打点,若在浏览教育类型网页的某个时间段内,存在一个或者多个访问其它非教育类型网页的时段与之重合,其重叠部分则可以认为工作学习的专注度不足;本步骤更具体的方法为:在一段时间宽度为Ai的工作时段内存在M段离散的重叠区域,设Oj为第j段重叠部分非教育类型网页的访问次数,Ej为第j段重叠部分教育类网页的访问次数,Wj为第j段访问时间重叠部分的时间宽度,则定义为当前Ai工作时间段内专注度的数值衡量;若在整体时间轴上存在N个离散的工作学习时间段,则定义用户完整的专注度为如图4所示,所述步骤四中,所述用户上网健康度模型的构建包括以下步骤:步骤1、将六大类别网站合并成两大类,即有益网站和有害网站,有益网站包括教育、搜索、社会类网站,有害网站包括娱乐、购物、新闻类网站,根据重要程度和影响程度,给六大类别网站赋予依次不同的权重:2、2、1、2、2、1,有益网站的时间之和乘以权重得到有益得分,有害网站的时间之和乘以权重得到有害得分,有益得分记为第一个指标,有害得分记为第二个指标,专注度记为第三个指标;步骤2、根据熵值法建立评估模型:选取n个对象,3项指标即有益得分、有害得分和专注度,构成一个初始矩阵Xij表示为第i个对象的第j个指标的数值;步骤3、数据标准化处理:对于有益得分和专注度,对于有害得分,经上述标准化处理后得到的数据仍记为Xij;步骤4、计算第j项指标下第i个对象占该指标的比重:步骤5、计算第j项指标的熵值:令k=1ln3,则0≤ej≤1;步骤6、计算第j项指标的差异系数:对于第j项指标,指标值Xij的差异越大,对方案评价的作用越大,熵值ej就越小;而gj=1-ej,则gj越大指标越重要;步骤7、求权数:步骤8、计算各对象的综合得分:该得分为健康度评估模型所得到的健康值。如图5所示,所述步骤五中,所述工作效率评估报告的定义方法为:针对不同上网行为特征属性设计多样化的可视化表达方式,多种可视化表达方式进行布局构成评估报告;本步骤更具体的方法为:针对网址分类情况,绘制雷达图,呈现用户对不同类别网站的访问偏好;对计算得到的网页高频词汇排名TOP50,绘制文字云,呈现该用户最常访问网站信息的关键词,从而定义用户的兴趣爱好;基于数据的时间段分类,绘制条形图,呈现用户一天不同时段,一周不同天次,一月不同天数等不同时间粒度情况下的网页访问次数;针对网页访问时间段统计数据,绘制环形时间轴图,以一天为单位,呈现用户在一天中不同时间段,即早上、中午、下午、傍晚、深夜四个阶段网页的访问次数,从而定义用户的上网习惯;针对用户深夜阶段的网页浏览次数,绘制日历图,以日历的形式呈现用户每天的熬夜情况;针对计算所得的用户上网健康值和用户工作学习专注度,采用红绿渐变色来编码,颜色越绿健康值越高,工作学习越专注。说明:上述各步骤的具体描述与附图中的描述不一定完全相同,但内容相互对应,其目的是便于在附图中用简短语言描述具体的方法。上述实施例只是本发明的较佳实施例,并不是对本发明技术方案的限制,只要是不经过创造性劳动即可在上述实施例的基础上实现的技术方案,均应视为落入本发明专利的权利保护范围内。

权利要求:1.一种基于浏览器历史记录的用户工作效率可视评估方法,其特征在于:包括以下步骤:步骤一、自动提取浏览器历史记录数据;步骤二、挖掘用户上网行为特征,以访问时间、网页文本主题、访问频次为主要特征;步骤三、定义工作效率评估方法,计算用户专注度;步骤四、综合包括访问网站类别、专注度的指标构建用户上网健康度模型;步骤五、针对每种上网行为特征属性设计可视化表达方式,以多种可视化元素构成用户的工作效率评估报告。2.根据权利要求1所述的基于浏览器历史记录的用户工作效率可视评估方法,其特征在于:所述步骤二中,所述挖掘用户上网行为特征的方法为:首先通过遍历浏览器历史记录数据的时间属性,分别统计月、周、天、小时这些不同时间粒度的网页访问时间占比分布;再使用Python网络爬虫程序对每条浏览器历史记录数据中url所对应的网站页面文本信息进行爬取并保存文本内容;使用分词算法进行文本分词,使用TF-IDF算法统计各词的频次,得到网页的高频词汇;最后将浏览器历史记录的每条url以正则表达式保留其主站的域名,统计每个域名访问总次数;同时使用爬虫程序爬取主流分类库网站,建立网站分类库,将其分为如下六大类别:教育、娱乐、新闻、搜索、购物、社会,利用该分类库对用户浏览器历史网址进行归类,统计每一类网站数量。3.根据权利要求2所述的基于浏览器历史记录的用户工作效率可视评估方法,其特征在于:所述步骤三中,所述计算用户专注度的方法为:将计算得到的网页分类数据,每一条数据按其数值和时间属性在时间轴上模拟打点,若在浏览教育类型网页的某个时间段内,存在一个或者多个访问其它非教育类型网页的时段与之重合,其重叠部分则可以认为工作学习的专注度不足。4.根据权利要求3所述的基于浏览器历史记录的用户工作效率可视评估方法,其特征在于:所述步骤三中,所述计算用户专注度的方法为:在一段时间宽度为Ai的工作时段内存在M段离散的重叠区域,设Oj为第j段重叠部分非教育类型网页的访问次数,Ej为第j段重叠部分教育类网页的访问次数,Wj为第j段访问时间重叠部分的时间宽度,则定义为当前Ai工作时间段内专注度的数值衡量;若在整体时间轴上存在N个离散的工作学习时间段,则定义用户完整的专注度为5.根据权利要求4所述的基于浏览器历史记录的用户工作效率可视评估方法,其特征在于:所述步骤四中,所述用户上网健康度模型的构建包括以下步骤:步骤1、将六大类别网站合并成两大类,即有益网站和有害网站,有益网站包括教育、搜索、社会类网站,有害网站包括娱乐、购物、新闻类网站,根据重要程度和影响程度,给六大类别网站赋予依次不同的权重:2、2、1、2、2、1,有益网站的时间之和乘以权重得到有益得分,有害网站的时间之和乘以权重得到有害得分,有益得分记为第一个指标,有害得分记为第二个指标,专注度记为第三个指标;步骤2、根据熵值法建立评估模型:选取n个对象,3项指标即有益得分、有害得分和专注度,构成一个初始矩阵Xij表示为第i个对象的第j个指标的数值;步骤3、数据标准化处理:对于有益得分和专注度,对于有害得分,经上述标准化处理后得到的数据仍记为Xij;步骤4、计算第j项指标下第i个对象占该指标的比重:步骤5、计算第j项指标的熵值:令k=1ln3,则0≤ej≤1;步骤6、计算第j项指标的差异系数:对于第j项指标,指标值Xij的差异越大,对方案评价的作用越大,熵值ej就越小;而gj=1-ej,则gj越大指标越重要;步骤7、求权数:步骤8、计算各对象的综合得分:该得分为健康度评估模型所得到的健康值。6.根据权利要求5所述的基于浏览器历史记录的用户工作效率可视评估方法,其特征在于:所述步骤五中,所述工作效率评估报告的定义方法为:针对不同上网行为特征属性设计多样化的可视化表达方式,多种可视化表达方式进行布局构成评估报告。7.根据权利要求6所述的基于浏览器历史记录的用户工作效率可视评估方法,其特征在于:所述步骤五中,所述工作效率评估报告的定义方法为:针对网址分类情况,绘制雷达图,呈现用户对不同类别网站的访问偏好;对计算得到的网页高频词汇排名TOP50,绘制文字云,呈现该用户最常访问网站信息的关键词,从而定义用户的兴趣爱好;基于数据的时间段分类,绘制条形图,呈现用户一天不同时段,一周不同天次,一月不同天数等不同时间粒度情况下的网页访问次数;针对网页访问时间段统计数据,绘制环形时间轴图,以一天为单位,呈现用户在一天中不同时间段,即早上、中午、下午、傍晚、深夜四个阶段网页的访问次数,从而定义用户的上网习惯;针对用户深夜阶段的网页浏览次数,绘制日历图,以日历的形式呈现用户每天的熬夜情况;针对计算所得的用户上网健康值和用户工作学习专注度,采用红绿渐变色来编码,颜色越绿健康值越高,工作学习越专注。

百度查询: 西南科技大学 基于浏览器历史记录的用户工作效率可视评估方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。