职称数据之可视化概述及挖掘

国学论文计算机论文

职称数据之可视化概述及挖掘

往事如风围观:℉更新时间:12-18 11:57

职称数据之可视化概述及挖掘

第一章 绪论

1.1 论文的研究背景及意义

科学计算可视化[1]是 80 年代后期提出的一个新的研究领域, 它涉及计算机图形学、计算机辅助设计、图像处理、人机交互及计算机视觉等多个领域,它广泛应用于地质勘探、医学、分子生物学、气象预报、核科学等领域。科学计算可视化的实质是运用计算机图形学和图像处理技术, 将科学计算过程中产生的数据及计算结果转换为图像, 在屏幕上显示出来并进行交互处理, 其核心是三维数据场的可视化。在这三十多年间,可视化技术飞速发展,在各学科也得到了广泛应用。现在又把科学计算可视化;、信息可视化;和可视分析学;这三个分支整合在一起叫做数据可视化;。

长期以来,新疆的职称评审工作都是通过纸质材料进行。为了提高职称评审管理工作信息化水平,新疆人社厅与新疆电子研究所合作开发了 专业技术人员职称评审系统;。

在职称申报及评审过程中,会产生了大量的离散数据,它们体现着申报人的科研能力、实践能力、业绩成果等诸多方面的能力。对这些数据的有效处理,能够为新疆特色的职称评定工作提供依据。而数据的可视化与挖掘,又能让决策制定者跳出繁琐的海量数据,直观形象的了解数据的走势和各类数据间的关系。可见,职称数据的可视化与挖掘工作对职称申报工作具有重要意义。

本人参于了新疆电子研究所项目组的部分研究工作,主要进行了部分职称数据的发掘与可视化展示,论文数据来自新疆维吾尔自治区专业技术人员职称申报平台。

1.2 国内外研究现状

1986 年底,科学计算可视化第一次被美国提出。自此之后,各国竞相展开了可视化理论与方法的研究,并将诸多研究成果应用于各个科学与工程项目。随着研究的深入,可视化研究不再仅限于工程领域,也在社科、艺术工艺、生物信息等领域取得了长足进展。而且可视化研究的数据范围不再仅限于局部区域和国家,而是逐渐变成一个全球协同完成超大规模数据的形式。

目前,国外的可视化研究着重在于大数据、动态交互、多学科交叉等方面,在新一代可视方法、可视对象、可视工具等基础方法上也在不断进步。

在 2007 年,美国四所大学和两个能源部国家实验室共同成立超大规模数据可视化(Ultra-scale Visualization)研究所,马匡六(WAN-LIU MA)教授任所长与首席科学家。该项目由美国能源部资助超过 900万美元,旨在应对百亿亿规模计算的需求,是美国历史上在可视化领域最大的单笔科研经费投入。2021 年,在名为《大数据促发展:挑战与机遇》的白皮书中,联合国指出大数据对于联合国和各国政府来说是一个历史性的机遇,各国应利用包括社交网络在内的大数据资源造福人类。设计公司Hyperat和Eene Ijeoma开发的全球难民数据计划,该项目整合了来自联合国难民事物高级办事处(UNHCR)最近40年的难民流动数据以及联合国全球人口数据,并在一张互动可视化图表中动态呈现。通过该系统,用户选中任意年份或者地区就可以直观地看到难民如何从世界的冲突地点逃向其它地方,并且能一目了然的看到他们流向了哪里,有多少数量,所占人口比例等数据。这是迄今为止最全面、最强大的难民数据可视化项目。

第二章 可视化技术

2.1 可视化技术的分类

数据可视化的分类对相关理论与技术的研究有着重大意义,已有一些学者发表了他们的观点。其中一种比较实用的分类方法是按照可视化的数据类型、可视化技术类型、交互和变换技术类型进行分类。

2.1.1 可视化数据的类型

综合考虑数据的类型、维数、表述方式、表现形式等特征与属性,可视化数据的类型可以分为一维数据、二维数据、多维数据、文本与超文本、层次与图形、算法和软件等。

(1) 一维数据

一维数据指只有一个维度的数据,一般用一维坐标轴上的点表示。在职称数据中,申请书数量、申请人名称、申请人专业等都是一维数据。单看申请书数量、申请人名称、申请人专业等一维数据是很不具象的,如给你一个申请书的数量3333,你只能知道有 3333 份申请书。这是什么专业的申请书,哪个地州的申请书等问题将浮现在你的脑海。可见,单纯的一维数据善于做各种记录,而不善于展示数据。

(2) 二维数据

二维数据指具有两个数据维度的数据,通常使用二维坐标系进行展示。在职称数据中有很多二维数据,比如:日登陆新疆维吾尔自治区专业技术人员职称评定系统的人数。该数据是典型的二维数据,拟用时间作为 X轴,人数作为 Y轴,就能将这个二维数据展示在二维坐标系上。地理信息也具有二维属性,它们是靠经纬度唯一标识地图上的每个点。

(3) 多维数据

多维数据是指多于两个维度的数据。多维数据在数据可视化和挖掘中经常使用,如:职称数据中的申请书,它包括学历、任职年限、论文著(翻)作数量、年终考核、科研项目、实践项目、业绩成果、是否通过和专家打分,这是一个 9维数据。通常多维的数据都需要先通过可视化技术映射到二、三维空间,然后才能进行可视化处理。主成分分析[和因子分析都是降低数据维度有效方法,它们能将多维的数据降低到低维数据,从而进行可视化处理。

2.2 可视化开发工具

目前国际上流行的可视化工具很多,在图表方面有 Google Chart API、DEV Express、Flot 等;在地图方面有 Google map API、OpenLayers、Visual Earth 等;综合的工具有 R,Gephi,D3,Circos 等。其中,DEV express 是完全收费的,Google map API 是按条件收费,其余是免费的。本文根据业务系统功能需求,采用了R、Circos 、DEV Express、Google map API、Gephi 等软件。

2.2.1 R 语言简介

R 语言是主要用于统计分析、绘图的语言和操作环境。R 本来是新西兰奥克兰大学的Ross Ihaa 和Robert Gentleman 共同开发的(也因此称为R),现在由R 开发核心团队;负责开发。 R 是基于S 语言的一个 GNU项目,所以也可以当作 S 语言的一种实现,通常用 S 语言编写的代码都可以不作修改的在 R 环境下运行。 R 的语法是来自 Scheme,目前版本是 3.0.3。

R 内建多种统计学及数字分析功能。因为 S 的血缘,R 比其他统计学或数学专用的编程语言有更强的物件导向(面向对象程序设计)功能。R 的另一强项是绘图功能,制图具有印刷的质感,也可加入数学符号。虽然 R 主要用于统计分析或者开发统计相关的软件,但也有人用作矩阵计算。其分析速度可媲美 GNU Octave甚至商业软件 MATLAB。

第三章 职称数据的可视化分析............10

3.1 对比分析 ............ 10

3.2 区域分析 ............ 12

第四章 基于Circos 的可视化流图的实现 ................ 17

4.1 Circos 配置 ....................... 17

4.2 配置数据文件 ...............18

第五章 专家量化赋分的预测模型.......... 24

5.1 项目规划 .............. 24

5.2 数据预处理 .................... 26

第五章 专家量化赋分的预测模型

新疆维吾尔自治区专业技术人员职称申报平台存有大量的专业技术人员的数据,通过对这大量的数据进行处理和挖掘,能够得到高度真实、符合实际的有效信息。本章以对新疆职称申请平台的专家赋分情况进行可视化与挖掘为例,详细介绍职称数据的可视化挖掘。数据可视化挖掘的大致步骤如下图所示:

本章将遵循这个流程并利用R 语言,来介绍数据可视化与挖掘的全过程。

第六章 总结与展望

6.1 总结

新疆维吾尔自治区是一个多民族共居的民族自治区,地处祖国大西北,为了引进并留住人才,新疆维吾尔自治区高度重视人才职称评定工作,切实保证有能力、处于一线的人才的职称评定工作。在这一系列工作中,新疆维吾尔自治区专业技术人员职称评定系统的建立无疑是颇为突出的一点。随着两年时间的发展和壮大,新疆维吾尔自治区专业技术人员职称评定系统可参评的专业不断增加,在这个过程中产生了大量数据。如何分析和利用这些数据,不让它们永远躺在冰冷的硬盘中,是新疆维吾尔自治区专业技术人员职称评定系统面临的一个问题。本文是本人在新疆电子研究所有限公司实习期间参与公司科研项目的总结,尝试使用可视化与数据挖掘结合的方法去分析这些职称数据,并希望通过分析能对职称申请的某些规律进行研究。在这期间主要工作如下:

1) 利用多元的可视化方法对 2021 年产生的职称数据进行可视化分析。秉承简洁直观、全面的原则,针对不同的数据进行了不同的可视化工作,包括: 对比分析、区域分析、数据流向分析、专业申报结构分析、评定结果分析,试图将职称数据全面无死角的展现在用户前面。

2) 利用 R 语言对职称数据中的专家量化赋分与申请人各个指标间的关系进行分析,尝试为职称数据的专家量化赋分构建预测模型。其间,通过对职称数据整体的可视化分析,观测到了一些职称申请人与专家量化赋分的关系。最后,根据这些关系决定使用多元线性回归分析和回归树分析构建专家量化赋分模型,并对构建的两种模型进行了对比分析和组合分析。最终得到具有较好预测性能的组合模型。

参考文献(略)

标签:历史上

标题:职称数据之可视化概述及挖掘

链接:http://m.zhaichaow.cn/lunwen/jisuanji/429292.html