高校数据共享交换平台的应用与展望
截止2015年12月31日,我校数据交换共享平台在运任务42个,涉及到十个系统,包括财务数据同步、资产数据同步、教务数据同步、一卡通同步、科研数据同步和多媒体教学信息同步。其中,财务系统同步任务共执行819次,资产设备同步任务共执行748次,教务系统教务成绩同步任务共执行714次,教务上课授课同步任务共执行714次,等等。2015年,所有数据同步任务共运行6182次,交换数据量约15个T。
3.完善数据展现
完成数据整合后,如何对积累的海量数据进行有效利用,充分挖掘其潜在价值是首要问题。按照教育信息化建设移动化、智能化、云化的趋势,从数据的使用方式、新媒体展现形式、数据可视化等多角度来完善数据表现,不断加强信息技术与广大师生教育教学、科研管理、公共服务等业务的深度融合。
(1)多层面多角度的数据使用
采用推送(订购),拉取(查询)等形式,用综合查询、大数据综合分析等形式为各级用户服务。如各级管理者使用的通用查询工具、数据管理服务、数据订购服务、数据分析服务等。
(2)多种新媒体形式的数据展现
除了传统的PC端数据展示之外,如何在现有移动信息化技术之后出现的多种新媒体形式,包括微信、微博、移动智能终端的进行数据展现,例如与微信平台、移动校园APP的结合,实现信息anyone,anywhere,anytime随时可达,是下一阶段工作的重点。
(3)数据可视化
在Hadoop上将HDFS存储的PB级的海量数据利用MapReduce处理之后,数据容量缩小为GB级,然后利用R语言等类似工具进行分析研究,最终转化为能为决策支持提供支撑的KB级数据,这依赖于Tableau等数据可视化工具。数据的收集、存贮、转换、筛选、分析、归纳,一切都为最终的展示服务,数据可视化工具能够以一种简便易用的方式将复杂的数据呈现出来,使用户更容易理解,并做出决策。
五、应用特点
1.架构合理,数据可控
以数据共享交换平台为核心,依托ETL技术实现数据的共享与交换,采用星形模型是最常用的实现模式,它使整个数字化校园形成了一个松耦合集成系统,实现数据调度任务的运行、监控、维护,整体系统灵活、安全、可控。
如图6所示,首先,星形架构采用不同业务系统与数据交换共享平台直接联接,而不必把多业务系统充分网状互联,建设成本低,投入小,复杂度较小,易于后期的管理维护。其次,整体系统松耦合,因为采取同步模式实现数据统一,独立业务系统故障不影响其他系统,单点故障不会对整体数字化校园系统造成冲击。最后,当某一业务系统升级或者替换,其基础数据格式、内容将发生变化,只需通过ETL调整其与数据共享交换平台的接口,并不影响与其相关的其他业务系统的正常操作,实现成本低、效率高。
2.操作简单,体验良好
目前,高校的传统业务系统并不兼容,彼此之间难以实现数据共享交流。我校使用的开源的ETL工具Kettle具有基于Java的图形化界面,支持拖拽等方式的可视化设计,能方便使用者便捷地对从业务系统抽取到的数据进行传输、清洗和加载等。同时,ETL屏蔽了应用系统中较为复杂的业务逻辑,为基于数据仓库的分析和应用提供了统一的数据接口。利用数据共享与交换平台,ETL在不同的业务系统之间搭建了一座桥梁,实现数据、业务的互联互通。
3.良好的弹性与可扩充性
数据共享交换平台的核心为ETL技术,具有良好的可扩充性。首先,ETL提供了一些可扩展组件以支持某些ETL定制逻辑的实现,同时支持自定义的SQL查询、JavaScript和正则表达式等,可自行定制开发相关组件满足学校业务逻辑的需要。另外,ETL技术支持典型的结构化数据库系统以及非结构化数据,作为应用广泛的开源工具,典型的分布式大数据架构、数据立方体等数据源也都可以处理,整体架构具备良好的可扩充性。
六、下一步计划
随着人工智能与数据库相关技术的发展,在做好数据清洗与整合的基础上,有效地应用数据挖掘手段进一步处理数据、分析数据,近年来,高校大数据挖掘与分析也成为技术研究的热点。在完成数据整合的基础上,不仅能完成传统的数据库的数据查询、统计、录入等功能,利用数据挖掘技术还可以发现数据中的隐含规则和潜在联系,而且可以通过多种有效手段对数据进行分析、对未来的发展进行预判以及对可能出现的问题进行防范。
1.数据挖掘基本概述
数据挖掘(Data Mining)一般是指在数据库或数据仓库中,利用各种分析方法与技术,对过去累积的大量繁杂数据进行分析、归纳与整合等工作,提取出有用的信息,例如趋势、模式及相关性等,并将其中有价值的信息作为决策参考提供给决策者。通俗地说,数据挖掘就是从数据中发掘信息或知识。[3]
目前,数据挖掘技术已被广泛应用于医疗、商业、科研、金融、工程管理等领域。在高校中引入数据挖掘技术,可以加快推进学校管理方式的转变,即以科学管理方式取代传统管理方式,提高高校管理质量和教学水平,提升人才培养效果,有效增强学校竞争力。
2.数据挖掘的方法
(1)关联分析
关联规则的挖掘主要有两个步骤:首先是要从数据集合中找到频繁项集,然后通过找到的频繁项集产生关联规则。
关联规则挖掘的第一阶段,必须从数据集合中,根据某一项目出现的频率来找到隐含的频繁项集,其中某项目组出现的频率称为支持度,只要某项集的支持度超过初始设定的最小支持度时,就算找到了频繁项集,然后再继续寻找下一个集合。
关联规则挖掘的第二阶段,是找到频繁项集中产生的关联规则。系统预先设定一个最小信度,如果某一规则得到的信度超过最小信度,就称这个规则为关联规则。
(2)决策树方法
决策树的输入是一组带有类别标记的样本,最终会生成一棵二叉树或多叉树,节点、叶子和分支是它的基本组成部分。决策树方法主要分为决策树生成和决策树剪枝这两个步骤。
决策树的顶端节点叫做根节点,一切决策的过程是从根节点开始的。然后根据系统的需要和特定算法创建子节点,最末端的节点成为叶子。在决策树的分析过程中,每个节点都会遇到问题,对于问题的不同回答就产生不同的分支,直到最后产生叶子节点。这就是决策树分类的整个过程。
(3)遗传算法
遗传算法是由生物进化的过程演变而来的一种算法,含有三个基本过程(算子):选择(繁殖),在旧的种群中选出具有较强生命力的个体,产生新的种群;重组(交叉),选择两个不同个体,转换它们之间的部分基因,产生新的个体;突变(变异),通过对个体进行某些基因的基因突变(1变成0,0变成1)产生新的个体。
3.数据挖掘的目标
数据挖掘的目标是从数据库中发现隐含的,有意义的知识,其主要功能有概念(类)描述、预测趋势、关联分析、聚类、偏差检测、演化分析等。下面以概念(类)描述、预测趋势、关联分析这三个主要功能,结合高校实际情况进行分析:
(1)概念(类)描述
是指通过数据区分、数据特征化比较可以得到对数据的概念或类的描述,简单来说就是对某类对象的内涵进行描述,并概括这类对象的有关特征。
例如:通过对学生基本信息数据进行数据挖掘后,我们可以将接受助学贷款、参加勤工助学、有欠缴费记录等信息的学生划分为经济困难的学生这一类别,并授权就业指导中心、各学院院办等部门在数据共享交换平台查看学生名单,以帮助辅导员更有针对性地了解个别学生生活情况,积极帮助这类学生参加勤工助学、社会实习工作等。
(2)预测趋势
是指通过建立区分概念或数据类别的函数、模型,对未知的对象进行类别预测并加以标记。数据挖掘可以自动在数据库中寻找预测性信息,以往需要通过大量手工分析解决的问题如今可以迅速通过数据得出结论。
例如:对历年学生选课时间、选课人数等数据进行数据挖掘后,系统可以自动监测到学生选课高峰期、某热门课程等,可以为学校合理规划选课时间,合理安排教室等做出预测、规划。
(3)关联分析
大量的数据中存在的某些可被发现的有用知识就是数据关联。很多数据库中都存在着数据关联,但并不为人所知,因此关联就是希望找到隐藏在数据库中的规律和有用的知识。
例如:将每位学生视为一个数据对象,将其学习成绩、在校表现、奖惩情况等属性视为该数据对象的不同数据维度,进行多维数据关联后,可以构建学生考核、测评标准,建立评价指标体系,对学生进行科学测评,减少传统测评中的人为干扰,使对学生的评价更为客观、全面和科学,同时也更加便利。
我校的数据共享交换平台存储了非常丰富的教学、科研、管理等各方面的信息,范围宽广,数据复杂,一方面为我们提供了大量可供研究的数据,另一方面在目标的选择、数据的取舍、算法的性能等方面又向我们提出了很大的挑战。
随着数据挖掘技术的不断进步,我们希望未来可以透过数据表面,分析得到其内在本质,获得更有价值的信息,用更加科学系统的方法对学校的信息资源加以利用,优化资源配置、提高教学质量、提高学校综合实力。
参考文献:
[1]戚丽,蒋东兴,武海平.校园数据中心建设与管理方法的探索[J].中国教育信息化(高教职教),2002(7):54-55.
[2]丁智君.高校数字化校园的数据中心平台建设[D].上海:复旦大学,2009.
[3]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2007.3:88-100.
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性质的教育和科研之目的,并不意味着赞同其观点或者证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。