构建高校大数据分析平台的探索——以上海公安高等专科学校为例
基于Hadoop技术的公安院校大数据分析平台自下而上分为三个部分,分别为:数据层、大数据采集与存储、数据分析及展示。
(1)数据层,针对不同系统进行分析,制定系统数据采集范围与目标,收集本校在日常管理和教学中的产生的各类数据,将各种结构化和非结构化数据进行整合,为大数据的分析提供支撑。
(2)大数据采集与存储旨在为各类异构数据研制适配接口,与校内其他各系统对接,并为数据提供适配、转换、存储等基本管理功能,基本步骤包括:
a.数据抽取:针对大数据分析平台需要采集的各类数据,分别有针对性地研制适配接口。对于已有的信息系统,研发对应的接口模块与各信息系统对接,不能实现数据共享接口的系统通过ETL工具进行数据采集,支持多种类型数据库,如SQL SERVER, ORACLE, ACCESS等学校系统数据库,按照相应规范对数据进行清洗转换,从而实现数据的统一存储管理。对于其他数据,需要具体根据数据情况实现相关接口,利用对应接口获取相关数据信息,进而完成数据的抽取。
b、数据预处理:为使大数据分析平台的MAPREDUCE算法能更方便对数据进行处理,同时为了使得数据的存储机制扩展性、容错性更好,需要把通过数据按照相应关联性进行组合,并将据转化为文本格式,作为文件存储下来。
c、数据存储:为了提升数据存储的扩展性和容错性,采用主流的大数据框架Hadoop的HDFS文件系统对学校的各类数据统一进行文本化存储,数据按相应规则存储,实现每日保存一套完整数据文件集,形成数据仓库。
(3)数据分析和展示是核心业务层,通过数据报表工具,根据需求制定多样的,针对性的数据报表。通过基于的Hadoop的MapReduce编程模型实现的数据分析系统,针对存储的数据进行数据处理、算法运行、结果转换操作,将结果保存为报表文件,每日形成的报表文件集。报表展现系统将生成的报表文件以可视化方式进行展现。
4.大数据分析平台中的关键技术
大数据平台的构建借鉴了开源系统的先进理念,采用了Hadoop开源系统,充分利用 HDFS的可靠性,MapReduce的引入大大加强了平台在数据分析方面的弹性,使平台在可扩展性、可靠性、易用性和性能方面都有良好的表现。
(1)Hadoop技术
Hadoop框架是一个开源的大规模数据处理平台和工具,主要来源于Google公司提出的MapReduce编程框架,GFS文件系统以及BigTable存储系统等技术[1]。Hadoop具有庞大的家族体系,本平台的构建主要涉及到Hadoop框架的分布式文件系统HDFS和MapReduce模型。分布式文件系统作为Hadoop框架的底层,主要负责分析数据的分布式存储和管理,MapReduce模型主要是负责对大规模数据集进行计算处理。Hadoop釆用HDFS文件系统子框架来实现其所具有的存储能力,用MapReduce编程模型框架来实现其计算能力,二者的巧妙结合使得Hadoop拥有高效的存储和计算能力。
(2)HDFS技术
HDFS分布式文件系统是对大规模数据实现分布式存储和管理的有效工具,也是分布式计算的存储基础,具有很高的容错性和扩展性,并且对数据读写提供了的高吞吐率[1]。HDFS实现了数据的分布式存储,使得应用程序能够更加灵活地访问大规模的数据集,同时也为后续对大规模数据的分析提供了数据平台[5]。HDFS分布式文件系统釆用的是典型的主/从结构,这种结构极大的简化了系统的架构,使得系统更加简洁,方便系统的管理。Hadoop的分布式文件系统HDFS主要由主控制器和数据节点组成,主控制器管理名字空间和数据节点,同时管理数据块到数据节点DataNode的映射等。文件系统中的DataNode作为数据节点,主要存储实际的数据,主要负责所在的物理结点上的存储管理,执行主控制器下达的命令。数据节点能够及时接收客户发送的读写请求,并针对这些请求完成相应的操作。从分布式文件系统的结构内部来看,数据文件被存储分割成多个数据块存储在每个数据节点上,每个数据节点存储着来自多个文件的数据块,同时每个数据节点上也会存储这些数据块的多份副本,保证后续数据操作的准确性。
(3)MapReduce技术
MapReduce技术基于分布式文件系统,通过编写相应的处理过程能够实现对大规模数据集进行并行计算和处理,通过对不同分析模块编写相关的MapReduce处理函数能够实现对大规模数据的精确分析,同时能够控制各个节点之间完成高效的任务调度[5]。MapReduce通过将操作分发给网络上的各个节点,每个节点会周期性的返回它所完成的工作和最新的状态,从而实现对大规模数据集的操作,这种处理方式保证了操作的可靠性[5]。MapReduce技术处理的方式是,首先将一个具体的任务分解成为若干个很小的任务,然后将分解后的任务分配到各个分节点,通过主节点来对分节点的任务进行管理和调度,然后得到分节点处理后的结果,再将结果整合,得到最终结果,通过多个节点之间的相互合作和调度,从而实现对大规模数据集的计算和处理。总的说来,MapReduce就是基于“分而治之”的思想实现“任务的分解与结果的汇总”。
四、利用大数据,实现教学和管理的全面创新
构建公安院校大数据分析平台是以我校战略发展规划为蓝本,以我校信息化建设纲要为依据而进行的创新性探索。以大数据建设顶层设计为基础,收集整合公安教育各方面所产生数据,从数据中提取出有价值的信息和模型,推动公安教育的全面创新。
1.开展大数据顶层设计,以大数据应用全面推进学校发展
大数据将成为推进学校发展的新动力,通过开展大数据顶层设计,对大数据获取、收集、整理、利用进行全面规划,从应用需求出发,明确建设目的和路径,明确什么要做,什么不要做,什么应该先做,什么应该后做,用什么模式做,做到什么程度,达到什么效果,以指导学校未来3-5年的大数据建设。
2.快速推进教学和管理工作的信息化,建立丰富的数据来源
用大数据方法全面分析现有教学和管理工作,新建或升级信息系统,对教学和管理实现全过程记录,建立丰富的数据收集渠道。如通过对现有远程教育系统进行全面升级,跳出远程教育的概念,实现对教学过程的全面支持,详细记录每个学生的学习行为数据,包括课程学习数据、视频观看数据、资料查阅数据、作业完成数据、互动交流数据、成绩数据等,将数据细分到每个行为细节,以提供超越传统系统的数据精细度,客观地反映出学习的实际状况。通过建立物联网应用,实现对物品、人员、安全等各方面管理的强大支撑,提升管理质量的同时积累大量管理数据和行为数据。
3.基于个性化服务需求,建立大数据分析模型
提供优秀的个性化服务是教育和管理的重要目标之一,大数据应用则是提供规模个性化服务的必要条件,而大数据分析模型的质量决定了数据的价值。一个平时被忽略的数据在好的模型中,会产生难以想象的作用。我们可以通过对学习行为数据的分析,了解学生的学习兴趣和学习效果,研究哪些学习方式是最容易被接受的,哪些课程的设计是最受欢迎的,或具体到某个作业问题回答的正确率以及横向和纵向的比较,并深层次的展现出其中的原因。这些数据被提供给教师,将对教学创新提供最为直接的支撑。通过对一卡通行为数据的分析,可以了解学生的日常行为规律和消费规律,了解学生行为与学习成绩、学校效果之间的关联关系,提供学生管理创新的依据。
4.综合应用大数据成果,推动学校全面创新
通过大数据的综合应用,可以建立对各项教育和管理工作的分析和判断,应用到实际工作中,从各个方面推动学校全面创新。
通过对教学过程、学习行为、学习成绩、教学满意度、教师需求量、专业师资质量、专业成熟度、行动轨迹等综合分析,建立教师画像、学生画像、专业画像,直观了解优势和不足,预测发展状况。
通过对学生人数、宿舍分配、教室使用、能源消耗、网络消耗、食堂消费、图书馆利用等进行综合分析,建立各资源利用率指数,实现数据可视化,引导管理工作的精细化和管理的扁平化。
通过对一卡通、图书借阅、专业分布、课程分布、成绩、学习行为等进行聚类分析,发现具有某些特征的特殊群体及其独有的行为方式,并利用相关性数据进行挖掘,从中发现规律。
通过对教学数据、教学效果、考勤记录、个人数据、管理数据进行综合分析,建立科学的、真实客观的教师绩效评价体系,改变传统人为评价的主观性,让大数据选出真正优秀的教师。
五、结语
构建高校大数据分析平台是个具有开拓性的实践探索,在高校中具有广阔的应用前景。我校目前还处于初步规划的阶段,我们将加强与行业公司、科研机构的合作,在大数据分析平台构建方面进行深入探索,从公安教育信息化发展的实际出发,采用当前先进的工具和技术,构建出体现上海公安教育特色,同时在普通高校又具有通用性的大数据分析平台。
参考文献:
[1]赵刚.大数据:技术与应用实践指南[M].北京:电子工业出版社,2013:4.
[2]周飞,石晋杰,崔磊.“大数据”时代的公安工作初探[J].上海公安高等专科学校学报,2013,23(2):34-37.
[3]宓詠,赵泽宇,大数据创新智慧校园服务[J].中国教育信息化,2013(24): 3-7.
[4]王慧锋,房一泉,陈晓宁.建设智能云数据服务平台让高校大数据“说话”:提升学校核心竞争力[J].华东师范大学学报(自然科学版),2015(S1).
[5]潘奇.基于Hadoop技术的高校学生行为分析系统研究与实现[D].北京邮电大学,2014
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性质的教育和科研之目的,并不意味着赞同其观点或者证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。