当今社会已经步入大数据时代,数据分析已经成为各应用领域的重要技术,高校数据分析课程的开设也应运而生,数据挖掘课程综合了多门学科知识,该课程既包括各种理论知识,又离不开相关的实践技术,整个教学过程是培养和提高学生的创新能力及综合解决问题的能力。以往的教学过程理论性强,枯燥乏味,学生学习热情普遍不高,不利于学生专业能力的培养。
大数据整合平台是由广州泰迪智能科技有限公司自主研发,面向高校数据分析课程教学的数据整合工具。平台使用java语言开发,采用b/s结构,用户不需要下载客户端,可通过浏览器进行访问。平台将功能进行封装,采用图形用户界面的形式呈现,用户可在没有编程基础的情况下,通过拖拽的方式进行操作,将数据抽取、数据清洗、数据合并等环节通过流程化的方式进行连接,以达到数据整合的目的。
平台以实际数据分析案例为切入点,对老师而言,老师在使用平台进行教学时,可以讲授数据整合与预处理基本流程、帮助学生建立数据整合的工程化思维。对学生而言,只需理解每个功能的作用,无需编程,即可实现数据整合与预处理,简单易用,并能提高数据处理效率,大大降低了学习大数据整合与预处理的门槛,让学生对数据整合有了更感性的认识,激发学生的学习兴趣。
产品主要由转换模块、作业模块[1]、工程模块、任务调度模块、接口拓展模块构成,如图1所示。
图1产品构成
(1) 平台去编程,可快速上手。平台采用图形用户界面,操作简单易用,无需进行编程操作,使用门槛低。通过图形界面设计实现做什么业务,无需写代码去实现
图2基本操作
(2) 支持多种文件类型,可整合各类数据。平台支持抽取数据库、文本文件等各类源的数据,将各类数据进行整合,统一处理、储存。
图3输入输出
(3) 配置丰富的公式,可快速构建指标。平台配置四则运算、时间运算、平方根、取整、百分比等公式,可根据单一字段或多个字段构建新指标。
图4函数计算
(4) 数据分组聚合,可按需求进行统计。平台支持对数据进行多种方式的分组聚合,根据分析需求对数据进行统计。
图5分组
(5) 支持转换各个组件的步骤度量。对个步骤进行查看名称,复制的记录、度、写、输入、更新、拒绝、错误的理及数目,激活状态,完成时间,速度等信息查看。
图6步骤度量
(6) 支持按照调度方式实现数据同步(同步周期最小为秒级)。平台提供自动调度、人工调度等调度方式,并且在调度中支持参数输入。
图7任务调度
选择表输入,双击组件进行编辑。
在数据库连接中,点击指定连接,如图4‑1所示。
图4‑1数据库连接
2. 在sql中,点击获取sql查询语句,选择订单列表(order_list),弹出字段读取提示,点击“是”,如图4‑2、图4‑3所示。
图4‑2选择订单数据表
图4‑3选择字段
点击确定。如图4‑4所示。
图4‑4完成表输入编辑
选择排序记录,双击组件进行编辑。选择如图4‑5所示。
1. 在字段中,点击添加一行。
2. 字段名称选择“createtime”。
3. 升序选择“否”。
4. 完成编辑,点击确定。
图4‑5排序记录
选择剪切字符串,双击组件进行编辑。
1. 在要剪切的字段中,点击添加一行。
2. 输入流字段选择“createtime”。
3. 输出流字段输入“create_date”。
4. 起始位置输入“0”。
5. 结束位置输入“10”。
6. 完成编辑,点击确定。
选择如图4‑6所示。
图4‑6剪切字符串
选择分组,双击组件进行编辑。
1. 在构建分组的字段中,点击添加一行。
2. 字段名称选择“create_date”。
如图4‑7所示。
图4‑7构建日销售金额指标
3. 在聚合中,点击添加一行。
4. 字段名称输入“sales_day”。
5. subject选择“paytotalprice”。
6. 类型选择“sum”。
7. 完成编辑,点击确定。如图4‑8所示。
图4‑8完成分组编辑
选择表输出,双击组件进行编辑。
1. 在数据库连接中,点击指定连接。
2. 在目标表中,选择指定数据表(total_daysales)。
3. 完成编辑,点击确定。
选择如图4‑9所示。
图4‑9表输出