主办单位: | 泰迪杯数据挖掘挑战赛组委会 |
承办单位: | 广东泰迪智能科技股份有限公司 |
协办单位: | 人民邮电出版社有限公司 |
北京泰迪云智信息技术研究院 |
互联网、云计算、大数据等现代信息技术深刻改变着人类的思维、生产、生活、学习乃至思维方式,深刻展示了世界发展的前景。目前各院校的大数据和人工智能专业教师匮乏、相关落地动手实战应用能力欠缺、授课过程中相关行业实战案例项目缺失等,为加快建设大数据、人工智能专业教师队伍,推动各院校建立大数据人才培训体系和评价体系,特推出全国高校大数据与人工智能师资研修班。本研修班每年在全国范围内滚动开展八期,截止目前已在全国巡回举办50余场,参训教师近6000人次。2021年第四期全国高校大数据与人工智能师资研修班开设七大专题方向,以线上云课堂形式举办,这七大专题方向分别是:专题一 python金融数据分析实战;专题二 python网络爬虫与数据处理实战;专题三 ; 专题四 python机器学习应用于实战;专题五 hadoop spark大数据技术应用实战;专题六 深度学习实战(计算机视觉方向);专题七 深度学习实战(自然语言处理方向)。现将有关详细安排通知如下:
一、课程特色
1、本研修班课程全程强调动手实操,内容以代码落地为主,以理论讲解为根,以公式推导为辅,通过讲解企业级案例,真正的让学员把所学内容和工作实际有效结合、更好地进行教育教学工作。
2、核心课程部分由讲师手把手一起进行实操演练,在具体应用场景中全面掌握相关技能,助力实训教学工作、实际动手的能力。视频制作精良,讲师真人出镜,全面解析专业必备技能,伟相关课程开设和备课、应对科研和项目开发打下坚实基础。
3、课程设有答疑交流讨论群,培训期间助教全程辅助教学,每天提供10小时的实时在线答疑辅导,并进行答疑文档汇总,帮助学员更好地总结学习。
4、本课程配套有基础知识内容,即使零基础学员也能找到适合自己的学习内容和节奏,快速掌握课程知识和技能。
5、所有课程相关源代码、数据、ppt、案例素材全部提供下载,即学即用,教学更轻松!视频内容支持六个月内免费回看,以便复习和参考。
6、全面实践大数据/人工智能项目流程,包括数据采集、数据存储管理、数据探索、数据处理、特征工程、数据建模等课程,提供知识讲解,助力夯实理论基础,掌握核心技术。
7、参加线上课程学习的学员,如后续本人参加线下课程继续深造,持线上缴费凭证可享受一次免费学习机会(仅限参加同一培训专题方向的线下课程)。
二、课程安排
专题五 hadoop spark大数据技术应用实战 | 学习时间 7月20日 - 8月1日,共计104学时 |
证书颁发:高级大数据技术应用职业技术证书 | 费用:2980元(报名费、学习费、资料费、证书费等) |
课程模块:linux操作系统基础、mysql基础、java编程基础、hadoop大数据基础、hive大数据仓库、hbase非关系型数据库、综合实战:航空客户乘机数据预处理、scala编程基础、spark大数据分析基础; 项目实战:广电大数据用户画像(hadoop spark hive); 拓展课程:zookeeper分布式服务框架、flume大数据采集于传输、kafka大数据流处理、flink大数据实时处理、商品实时推荐系统(flume kafka flink)。详见附件五 hadoop spark大数据技术应用实战课程大纲 |
三、师资介绍
樊老师 广东泰迪智能科技股份有限公司特聘讲师,某国际银行大数据开发工程师,hortonworks授权apache hadoop开发者认证培训讲师,hadoop、mahout技术实践者和研究者;对hadoop的mapreduce编程模型有深刻理解,同时对mahout技术有较深认识和理解,对mahout源码有深入研究,擅于mahout中数据挖掘的k均值聚类算法、贝叶斯分类算法、fp树关联规则算法的应用;主编《mahout算法解析与案例实战》、《hadoop数据分析与挖掘实战》、《》等图书专著;具有电信行业和银行也得项目经验和行业知识,主持中国电科院电力大数据平台、电能量数据挖掘与智能分析、客户服务智能分析系统等项目。 | |
郑素铃 广东泰迪智能科技股份有限公司大数据研发工程师、大数据讲师。从事大数据项目研发工作,对hadoop大数据技术有较深的研究,熟练掌握hadoop环境部署和hadoop核心计算框架mapreduce的原理和应用。掌握spark原理及编程,熟悉使用spark的图计算graphx和算法库mllib。对非结构化数据库hbase以及结构化数据库hive有深刻的了解。掌握数据挖掘和机器学习的常用算法,熟悉数据挖掘流程,具备项目开发经验,如"网站用户画像研究"和"法律服务智能推荐系统"项目,在推荐系统方面比较有研究。先后参与了《》、《》等图书编写工作。负责过韩山师范学院、西安铁路职业技术学院等高校和教师的大数据培训课程。 | |
焦正升 广东泰迪智能科技股份有限公司资深项目研发工程师、高级信息系统项目经理、高级软件开发工程师,拥有7年相关从业经验;致力于信息技术的应用与传播,信息系统产业的发展。精通java编程语言,熟悉spring boot、spring cloud等主流开发框架、mysql数据库、vue数据驱动渐进式框架等主流技术。参与《》、《》等图书的编写。拥有电力、电子政务、轻工环保、交通运输等多项领域的项目管理研发经验,项目团队为北京市信访办研发的"大数据助力智慧信访"系统获得第七届金铃奖-公共服务类"智能决策奖"。 |
四、证书颁发
学员经在线培训并考试合格后,可以获得工业和信息化部教育与考试中心颁发的相应职业技术证书。
五、报名须知与威斯尼斯人wns145585的联系方式
1、报名材料:报名申请表、身份证复印件、两寸近期正面免冠彩色半身证件照电子版(要求:白色背景,14-20k大小,.jpg格式)
2、本次由广东泰迪智能科技股份有限公司收取费用并开具发票。
3、本期研修班两专题及以上联报者可享受九折优惠。
4、报名威斯尼斯人wns145585的联系方式
联系人:曾老师
电话:13246821827
微信:antonia602501
邮箱:zengaizhi@tipdm.com
2021年第四期全国高校大数据与人工智能骨干师资研修班v1.5.pdf
附件五 hadoop spark大数据技术应用实战课程大纲
基础篇(报名成功后即可开始学习) | ||
时间 | 课程内容 | 学习平台 |
正式培训前 | linux操作系统基础 1 linux简介 1.1 linux简介与发展历程 1.2 linux常见版本 2 linux基本命令 2.1 linux文件系统树 2.2 创建与删除目录或文件 2.3 查看文件内容 2.4 创建硬连接和符号链接 2.5 帮助命令 2.6 重定向相关命令 2.7 用户及用户组 2.8 权限相关命令 2.9 用户、用户组及权限实践操作进程 3 linux vi编辑器 3.1 模式介绍与常见快捷命令 3.2 一般模式快捷键 3.3 编辑模式与指令模式快捷键 | 泰迪云课堂 |
mysql基础 1 数据库概述 1.1 数据库概述 1.2 数据库基本概念介绍 2 mysql安装与配置 2.1 mysql安装与配置 2.2 可视化工具使用 3 mysql基本命令 3.1 创建与擅长数据库 3.2 数据结构与数据类型 3.3 主键与外键 3.4 创建、修改、删除表 3.5 插入与删除数据 4 sql语法操作 4.1 mysql常用运算符 4.2 mysql数据更新操作 4.3 mysql数据查询过操作 5 mysql联表操作与子查询 5.1 联表查询 5.2 子查询 5.3 复制表 6 mysql 函数 6.1 函数类型介绍 6.2 sql函数应用 7 约束与索引 7.1 约束介绍与设置 7.2 索引介绍与设置 | 泰迪云课堂 | |
java编程基础 1 基础知识 1.1 java简介 1.2 java安装配置 1.3 java基础语法 1.4.1 java基本数据类型&引用数据类型 1.4.2 java变量 1.5 java string类 1.6.1 java运算符-赋值运算符&算术运算符 1.6.2 java运算符-关系、逻辑、其他运算符 1.7 循环、条件、循环中断 1.8 java数组 1.9 java函数 1.10.1 java集合简介 1.10.2 java集合之list 1.10.3 java集合之set 1.10.4 java集合之map 1.11 java泛型 2 面向对象 2.1 java类、对象 2.2.1 java类对象 2.2.2 java构造函数 2.2.3 java类继承 2.2.4 java类多态 2.3.1 java抽象类 2.3.2 java接口 3 线程及异常处理 3.1 java多线程 3.2 java包、异常 | ||
核心课程篇 | ||
时间 | 课程内容 | 学习平台 |
第一课 hadoop大数据基础 | ||
7月20日 18:30 - 22:00 | 1 hadoop介绍 1.1 认识大数据 1.2 hadoop核心组件 1.3 hadoop特性与生态环境 1.4 hadoop应用场景 2 hadoop集群安装与部署 2.1 安装虚拟机 2.2 安装java 2.3 hadoop集群部署模式 2.4 配置固定ip 2.5 配置ssh无密码登录 2.6 hadoop集群安装与部署 2.7 hadoop配置参数介绍 2.8 hadoop集群启动与监控界面介绍 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
7月21日 18:30 - 22:00 | 3 hadoop基础操作 3.1 hadoop安全模式 3.2 hadoop集群基本信息 3.3 hdfs常用shell操作 3.4 mapreduce常用shell操作 3.5 mapreduce任务管理 3.6 yarn资源管理及调度策略 4 mapreduce开发入门 4.1 mapreduce框架与设计构思 4.2 mapreduce开发环境搭建 4.3 mapreduce单词计数源码解析 4.4 mapreduce api介绍 4.5 mapreduce java开发实战:按日期统计访问次数 4.6 mapreduce java开发实战:用户访问次数排序 5 mapreduce编程进阶 5.1 mapreduce输出文件格式介绍及序列化文件生成 5.2 mapreduce输入文件格式介绍及读取序列化文件 5.3 mapreduce程序优化:combiner&partitioner应用 5.4 提交mapreduce程序 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
第二课 hive大数据仓库 | ||
7月22日 18:30 - 22:00 | 1 hive概述 1.1 hive的产生背景 1.2 hive体系架构 1.3 数据类型 1.4 与传统数据库的区别 1.5 hive的应用 2 hive安装配置 2.1 安装mysql 2.2 安装hive 3 hive表定义 3.1 hive创建内表和外表 3.2 hive创建静态分区表 3.3 hive创建动态分区表 3.4 创建带有数据的表 4 hive导入导出数据 4.1 hive导入本地或者hdfs上的数据 4.2 hive单表查询和多表查询导入数据 4.3 hive导出数据 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
7月23日 18:30 - 22:00 | 5 hive查询 5.1 hive查询语法及distinct操作 5.2 hive order by和内置函数查询 5.3 hive group by查询 5.4 hive join查询 5.5 hive子查询和case when查询 6 函数 6.1 hive内置函数 6.2 hive自定义函数 7 综合实战:航空客户乘机数据预处理 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
第三课 hbase非关系型数据库 | ||
7月24日 18:30 - 22:00 | 1 hbase简介 1.1 认识hbase 1.2 hbase使用场景 2 hbase安装配置 2.1 hbase集群拓扑简介 2.2 zookeeper集群安装配置 2.3 hbase安装配置 2.4 hbase监控界面讲解 3 hbase架构原理 3.1 hbase数据模型 3.2 hbase架构 3.3 hbase读写流程 4 hbase shell基本操作 4.1 命令空间操作 4.2 创建表 4.3 修改和删除表 4.4 插入数据到表中 4.5 查看表数据 4.6 删除表数据 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
7月25日 18:30 - 22:00 | 5 hbase表的模式设计 5.1 hbase表设计 6 hbase java api应用 6.1 搭建hbase开发环境 6.2 建立hbase数据库连接实例 6.3 创建或删除表应用实例 6.4 设置region分割点应用实例 6.5 修改表结构应用实例 6.6 写入数据应用实例 6.7 查看一行数据应用实例 6.8 扫描表数据应用实例 6.9 删除数据应用实例 6.10 创建职工信息表emp 6.11 写入数据到职工信息表 6.12 查找指定范围职工信息 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
第四课 scala编程基础 | ||
7月26日 18: 30 - 22:00 | 1 scala简介与安装 1.1 scala简介与特性 1.2 scala安装 2 scala基础语言 2.1 scala数据类型 2.2 scala变量 2.3 scala运算符 2.4 条件控制与循环 2.5 函数 3 scala集合 3.1 scala集合-array 3.2 scala集合-list 3.3 scala集合-set 3.4 scala集合-map 3.5 scala集合-tuple 3.6 内置函数组合器 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
7月27日 18:30 - 22:00 | 4 scala异常 5 scala类 5.1 类定义 5.2 构造函数 5.3 成员变量和方法 5.4 单例对象、伴生类和伴生对象 5.5 文件读写 6 scala应用实例 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
第五课 spark大数据分析基础 | ||
7月28日 18:30 - 22:00 | 1 spark概述 1.1 认识spark 1.2 搭建spark环境 1.3 了解spark运行架构与原理 1.4 spark生态系统 2 spark编程 3 rdd 3.1 创建rdd 3.2 rdd transform算子应用 3.3 rdd actiion算子应用 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
7月29日 18:30 - 22:00 | 4 spark编程进阶 4.1 搭建开发环境 4.2 编程实现学生信息分析 4.3 程序编译 4.4 任务提交与运行模式 4.5 查看任务监控 4.6 rdd持久化 4.7 rdd依赖与容错 5 spark sql:结构化数据文件处理 5.1 认识spark sql 5.2 认识dataframe、dataset 5.3 掌握dataframe基础操作 5.4 探索分析法律服务网站数据 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
7月30日 18:30 - 22:00 | 6 spark与机器学习库 6.1 机器学习简介 6.2 mllib各模块简介 6.3 探索分析模块 6.4 算法模块 6.5 模型评估与优化模块 6.6 pipeline介绍 6.7 pipeline整合预处理、建模、调优、评估过程 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
第六课 项目实战:广电大数据用户画像(hadoop spark hive) | ||
7月31日 18:00 - 22:00 | 1 项目需求 1.1 项目背景 1.2 项目目标 2 技术方案 2.1 技术选型 2.2 系统构架 3 数据存储与传输 3.1 创建hive表 3.2 csv数据导入到hive 4 需求探索 4.1 数据说明 4.2 基础探索 4.3 业务需求探索 4.4 需求探索总结 5 基础数据预处理 6 svm预测用户是否挽留 6.1 svm算法简介 6.2 构建特征列和标签列数据 6.3 建立svm模型 6.4 模型评估与预测 7 用户画像 7.1 用户画像概述 7.2 标签计算 7.3 标签展示 | 泰迪云课堂 |
操作演练/作业 | 泰迪大数据编程实训平台 | |
在线答疑 | 微信群 | |
拓展自学篇 | ||
自行安排 | 1 zookeeper分布式服务框架 2 flume大数据采集与传输 3 kafka大数据流处理 4 flink大数据实时处理 5 商品实时推荐系统(flume kafka flink) | |
第七课 在线考试 | ||
8月1日 | 高级大数据技术应用职业技术在线考试 | 泰迪云课堂 |