首页 » 华为认证 » 华为大数据HCIE-Big Data认证培训

华为大数据HCIE-Big Data认证培训

大数据是当下 IT 领域最热门,最高大上,也是最被看好的行业,人才的稀缺程度从各公司,各大招聘网站开出的薪水便能感知,高薪就业无忧,但大数据对于很多人来说丌知道该如何学习,需要哪些基础,学习一些什么内容,誉天将为零基础学员量身定做,成为一名合格的大数据工程师,我们专注实战和就业

 

华为大数据培训认证可胜任的岗位


大数据挖掘专家/工程师,高级行业分析师,大数据业务架构师/工程师,大数据架构师/工
程师,大数据算法工程师,大数据开发工程师,大数据运维工程师
 

总课时: 132 课时+36 课时赠送视频+实验时间


模块一: Linux 赠送 24 课时视频
模块二:Hadoop 技术(36 小时)
模块三:数据库(赠送 12 课时视频)
模块四:大数据挖掘技术与实现及项目实战(36 小时)
模块五: 通过 python 实现算法(30 小时)
模块六: 爬虫技术与实战(18 课时)
模块七: ETL 及可视化工具 (12 课时)

 

预备知识


1. 了解大数据技术原理和 Hadoop 的基础知识
2. 熟悉 Linux 的管理和操作
3. 具有数据库的基本知识,有数据库的使用经验,了解 SQL 语言。
4. 具备一定软件开发能力,熟悉 Java、Python, C++等至少一种开发语言。
5. 数学知识

 

华为大数据HCIE培训课程内容


模块一: Linux (赠送 24 课时视频)
将利用我们多年的 Linux 经验,让您从零基础迅速掌握 Linux 基本技能,满足后续搭建原生态的Hadoop 和学习 python 做好准备,这个基础非常重要。
1. Linux 系统安装
2. Linux 基础使用
3. Linux 帮助系统和文件系统管理
4. 用户,组及权限管理
5. IO 及管道,循环语句,环境变量, shell 基础,脚本基础
(精华)
6. 文本处理工具, grep,awk,sed 正则表达式等(精华)
7. 进程管理,远程管理工具
8. Linux 下文件查找与压缩
9. Linux 下文件系统的深入理解
(精华)
10.Linux 下软件包的安装和管理
11.Shell 脚本实战
(精华)


模块二:Hadoop 技术(36 小时)
Hadoop 是大数据最重要的运行平台,华为 FusionInsight HD 就是基于开源的Hadoop 开发,但Hadoop 组件众多,原理复杂,我们将从原理及流程开始讲解每个组件,然后使用命令行搭建一套开源的Hadoop 系统,这样才能更透彻的理解这些组件,最后搭建出华为 FusionInsight 进行商业化应用,重点讲解 Spark和 Hbase。
1. Hadoop 基础
2. MapReduce 和 YARN 分布式计算引擎技术
3. 搭建开源的 Hadoop HA 的平台
4. LDAP 及 Kerberos 工作原理及应用
5. Hadoop 分布式文件系统
6. Spark 基于内存的分布式计算技术

7. Hive 数据仓库
8. HBase 分布式数据库
9. Zookeeper 集群分布式锁设施
10.Streaming 实时计算技术及应用
11.Kafka 订阅消息系统
12.Flume 海量日志聚合
13.华为 FusionInsight HD 产品部署及使用

模块三:数据库(赠送 12 课时视频)
这个是学习分布式数据库的基础,为后续分析平台做好准备,学习数据库的安装, SQL 语句, 数据库的基本操作,数据库视图,索引等。
1. 搭建实验环境、 虚拟机/操作系统/数据库安装/数据库应用安装、 数据库基
础知识
2. SELECT 基本语法、 过滤和排序数据、 单行函数、 高级子查询
(精华)
3. 多表查询、 分组函数、 子查询、 操纵数据、 使用集合运算 (精华)
4. 创建和管理表、 内置约束、 创建视图、 索引及其他数据库对象 (精华)
5. 控制用户访问,数据字典


模块四:大数据挖掘技术与实现(36 小时)
数据挖掘又称数据库中的知识发现(Knowledge Discover in Database, KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
1. 分类和回归
2. 决策树分类算法
3. 组合分类
4. 随机森林
5. 支持向量机分类算法

6. 朴素贝叶斯分类算法
7. 聚类算法
8. K-均值算法、中心点算法
9. 关联规则 Apriori
10. 离群点检测
11. 预处理
12. FusionInsight Miner 和华为云机器学习服务 MLS


大数据挖掘项目实战(以下项目均有数据源)
1.银行定期存款业务预测
2.鲍鱼生长年龄
3.词频
4.逆文档频率
5.抽样排序
6.用六种算法进行银行存款分析
7.防止欺诈
8.电影推荐
9.幸福指数
10.客户分群
11.CRM 用户精准营销


模块五: 通过 python 实现算法(30 小时)
Python 是目前丕界上最流行的开发语言,也是云计算、大数据、人工智能时代最好的开发语言,也是最容易上手的开发语言,没有开发,就没有大数据,誉天将零基础带你进入 python 的大门,通过 Python 是实现算法,让他更深入的理解算法,并且用 Python 写出算法。
Python 简介、环境安装 Python. Anaconda + Pycharm
1.第一个 Python 程序 使用文本编辑器, 输入和输出
2.Python 基础 基础语法、变量类型
3.运算符、条件语句
4.循环语句、 While 循环语句、 for 循环语句、循环嵌套
5.break 语句、 continue 语句、 pass 语句
6.列表(List)、元组、字典(Dictionary)
7.Number(数字)、字符串、日期和时间
8.函数、模块
9.面向对象编程-类和实例
10.面向对象编程-访问限制
11.面向对象编程-继承和多态
12.文件 I/O、 File 方法
13.IO 编程-文件读写、操作文件和目录
14.访问数据库
15.预处理 Numpy
16.预处理 Pandas
17.”决策树分类算法 Python 实现
18.随机森林 Python 实现
19.支持向量机分类算法 Python 实现
20.朴素贝叶斯分类算法 Python 实现”
21.”K-均值算法、中心点算法 Python 实现
22.关联规则 Apriori、离群点检测 python 实现


模块六: 爬虫技术与实战(18 课时)
1.网络爬虫概述
2. 网络爬虫工作原理第
3.网络爬虫基础使用第
3. 网络爬虫中的异常处理

4. GET 请求爬取数据实战
5.POST 请求爬取数据实战
6.网络爬虫案例实战
7.App 信息爬取实战
8.爬取天气预报数据
9.检验滑动验证码的识别


模块七: ETL 及可视化工具 (12 课时)
一. 数据的抽取(Extract)
二.数据的清洗转换(Cleaning、 Transform)
三.数据的加载(Load)
1.空值处理
2.规范化数据格式
3.拆分数据:
4.验证数据正确性:
5.数据替换
6.Lookup
四、开源可视化工具的使用
1. FineReport
2. Tableau Public

 

更多