課程介紹
從安裝及配置、負載均衡及調(diào)整,以及 診斷和解決部署問題等各方面了解 Hadoop 系統(tǒng)管理員的概念和實踐;
面向需要建立或維護 Hadoop 集群的管理員。培訓對象要求具備 Linux 基本知識,Hadoop相關知識不作要求。
認證考試
CCA Administrator Exam (CCA131) 管理員認證考試;
考試形式:120分鐘;70%通過;基于一個預配置的Cloudera企業(yè)版集群,解決8~12個場景下的任務
培訓收益
配置靜態(tài)路由、數(shù)據(jù)包篩選以及網(wǎng)絡地址轉換
Hadoop分布式文件系統(tǒng)和MapReduce工作原理
Hadoop集群硬件配置規(guī)劃
Hadoop集群網(wǎng)絡配置規(guī)劃
Hadoop集群配置及優(yōu)化
如何配置NameNode HA
任何配置NameNode Federation
任何配置FairScheduler為多用戶共享Hadoop集群
任何為Hadoop集群安裝和實現(xiàn)基于Kerberos的安全性
如何維護和監(jiān)測Hadoop集群
如何使用Flume加載動態(tài)產(chǎn)生的文件以及使用Sqoop連接關系數(shù)據(jù)庫進行數(shù)據(jù)導入導出
Hive、Pig和HBase等Hadoop生態(tài)系統(tǒng)工具相關的系統(tǒng)管理工作
課程大綱
模塊 |
內(nèi)容 |
Apache Hadoop 介紹 | ?Hadoop 動機
? ?基本概念 ? ?Hadoop 核心部件 Hadoop 機群安裝 ? ?機群管理方案 ? ?Hadoop (CDH) 安裝 |
Hadoop 分布式文件系統(tǒng) (HDFS) | ?HDFS 特性
? ?讀寫文件 ? ?NameNode 內(nèi)存考慮 ? ?HDFS 安全簡介 ? ?HDFS Web UI |
YARN 上的 MapReduce 和 Spark | 計算平臺在 Hadoop 里扮演的角色
? ?YARN:機群資源管理器 ? ?MapReduce 概念 ? ?Apache Spark 概念 ? ?Yarn 上的計算平臺 ? ?YARN Web UI 及 Shell ? ?YARN 應用運行日志 |
Hadoop 配置及服務運行日志 | 定位配置參數(shù)及進行配置變更
? ?管理角色實例及添加服務 ? ?配置 HDFS 服務 ? ?配置 Hadoop 服務運行日志 ? ?配置 YARN 服務 |
向 HDFS 導入數(shù)據(jù) | ?使用 Flume 從外部數(shù)據(jù)源實時導入數(shù)據(jù)
? ?使用 Sqoop 從關系數(shù)據(jù)庫導入數(shù)據(jù) ? ?REST 接口 ? ?導入數(shù)據(jù)的最佳實踐 |
Hadoop 機群規(guī)劃 | 規(guī)劃考慮因素
? ?硬件選擇 ? ?虛擬化選項 ? ?網(wǎng)絡因素 ? ?節(jié)點配置 |
Hive,Impala 及 Pig 的安裝及配置 | ?Hive
? ?Impala ? ?Pig Hadoop |
客戶端及 Hue | 什么是 Hadoop 客戶端
? ?安裝及配置 Hadoop 客戶端 ? ?安裝及配置 Hue ? ?使用 Hue 進行身份驗證及授權 |
機群高級配置
|
高級配置參數(shù)
? ?Hadoop 端口配置 ? ?HDFS 機柜感知配置 ? ?HDFS 高可靠性配置 |
Hadoop 安全 | Hadoop 安全的重要性
? ?Hadoop 安全性概念 ? ?Kerberos 簡介 ? ?使用 Kerberos 保護 Hadoop 機群 ? ?其他安全特性 |
資源管理 | 使用靜態(tài)服務池配置 Linux cgroup
? ?公平調(diào)度器 ? ?配置動態(tài)資源池 ? ?YARN 內(nèi)存及 CPU 設置 ? ?Impala 查詢調(diào)度 |
機群維護,監(jiān)控及排錯 | ?檢查 HDFS 狀態(tài)
? ?機群間復制數(shù)據(jù) ? ?添加/移除機群節(jié)點 ? ?機群數(shù)據(jù)負載平衡 ? ?目錄快照 ? ?機群升級 ? ?Hadoop 機群排錯 ? ?常見配置不當問題 |