1简介
1.1目的
为辅助使用Cloudera CDH、Impala项目的快速实施。
1.2适用范围
适用于Clouder Manager 5.x 安装 CDH5 和 Impala 2.2.0版本。
1.3术语表
CMCloudera Manager 是Cloudera公司的Hadoop系统组件的安装管理工具
CDHCloudera's Distribution Hadoop,是Cloudera公司发布的Hadoop版本
1.4参考资料
《Installing-and-Using-Impala》v2.2.0Cloudera
2yum离线安装
安装前,需要执行“2.1运行环境安装”部分的操作,以便安装能顺利执行。
2.1运行环境安装
2.1.1基本环境准备
配置ip和主机名
禁用防火墙
禁用Selinux
vi /etc/selinux/config
内容改成如下:
# disabled - No SELinux policy is loaded.
SELINUX=disabled
SELINUXTYPE=targeted
然后保存,重启系统。
修改/etc/hosts
加上本机的IP
加上模拟archive.cloudera.com这个域名的IP
例如加上如下内容:
134.64.208.132 hadoop1
134.64.208.132 archive.cloudera.com
下载cloudera-manager-installer.bin,这个必须要到www.cloudera.com上下载。
下载要用到的cloudera-manager的安装包
下载要用到的cdh的parcel格式的包
下载要用到的impala的parcel格式的包
说明:要在生产系统部署CDH,先要实现Cloudera Manager的离线安装,安装好Cloudera Manager后,还要通过Cloudera Manager执行CDH的离线安装两个步骤。由于生产环境的封闭性,这些离线包不能从Cloudera的官方网站下载,所以需要将Cloudera的官方网站下载地址映射到本地IP。
2.1.2Cloudera Manager的离线安装包下载
cloudera-manager-installer.bin程序会连接到Cloudera的官方网站下载Cloudera Manager需要的rpm包,完成Cloudera Manager的安装。
要实现Cloudera Manager的离线安装,需要1.下载Cloudera Manager需要的rpm包(http://archive.cloudera.com/cm5/) 2.将Cloudera的官方网站下载地址映射到本地IP。第一步可以登录到Cloudera的官方网站将这些包下载到本地,目录类似于下面的结构:
CM5
└─redhat
├─6
│ └─x86_64
│ └─cm
│ │ cloudera-manager.repo
│ │ RPM-GPG-KEY-cloudera
│ │
│ └─4
│ ├─repodata
│ │ filelists.xml.gz
│ │ other.xml.gz
│ │ primary.xml.gz
│ │ repomd.xml
│ │
│ └─RPMS
│ └─x86_64
│ cloudera-manager-agent-5.4.7-1.cm472.p0.135.el5.x86_64.rpm
│ cloudera-manager-daemons-5.4.1-1.cm472.p0.135.el5.x86_64.rpm
│ cloudera-manager-server-5.4.7-1.cm472.p0.135.el5.x86_64.rpm
│ cloudera-manager-server-db-5.4.7-1.cm472.p0.135.el5.x86_64.rpm
│ enterprise-debuginfo-5.4.7-1.cm472.p0.135.el5.x86_64.rpm
│ jdk-6u31-linux-amd64.rpm
└─6
└─x86_64
└─cm
│ cloudera-manager.repo
│ RPM-GPG-KEY-cloudera
└─4
├─repodata
│ filelists.xml.gz
│ filelists.xml.gz.asc
│ other.xml.gz
│ other.xml.gz.asc
│ primary.xml.gz
│ primary.xml.gz.asc
│ repomd.xml
│ repomd.xml.asc
│
└─RPMS
├─noarch
└─x86_64
cloudera-manager-agent-5.4.7-1.cm471.p0.125.el6.x86_64.rpm
cloudera-manager-daemons-5.4.7-1.cm471.p0.125.el6.x86_64.rpm
cloudera-manager-server-5.4.7-1.cm471.p0.125.el6.x86_64.rpm
cloudera-manager-server-db-5.4.7-1.cm471.p0.125.el6.x86_64.rpm
enterprise-debuginfo-5.4.7-1.cm471.p0.125.el6.x86_64.rpm
jdk-6u31-linux-amd64.rpm
第二步,配置一个htttp服务,例如apache httpd服务,将上述目录树拷贝到这个http服务的根目录下,例如apache httpd服务缺省的根目录是 /var/www/html,然后在待安装机器上配置hosts文件,将上面的服务提供的IP映射到archive.cloudera.com的域名上即可,一般是在hosts文件中增加一行,例如 134.64.208.132 archive.cloudera.com
完成上述两步后,执行cloudera-manager-installer.bin即可完成Cloudera Manager的离线安装,Cloudera Manager安装完成后,在被安装机器上会打开7180端口,这时在浏览器中访问这个地址,即可进入Cloudera Hadoop的管理界面。
注意:安装时,有时需要用到系统包,下面简单介绍一些系统包安装源的一些方法:
如果有安装盘,可以将安装盘mount到一个目录,然后引用file:///协议映射安装源,例如:在目录下新建一个 cdrom_media.repo的文件,内容为:
[cdrom_media]
name=cdrom_media
baseurl=file:///mnt/cdrom/
gpgcheck=0
或者把操作系统的安装源拷贝到上面的http服务的目录下,把源写入一个os.repo的文件中。例如一个os.repo的内容如下:
[os]
name = Linux OS Packages
baseurl = http:// 134.64.208.132/os
gpgcheck = 0
而os的目录结构为下面类似:
os
├─Packages
│ abrt-libs-2.0.8-6.el6.x86_64.rpm
│ abrt-tui-2.0.8-6.el6.x86_64.rpm
│ amanda-2.6.1p2-7.el6.x86_64.rpm
│ amanda-client-2.6.1p2-7.el6.x86_64.rpm
│ amanda-server-2.6.1p2-7.el6.x86_64.rpm
│ amtu-1.0.8-8.el6.x86_64.rpm
│ anaconda-13.21.176-1.el6_3.x86_64.rpm
│ anaconda-yum-plugins-1.0-5.1.el6.noarch.rpm
│ ant-1.7.1-13.el6.x86_64.rpm
│ anthy-9100h-10.1.el6.x86_64.rpm
│ antlr-2.7.7-6.5.el6.x86_64.rpm
│ eclipse-callgraph-0.6.1-1.el6.x86_64.rpm
│ gmp-4.3.1-7.el6_2.2.i686.rpm
.........
│ yum-plugin-security-1.1.30-14.el6.noarch.rpm
│ yum-plugin-tmprepo-1.1.30-14.el6.noarch.rpm
│ zlib-devel-1.2.3-27.el6.i686.rpm
│ zlib-devel-1.2.3-27.el6.x86_64.rpm
│ zsh-4.3.10-5.el6.x86_64.rpm
└─repodata
filelists.xml.gz
other.xml.gz
primary.xml.gz
productid
productid.gz
repomd.xml
TRANS.TBL
上面关于系统包的安装源,未作深入讨论,如有问题,请参考其他建立系统离线安装源的材料。
2.1.3CDH和Impala的离线安装包下载
CDH5可以通过rpm安装,也可通过parcels安装,官方推荐使用parcels安装。
先到Cloudera的官方网站下载CDH5和Impala的parcels包。下面目录树结构映射了官方的下载地址。
cdh5
└─parcels
└─latest
CDH-5.4.7-1.cdh4.4.0.p0.39-el5.parcel
CDH-5.4.7-1.cdh4.4.0.p0.39-el6.parcel
CDH-5.4.7-1.cdh4.4.0.p0.39-lucid.parcel
CDH-5.4.7-1.cdh4.4.0.p0.39-precise.parcel
CDH-5.4.7-1.cdh4.4.0.p0.39-sles11.parcel
CDH-5.4.7-1.cdh4.4.0.p0.39-squeeze.parcel
manifest.json
impala
└─parcels
└─latest
IMPALA-2.2.2-1.p0.17-el5.parcel
IMPALA-2.2.2-1.p0.17-el6.parcel
IMPALA-2.2.2-1.p0.17-lucid.parcel
IMPALA-2.2.2-1.p0.17-precise.parcel
IMPALA-2.2.2-1.p0.17-sles11.parcel
IMPALA-2.2.2-1.p0.17-squeeze.parcel
manifest.json
下载完成后,放到上面一样的http服务的根目录下。进入Cloudera Hadoop的管理界面,添加集群,添加服务器,添加服务等,就可自动从这些包中安装Hadoop依赖的软件。
例如HDFS的添加步骤是 服务――下拉“操作”――添加服务――选择HDFS
例如Impala的添加步骤是 服务――下拉“操作”――添加服务――选择impala
需要说明的是,服务是有依赖关系的,要添加impala服务,就要先顺序添加 hdfs—mapreduce—hive 这几个服务。添加服务时,一些关键的配置参数也要注意,例如hdfs的namenode目录、secondary namenode目录、mapreduce的jobtracker目录、tasktracker目录等。
2.2系统安装
运行已下载的cloudera-manager-installer.bin
一路选择Next,回车。
在确认License处,按右箭头?选择Yes回车。
当Cloudera的官方网站下载地址映射到本地IP已完成并且需要的rpm包也已下载好放到了本地IP的http服务器指定目录中后,安装顺利完成,等待服务启动,并且7180端口的开启。
[root@hadoop1 ~]# netstat –an | grep 7180
tcp 0 0 0.0.0.0:7180 0.0.0.0:* LISTEN
上面命令输出表示已完成启动,此时可以在浏览器上输入这个Cloudera Manager服务器的地址和端口,就可进入Cloudera Manager的安装和管理界面。
下面操作都从主菜单上链接开始:
1.添加集群
主页—右上角—添加集群
2.添加服务
服务—所有服务—
—添加服务
在下面的界面中选择你要添加的服务。
3.添加节点
主机—向集群添加主机
4.删除节点
主机
然后选定一个主机(界面上的一行记录)
主机—已选定的动作—从集群中删除
主机—已选定的动作—删除
安装完成,相关服务启动后,在master节点输入 impala-shell就进入sql语句输入界面,可以利用sql查询hdfs的数据了。一般的,impala查询的速度可以达到hive的5~30倍。
3疑难解答
1.提示PostgreSQL版本过低
系统需要安装PostgreSQL数据库 8.4.11以上,先卸载低版本,然后安装8.4.11以上的版本。
2.提示RPM-GPG-KEY-cloudera文件找不到
在Cloudera找到RPM-GPG-KEY-cloudera文件,放到映射的本地IP的相对应的位置。这个文件一般在cm5/redhat/6/x86_64/cm的相对目录下。
3.5.4.7版本下某文件找不到
本版本的Cloudera Manager有时找cm5/redhat/6/x86_64/cm/5目录下的文件,有时找cm5/redhat/6/x86_64/cm/5.4.7目录下的文件,有时找cm5/redhat/6/x86_64/cm/5.4.7目录下的文件,出现此错误时,解决的办法是,将cm5/redhat/6/x86_64/cm/5.4.7目录下的文件下载完整,然后在同级建立符号链接,例如
ln –s 5.4.7 5
ln –s 5.4.7 5.5
这样,三种情形下的文件都可以找到了。
网友评论
最新评论
noarch └─x86_64 cloudera-manager-agent-5.4.7-1.cm471.p0.125.el6.x86_64.rpm clouder
anager-installer.bin 一路选择Next,回车。 在确认License处,按右箭头?选择Yes回车。 当Cloudera的官方网站下载地址映射到本地IP已完成并且需要的rpm包
.3术语表 CMCloudera Manager 是Cloudera公司的Hadoop系统组件的安装管理工具 CDHCloudera's Distribution Hadoop,是Cloudera公司发布的Had
,内容为: [cdrom_media] name=cdrom_media baseurl=file:///mnt/cdrom/ gpgcheck=0 或者把操作系统的安装源拷贝到上面的http服务的目录下,把源写入一个os.repo的文件中。例如一个