百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

hadoop 安装教程 (CentOS6 CDH分支 yum方式)

nanshan 2024-11-12 11:42 22 浏览 0 评论

文章来源:加米谷大数据

我们这个教程是在 centos 上安装cdh的教程,而且使用的是yum方式,不建议使用界面化方式,因为用过linux的都知道,命令行出错更少,其实更轻松更靠谱。

安装之前:1. 安装jdk

cdh5 对应的jdk 是 oracle-jdk 1.7.0_25 ,注意是 oracle-jdk ,千万别 yum install jdk 就完事了,因为那样装的是 openjdk

到这边 http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html#jdk-7u25-oth-JPR 搞个jdk

没用户的自己注册一个,下来之后名字是一堆乱码,自己用mv改个名字

在最后加上

保存后运行

2. 配置yum源(不建议)

该种方式配置最快,但是对于长期要使用或者学习hadoop的人来说不建议采用这种方式,详情见下一种方式

$ vim /etc/yum.repos.d/cloudera-cdh5.repo

把下面这段粘贴进去

然后保存

3. 构建自己的yum源(强烈建议)

强烈建议采用这种方式,因为你学习和使用hadoop的过程是漫长的,在这个过程中cloudera的包有可能有升级了几个版本,那么你早先时候装的组件跟你后来想装的组件之间的版本有可能不一样,有些组件会检查CDH版本的统一性的,如果不通过就装不上了,或者运行起来有问题。所以为了保证整个cdh内部组件的版本一致性,最好使用这种方式安装

3.1 下载rpm文件

centos6 的 安装文件地址 ,安装rpm文件

yum --nogpgcheck localinstall cloudera-cdh-5-0.x86_64.rpm -y

3.2 安装apache

安装的过程我就不说了,这种教程网上一堆

3.3 安装yum-utils

yum install yum-utils createrepo -y

3.4 用yum-utils同步整个yum源

随便切换到一个目录,比如 home 目录把 但是确保你所在的目录有至少3G空间,然后执行

接下来可能是漫长的等待,取决于你的网络速度

这个命令执行完后会把整个cdh5的库(大概118个包)下载到这个目录下,大概2.3G

你会看到有一个叫 cloudera-cdh5 的文件夹生成,进入后有一个 RPMS 文件夹,里面有 noarch 和 x86_64 文件夹

快速下载诀窍:这边有一个诀窍,你开始执行 reposync 之后你会发现在执行这个命令的根目录会自动生成 cloudera-cdh5/noarch 目录,并开始下载包。其实我们可以直接用浏览器打开 Index of cdh5/redhat/6/x86_64/cdh/5.16.2/RPMS/ 你会看到有 noarch 和 x86_64 这两个文件夹,进入这两个文件夹,用迅雷把这些包全部下载下来,然后扔到centos的 cloudera-cdh5 目录下,再执行 reposync 命令,然后这些包会被一一检查,并被认为已经下载好了,并跳过。

我用的是火狐的Flashgot插件的 一键下载全部链接方式。

在 RPMS/x86_64 里面建一个文件夹 cdh 在这个文件夹里面建一个文本文件叫 RPM-GPG-KEY-cloudera访问 http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera 把内容拷贝进去

3.5 部署到apache

把这个cloudera-cdh5文件夹整个移到apache的web目录:/var/www/html 里面去,不过请先保证空间足够大,如果不够大,记得修改apache的web目录的位置,具体怎么改自己百度下

用vim打开 /etc/httpd/conf/httpd.conf 查找到这句话

这个节点里面的 Options 后面的文字改成 MultiViews

然后重启apache

打开自己的浏览器试试看访问这个地址

ip改成你自己的机器的ip,如果浏览器自动开始下载这个文件的话,证明调通了

3.6 构建repo库

cd 到 /var/www/html/cloudera-cdh5 然后执行 createrepo . 进行构建

3.7 修改yum源地址

分别把两台机器的/etc/yum.repos.d/cloudera-cdh5.repo 里面的 baseurl 修改为这台机器的地址。像我就修改成这样

注意:采用这种方式后,安装hadoop都将非常的快,但是如果有时候不能正常安装,那么你还是可以启用远程地址,建议把以下两句话用注解方式保存在这个文件里面,当你觉得可能本地库有问题,想切换为远程库的时候可以方便的切换,这个文件就变成这样

当你要切换远程库的会后把上面两行 baseurl 和 gpgkey 注释起来,下面的把注释去掉,保存退出就行,yum会立即生效不需要做什么额外的操作。

注意:如果你之前用过远程源的模式安装过hadoop,那么切换成本地源之后要删除掉yum的缓存,否则会出现要安装的组件需要的版本号比你本地的源还新,造成找不到安装文件的问题,清理方式是把 /var/cache/yum/x86_64/6/cloudera-cdh5 这个文件夹删了

补充:选择安装模式

有两种安装模式 HA 和 非HA

其实MapReduce也有两种安装模式 1.0(MRv1) 和 2.0(YARN) 国外已经主要推广 2.0了,不过国内的很多教程是按照1.0来写的,所以看教程的时候记得分辨一下看是否适合你。不过我相信国内很快也会跟上的。我推荐使用2.0,我们的教程这边也使用2.0

hadoop有两种安装模式:非HA和HA模式,非ha只是用来实验上手而已,真实环境用ha。但是ha环境配置比较复杂,容易被卡主,所以我们先用非HA模式上手一下,然后玩玩hdfs找找感觉,免得失去信心,然后再安装HA模式,所以我的教程会教你们装两次,第一次是非HA模式,第二次是HA模式,在安装HA模式之前最好换新的虚拟机,防止,之前的安装影响到新的安装

相关推荐

0722-6.2.0-如何在RedHat7.2使用rpm安装CDH(无CM)

文档编写目的在前面的文档中,介绍了在有CM和无CM两种情况下使用rpm方式安装CDH5.10.0,本文档将介绍如何在无CM的情况下使用rpm方式安装CDH6.2.0,与之前安装C5进行对比。环境介绍:...

ARM64 平台基于 openEuler + iSula 环境部署 Kubernetes

为什么要在arm64平台上部署Kubernetes,而且还是鲲鹏920的架构。说来话长。。。此处省略5000字。介绍下系统信息;o架构:鲲鹏920(Kunpeng920)oOS:ope...

生产环境starrocks 3.1存算一体集群部署

集群规划FE:节点主要负责元数据管理、客户端连接管理、查询计划和查询调度。>3节点。BE:节点负责数据存储和SQL执行。>3节点。CN:无存储功能能的BE。环境准备CPU检查JDK...

在CentOS上添加swap虚拟内存并设置优先级

现如今很多云服务器都会自己配置好虚拟内存,当然也有很多没有配置虚拟内存的,虚拟内存可以让我们的低配服务器使用更多的内存,可以减少很多硬件成本,比如我们运行很多服务的时候,内存常常会满,当配置了虚拟内存...

国产深度(deepin)操作系统优化指南

1.升级内核随着deepin版本的更新,会自动升级系统内核,但是我们依旧可以通过命令行手动升级内核,以获取更好的性能和更多的硬件支持。具体操作:-添加PPAs使用以下命令添加PPAs:```...

postgresql-15.4 多节点主从(读写分离)

1、下载软件[root@TX-CN-PostgreSQL01-252software]#wgethttps://ftp.postgresql.org/pub/source/v15.4/postg...

Docker 容器 Java 服务内存与 GC 优化实施方案

一、设置Docker容器内存限制(生产环境建议)1.查看宿主机可用内存bashfree-h#示例输出(假设宿主机剩余16GB可用内存)#Mem:64G...

虚拟内存设置、解决linux内存不够问题

虚拟内存设置(解决linux内存不够情况)背景介绍  Memory指机器物理内存,读写速度低于CPU一个量级,但是高于磁盘不止一个量级。所以,程序和数据如果在内存的话,会有非常快的读写速度。但是,内存...

Elasticsearch性能调优(5):服务器配置选择

在选择elasticsearch服务器时,要尽可能地选择与当前业务量相匹配的服务器。如果服务器配置太低,则意味着需要更多的节点来满足需求,一个集群的节点太多时会增加集群管理的成本。如果服务器配置太高,...

Es如何落地

一、配置准备节点类型CPU内存硬盘网络机器数操作系统data节点16C64G2000G本地SSD所有es同一可用区3(ecs)Centos7master节点2C8G200G云SSD所有es同一可用区...

针对Linux内存管理知识学习总结

现在的服务器大部分都是运行在Linux上面的,所以,作为一个程序员有必要简单地了解一下系统是如何运行的。对于内存部分需要知道:地址映射内存管理的方式缺页异常先来看一些基本的知识,在进程看来,内存分为内...

MySQL进阶之性能优化

概述MySQL的性能优化,包括了服务器硬件优化、操作系统的优化、MySQL数据库配置优化、数据库表设计的优化、SQL语句优化等5个方面的优化。在进行优化之前,需要先掌握性能分析的思路和方法,找出问题,...

Linux Cgroups(Control Groups)原理

LinuxCgroups(ControlGroups)是内核提供的资源分配、限制和监控机制,通过层级化进程分组实现资源的精细化控制。以下从核心原理、操作示例和版本演进三方面详细分析:一、核心原理与...

linux 常用性能优化参数及理解

1.优化内核相关参数配置文件/etc/sysctl.conf配置方法直接将参数添加进文件每条一行.sysctl-a可以查看默认配置sysctl-p执行并检测是否有错误例如设置错了参数:[roo...

如何在 Linux 中使用 Sysctl 命令?

sysctl是一个用于配置和查询Linux内核参数的命令行工具。它通过与/proc/sys虚拟文件系统交互,允许用户在运行时动态修改内核参数。这些参数控制着系统的各种行为,包括网络设置、文件...

取消回复欢迎 发表评论: