「大数据」「Hadoop」HDFS的配置与管理

nanshan 2024-11-21 18:51 16 浏览 0 评论

HDFS（Hadoop Distributed File System）是Hadoop三个基础组件之一，为另外的组件以及大数据生态中的其他组件提供了最基本的存储功能，具有高容错、高可靠、可扩展、高吞吐率等特点。HDFS运行在java环境中，因此我们都需要安装JDK。安装完成之后是一个分布式网络文件系统，需要多节点协同组成Master/Slave模式。

安装

Hadoop版本的历史是2011年1.0+版，2012年2.0+可用，目前最新已经是3.0在2017年就发布了。安装包中包括了HDFS与Yarn组件，以及MapReduce计算框架，还有其他的基础工具包和 RPC 框架。

下载安装包，可以在官网https://hadoop.apache.org/releases.html，国内也有镜像。然后解压到一个目录。
安装JDK，新版的需要JDK1.8及以上。yum -y install jdk。
JDK依赖配置，配置etc/hadoop/hadoop-env.sh文件的JAVA_HOME，默认是export JAVA_HOME=${JAVA_HOME}。/etc/profile中再加export JAVA_HOME=/usr/lib/jvm/java.xxx。
Hadoop执行环境配置，将hadoop/bin和sbin加入到path中，/etc/profile中加：

export HADOOP_HOME=/usr/local/hadoop-xxx
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

配置

Hadoop部署方式分三种，Standalone mode（本地单独模式）、Pseudo-Distributed mode（伪分布模式）、Cluster mode（集群模式），其中前两种都是在单机部署，都是分别是开发与测试用途，生产环境使用集群模式。后面两种模式中包括的组件进程有：HDFS daemon的 NameNode（包括Sercondary NameNodes）和 DataNode、YARN daemon的 ResourceManger 和 NodeManager，分别启动单独的java进程。

Hadoop解压并配置好环境之后，修改各配置文件。配置文件都是xml，所以都是这样子的：

<configuration>
    <property>
          <name>key</name>
          <value>value</value>   
    </property>
</configuration>

hdfs-site.xml 全局参数，主要是NameNode来读取的配置，文件目录等。

hadoop.tmp.dir，默认是/tmp，生产需要修改。
fs.default.name，文件系统的名字。通常是NameNode的hostname与port。如：hdfs://<your_namenode>:9000/ 。（单一NameNode，配置fs.default.name，有HA的配置fs.defaultFS）
日志：hadoop.logfile.size与hadoop.logfile.count，fs.trash.interval回收站清空时间，io.file.buffer.size读写缓存。

hdfs-site.xml HDFS的核心配置文件，副本数，数据存储目录等。

dfs.name.dir，NameNode 元数据存放位置，默认值：${hadoop.tmp.dir}/dfs/name。
dfs.data.dir，DataNode 在本地磁盘存放block的位置，可多个，默认值：${hadoop.tmp.dir}/dfs/data。
dfs.replication，DataNode上设置的副本份数，默认是3份，客户端也可以指定。
dfs.block.size，数据块大小，单位byte。默认是67108864（64M）,建议是128M。
dfs.http.address，NameNode web管理地址与端口，默认9870。

etc/hadoop/slaves DataNode上读取的所有的slave的名称或IP，每行存放一个。

启动及异常处理

HDFS启动会独立NameNode、Sercondary NameNodes 和 DataNode 这三个进程。

生效环境配置变量：etc/hadoop/hadoop-env.sh
启动，sbin/start-dfs.sh
访问控制台，http://localhost:9870/，注意3.0版本的端口与之前不同。

遇到的常见异常及处理：

报用户问题Attempting to operate on hdfs namenode as root，hadoop-env.sh中加启动用户

export HDFS_NAMENODE_USER="root"
export HDFS_DATANODE_USER="root"
export HDFS_SECONDARYNAMENODE_USER="root"
export YARN_RESOURCEMANAGER_USER="root"
export YARN_NODEMANAGER_USER="root"

大量的command not found，先要hdfs namenode -format，再直接 start-all.sh启动，不能加sh。
报localhost: Permission denied，ssh问题，生成并注册一下这个ssh key即可。

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

localhost:9870/访问失败，关闭防火墙或配置hdfs-site.xml中的dfs.http.address为0.0.0.0:9870 。如有服务端口访问不到的，都可以检查一下IP是否是0.0.0.0。

文件系统的使用

命令hadoop fs-help可以获取所有的基本的文件系统操作命令。如，hadoop fs -ls、-fsck等和hdfs dfs -ls、-mkdir、-cp等等。

访问http://localhost:9864/可以查看datanode节点上文件的占用情况等。

各组件端口

ssh access denied

上一篇：virt-manager 学习
下一篇：嵌入式Linux系列第2篇:运行Hello World

「大数据」「Hadoop」HDFS的配置与管理

安装

配置

启动及异常处理

文件系统的使用

各组件端口

相关推荐

取消回复欢迎你发表评论:

极空间如何无损移机，新Z4 Pro又有哪些升级?极空间Z4 Pro深度体验

手机如何设置与显示准确时间的详细指南

NAS:DS video/DS file/DS photo等群晖移动端APP远程访问的教程

如何修复用户配置文件服务在 WINDOWS 上登录失败的问题

一加手机与电脑互传文件的便捷方法FileDash

日本海上自卫队的军衔制度（日本海上自卫队的军衔制度是什么）

10个免费文件中转服务站，分享文件简单方便，你知道几个?

银河麒麟高级服务版本V10设置ntp服务器

【系统配置】信创终端挂载NAS共享全攻略:一步到位!

iPhone输错密码锁屏1小时怎么办?连接电脑2步立刻解决

「大数据」「Hadoop」HDFS的配置与管理

安装

配置

启动及异常处理

文件系统的使用

各组件端口

相关推荐

取消回复欢迎 你 发表评论:

极空间如何无损移机，新Z4 Pro又有哪些升级?极空间Z4 Pro深度体验

手机如何设置与显示准确时间的详细指南

NAS:DS video/DS file/DS photo等群晖移动端APP远程访问的教程

如何修复用户配置文件服务在 WINDOWS 上登录失败的问题

一加手机与电脑互传文件的便捷方法FileDash

日本海上自卫队的军衔制度（日本海上自卫队的军衔制度是什么）

10个免费文件中转服务站，分享文件简单方便，你知道几个?

银河麒麟高级服务版本V10设置ntp服务器

【系统配置】信创终端挂载NAS共享全攻略:一步到位!

iPhone输错密码锁屏1小时怎么办?连接电脑2步立刻解决

取消回复欢迎你发表评论: