hadoop端口

hadoop端口

20xx年8月6日

9:54

端口 作用

9000 fs.defaultFS,如:hdfs://172.25.40.171:9000 9001 dfs.namenode.rpc-address,DataNode会连接这个端口 50070 dfs.namenode.http-address

50470 dfs.namenode.https-address

50100 dfs.namenode.backup.address

50105 dfs.namenode.backup.http-address

50090 dfs.namenode.secondary.http-address,如:172.25.39.166:50090

50091 dfs.namenode.secondary.https-address,如:172.25.39.166:50091

50020 dfs.datanode.ipc.address

50075 dfs.datanode.http.address

50475 dfs.datanode.https.address

50010 dfs.datanode.address,DataNode的数据传输端口 8480 dfs.journalnode.rpc-address

8481 dfs.journalnode.https-address

8032 yarn.resourcemanager.address

8088 yarn.resourcemanager.webapp.address,YARN的http端口 8090 yarn.resourcemanager.webapp.https.address 8030 yarn.resourcemanager.scheduler.address

8031 yarn.resourcemanager.resource-tracker.address 8033 yarn.resourcemanager.admin.address

8042 yarn.nodemanager.webapp.address

8040 yarn.nodemanager.localizer.address

8188 yarn.timeline-service.webapp.address

10020 mapreduce.jobhistory.address

19888 mapreduce.jobhistory.webapp.address

2888 ZooKeeper,如果是Leader,用来监听Follower的连接 3888 ZooKeeper,用于Leader选举

2181 ZooKeeper,用来监听客户端的连接

60010 hbase.master.info.port,HMaster的http端口 60000 hbase.master.port,HMaster的RPC端口

60030 hbase.regionserver.info.port,HRegionServer的http端口 60020 hbase.regionserver.port,HRegionServer的RPC端口 8080 hbase.rest.port,HBase REST server的端口 10000 hive.server2.thrift.port

9083 hive.metastore.uris

 

第二篇:hadoop架构

Hadoop有许多元素构成。其最底部是Hadoop Distributed File System(HDFS),它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是 MapReduce 引擎,该引擎由JobTrackers和TaskTrackers组成。

HDFS

对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是HDFS的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在HDFS内部提供元数据服务;DataNode,它为HDFS提供存储块。由于仅存在一个 NameNode,因此这是HDFS的一个缺点(单点失败)。

存储在HDFS中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的RAID架构大不相同。块的大小(通常为64MB)和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的TCP/IP协议。

NameNode

NameNode是一个通常在HDFS实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode决定是否将文件映射到 DataNode上的复制块上。对于最常见的3个复制块,第一个复制块存储在同一机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。注意,这里需要您了解集群架构。

实际的I/O事务并没有经过NameNode,只有表示DataNode和块的文件映射的元数据经过NameNode。当外部客户机发送请求要求创建文件时,NameNode会以块标识和该块的第一个副本的DataNode IP地址作为响应。这个NameNode还会通知其他将要接收该块的副本的DataNode。

NameNode在一个称为FsImage的文件中存储所有关于文件系统名称空间的信息。这个文件和一个包含所有事务的记录文件(这里是EditLog)将存储在 NameNode的本地文件系统上。FsImage和EditLog文件也需要复制副本,以防文件损坏或NameNode系统丢失。

DataNode

DataNode也是一个通常在HDFS实例中的单独机器上运行的软件。Hadoop集群包含一个

NameNode和大量DataNode。DataNode通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。Hadoop的一个假设是:机架内部节点之间的传输速度快于机架间节点的传输速度。

DataNode响应来自HDFS客户机的读写请求。它们还响应创建、删除和复制来自NameNode的块的命令。NameNode依赖来自每个DataNode的定期心跳(heartbeat)消息。每条消息都包含一个块报告,NameNode可以根据这个报告验证块映射和其他文件系统元数据。如果DataNode不能发送心跳消息,NameNode将采取修复措施,重新复制在该节点上丢失的块。

文件操作

可见,HDFS并不是一个万能的文件系统。它的主要目的是支持以流的形式访问写入的大型文件。如果客户机想将文件写到HDFS上,首先需要将该文件缓存到本地的临时存储。如果缓存的数据大于所需的HDFS块大小,创建文件的请求将发送给NameNode。NameNode将以DataNode标识和目标块响应客户机。同时也通知将要保存文件块副本的DataNode。当客户机开始将临时文件发送给第一个DataNode时,将立即通过管道方式将块内容转发给副本DataNode。客户机也负责创建保存在相同HDFS名称空间中的校验和(checksum)文件。在最后的文件块发送之后,NameNode将文件创建提交到它的持久化元数据存储(在EditLog和FsImage文件)。

Linux集群

Hadoop框架可在单一的Linux平台上使用(开发和调试时),但是使用存放在机架上的商业服务器才能发挥它的力量。这些机架组成一个Hadoop集群。它通过集群拓扑知识决定如何在整个集群中分配作业和文件。Hadoop假定节点可能失败,因此采用本机方法处理单个计算机甚至所有机架的失败。

相关推荐