本文摘要：本文详细介绍了Hadoop分布式文件系统（HDFS）的关键特性与操作，包括其适用于一次性写入多次读取且不支持修改场景下的128M文件块大小。重点阐述了HDFS的shell命令操作，如通过`hadoop fs`或`hdfs dfs`执行查看、上传、下载、复制、移动和删除等任务。针对Windows环境配置，文章指导如何设置环境变量、放置依赖库以实现HDFS客户端API操作，并演示了Java项目中集成HDFS功能的具体步骤，涉及文件上传、目录创建、文件详情查看、下载及重命名/移动等核心功能的实现。同时简述了NameNode和Secondary NameNode在HDFS架构中的工作原理及其作用。

转载文章

本篇文章为转载内容。原文链接：https://blog.csdn.net/Python1One/article/details/108546050。

该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。

作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

概述

分布式文件系统
适合：一次写入，多次读出，且不支持修改

文件块大小

128M

HDFS的shell操作（重点）

基本语法

hadoop fs 具体命令
或者
hdfs dfs 具体命名

命令大全

Usage: hadoop fs [generic options][-appendToFile <localsrc> ... <dst>] # 追加[-cat [-ignoreCrc] <src> ...]	# 查看[-checksum <src> ...][-chgrp [-R] GROUP PATH...]	# 改组[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...] # 改权限[-chown [-R] [OWNER][:[GROUP]] PATH...] # 改所有者[-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] <localsrc> ... <dst>] # 上传[-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]# 下载[-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] <path> ...][-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>]	# 复制[-createSnapshot <snapshotDir> [<snapshotName>]][-deleteSnapshot <snapshotDir> <snapshotName>][-df [-h] [<path> ...]][-du [-s] [-h] [-v] [-x] <path> ...]	# 统计磁盘文件大小[-expunge][-find <path> ... <expression> ...][-get [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]	# 下载[-getfacl [-R] <path>][-getfattr [-R] {-n name | -d} [-e en] <path>][-getmerge [-nl] [-skip-empty-file] <src> <localdst>][-head <file>][-help [cmd ...]][-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [-e] [<path> ...]]	# 查看列表[-mkdir [-p] <path> ...]	# 创建[-moveFromLocal <localsrc> ... <dst>]	# 剪切到hdfs[-moveToLocal <src> <localdst>]	# 剪切到本地[-mv <src> ... <dst>]	#移动[-put [-f] [-p] [-l] [-d] <localsrc> ... <dst>]	# 上传[-renameSnapshot <snapshotDir> <oldName> <newName>][-rm [-f] [-r|-R] [-skipTrash] [-safely] <src> ...]	# 删除[-rmdir [--ignore-fail-on-non-empty] <dir> ...][-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]][-setfattr {-n name [-v value] | -x name} <path>][-setrep [-R] [-w] <rep> <path> ...]	# 设置副本数[-stat [format] <path> ...][-tail [-f] <file>][-test -[defsz] <path>][-text [-ignoreCrc] <src> ...][-touch [-a] [-m] [-t TIMESTAMP ] [-c] <path> ...][-touchz <path> ...][-truncate [-w] <length> <path> ...][-usage [cmd ...]]Generic options supported are:
-conf <configuration file>        specify an application configuration file
-D <property=value>               define a value for a given property
-fs <file:///|hdfs://namenode:port> specify default filesystem URL to use, overrides 'fs.defaultFS' property from configurations.
-jt <local|resourcemanager:port>  specify a ResourceManager
-files <file1,...>                specify a comma-separated list of files to be copied to the map reduce cluster
-libjars <jar1,...>               specify a comma-separated list of jar files to be included in the classpath
-archives <archive1,...>          specify a comma-separated list of archives to be unarchived on the compute machinesThe general command line syntax is:
command [genericOptions] [commandOptions]

查看详细命令

hadoop fs -help 命令（如cat）

更改hdfs的权限

vi core-site.xml

		<property><name>hadoop.http.staticuser.user</name><value>root</value></property>

HDFS客户端API操作

Windows环境配置

将Windows依赖放到文件夹，
配置环境变量，添加HADOOP_HOME ，编辑Path添加%HADOOP_HOME%/bin
拷贝hadoop.dll和winutils.exe到C:\Windows\System32

创建java项目

在这里插入图片描述

配置

编辑pom.xml

	<dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version></dependency><dependency><groupId>org.apache.logging.log4j</groupId><artifactId>log4j-slf4j-impl</artifactId><version>2.12.0</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.1.3</version></dependency></dependencies>

在src/main/resources中建立log4j2.xml

打印日志到控制台

<?xml version="1.0" encoding="UTF-8"?>
<Configuration status="WARN"><Appenders><Console name="Console" target="SYSTEM_OUT"><PatternLayout pattern="%d{HH:mm:ss.SSS} [%t] %-5level %logger{36} - %msg%n"/></Console></Appenders><Loggers><Root level="error"><AppenderRef ref="Console"/></Root></Loggers>
</Configuration>

编写代码

在/src/main/java/cn.zcx.hdfs创建TestHDFS类

public class TestHDFS {// 创建全局变量private FileSystem fs;private Configuration conf;private URI uri;private String user;// 从本地上传文件@Testpublic void testUpload() throws IOException {fs.copyFromLocalFile(false,true,new Path("F:\\Download\\使用前说明.txt"),new Path("/testhdfs"));}/** @Before 方法在@Test方法执行之前执行* */@Beforepublic void init() throws IOException, InterruptedException {uri = URI.create("hdfs://master:8020");conf = new Configuration();user = "root";fs = FileSystem.get(uri,conf,user);}/** @After方法在@Test方法结束后执行* */@Afterpublic void close() throws IOException {fs.close();}@Testpublic void testHDFS() throws IOException, InterruptedException {//1. 创建文件系统对象
/*URI uri = URI.create("hdfs://master:8020");Configuration conf = new Configuration();String user = "root";FileSystem fs = FileSystem.get(uri,conf,user);System.out.println("fs: " + fs);
*/// 2. 创建一个目录boolean b = fs.mkdirs(new Path("/testhdfs"));System.out.println(b);// 3. 关闭fs.close();}
}

参数优先级

xxx-default.xml < xxx-site.xml < IDEA中resource中创建xxx-site.xml < 在代码中通过更改Configuration 参数

文件下载

    @Testpublic void testDownload() throws IOException {fs.copyToLocalFile(false,new Path("/testhdfs/使用前说明.txt"),new Path("F:\\Download\\"),true);}

文件更改移动

//改名or移动（路径改变就可以）@Testpublic void testRename() throws IOException {boolean b = fs.rename(new Path("/testhdfs/使用前说明.txt"),new Path("/testhdfs/zcx.txt"));System.out.println(b);}

查看文件详细信息

    // 查看文件详情@Testpublic void testListFiles() throws IOException {RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);//迭代操作while (listFiles.hasNext()){LocatedFileStatus fileStatus = listFiles.next();//获取文件详情System.out.println("文件路径："+fileStatus.getPath());System.out.println("文件权限："+fileStatus.getPermission());System.out.println("文件主人："+fileStatus.getOwner());System.out.println("文件组："+fileStatus.getGroup());System.out.println("文件大小："+fileStatus.getLen());System.out.println("文件副本数："+fileStatus.getReplication());System.out.println("文件块位置："+ Arrays.toString(fileStatus.getBlockLocations()));System.out.println("===============================");}}

文件删除

第二参数，true递归删除

    //文件删除@Testpublic void testDelete() throws IOException {boolean b = fs.delete(new Path("/testhdfs/"), true);System.out.println(b);}

NN与2NN工作原理

在这里插入图片描述

本篇文章为转载内容。原文链接：https://blog.csdn.net/Python1One/article/details/108546050。

该文由互联网用户投稿提供，文中观点代表作者本人意见，并不代表本站的立场。

作为信息平台，本站仅提供文章转载服务，并不拥有其所有权，也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况，请及时联系我们，我们将第一时间进行核实并删除相应内容。

名词解释

作为当前文章的名词解释，仅对当前文章有效。

Hadoop Distributed File System (HDFS)：HDFS是一种分布式文件系统，专为在大规模集群环境中存储和处理海量数据而设计。在本文语境中，HDFS的主要特点是支持一次写入多次读取且不支持文件修改，每个文件被划分为固定大小的块（如文中提到的128M），并分布在多台计算机节点上以实现高效的数据存储与访问。用户可以通过Hadoop提供的shell命令或客户端API进行文件上传、下载、复制、移动、删除等操作，并可以对文件权限、所有者、组以及其他元数据进行管理。

NameNode (NN)：在HDFS架构中，NameNode是主控节点，负责整个文件系统的元数据管理。它维护着文件系统的目录树结构、文件到数据块的映射关系以及每个数据块所在的DataNode列表。当客户端发起文件操作请求时，首先会与NameNode交互获取必要的元数据信息，确保数据操作能够在正确的DataNode上执行。为了提高系统的可靠性和可用性，实际生产环境中通常会部署Secondary NameNode或启用HA高可用方案来辅助或替代NameNode工作。

Secondary NameNode (2NN)：Secondary NameNode是Hadoop早期版本中提供的一种辅助服务角色，用于减轻NameNode的工作负担，尤其是在定期合并FsImage（文件系统镜像）和EditLog（编辑日志）方面。虽然名为“Secondary”，但它并不是NameNode的实时备份节点，不能直接接管NameNode的工作。其主要职责是在预定的时间间隔内，从NameNode获取FsImage和EditLog，将它们合并成新的FsImage，然后将其推送给NameNode，这样NameNode就可以用新合并的FsImage替换旧的FsImage，从而释放一部分资源并减少系统恢复时间。随着Hadoop的发展，更先进的高可用（High Availability, HA）解决方案逐渐取代了Secondary NameNode的角色，例如使用多个Active/Standby NameNode节点。