新用户注册入口 老用户登录入口

[转载](Hadoop3)HDFS文件系统

文章作者:转载 更新时间:2023-12-05 22:55:20 阅读数量:275
文章标签:分布式文件系统文件操作Shell命令文件块大小客户端API
本文摘要:本文详细介绍了Hadoop分布式文件系统(HDFS)的关键特性与操作,包括其适用于一次性写入多次读取且不支持修改场景下的128M文件块大小。重点阐述了HDFS的shell命令操作,如通过`hadoop fs`或`hdfs dfs`执行查看、上传、下载、复制、移动和删除等任务。针对Windows环境配置,文章指导如何设置环境变量、放置依赖库以实现HDFS客户端API操作,并演示了Java项目中集成HDFS功能的具体步骤,涉及文件上传、目录创建、文件详情查看、下载及重命名/移动等核心功能的实现。同时简述了NameNode和Secondary NameNode在HDFS架构中的工作原理及其作用。
转载文章

本篇文章为转载内容。原文链接:https://blog.csdn.net/Python1One/article/details/108546050。

该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。

作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。

概述

分布式文件系统
适合:一次写入,多次读出,且不支持修改

文件块大小

128M

HDFS的shell操作(重点)

基本语法

hadoop fs 具体命令
或者
hdfs dfs 具体命名

命令大全

Usage: hadoop fs [generic options][-appendToFile <localsrc> ... <dst>] # 追加[-cat [-ignoreCrc] <src> ...]	# 查看[-checksum <src> ...][-chgrp [-R] GROUP PATH...]	# 改组[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...] # 改权限[-chown [-R] [OWNER][:[GROUP]] PATH...] # 改所有者[-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] <localsrc> ... <dst>] # 上传[-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]# 下载[-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] <path> ...][-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>]	# 复制[-createSnapshot <snapshotDir> [<snapshotName>]][-deleteSnapshot <snapshotDir> <snapshotName>][-df [-h] [<path> ...]][-du [-s] [-h] [-v] [-x] <path> ...]	# 统计磁盘文件大小[-expunge][-find <path> ... <expression> ...][-get [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]	# 下载[-getfacl [-R] <path>][-getfattr [-R] {-n name | -d} [-e en] <path>][-getmerge [-nl] [-skip-empty-file] <src> <localdst>][-head <file>][-help [cmd ...]][-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [-e] [<path> ...]]	# 查看列表[-mkdir [-p] <path> ...]	# 创建[-moveFromLocal <localsrc> ... <dst>]	# 剪切到hdfs[-moveToLocal <src> <localdst>]	# 剪切到本地[-mv <src> ... <dst>]	#移动[-put [-f] [-p] [-l] [-d] <localsrc> ... <dst>]	# 上传[-renameSnapshot <snapshotDir> <oldName> <newName>][-rm [-f] [-r|-R] [-skipTrash] [-safely] <src> ...]	# 删除[-rmdir [--ignore-fail-on-non-empty] <dir> ...][-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]][-setfattr {-n name [-v value] | -x name} <path>][-setrep [-R] [-w] <rep> <path> ...]	# 设置副本数[-stat [format] <path> ...][-tail [-f] <file>][-test -[defsz] <path>][-text [-ignoreCrc] <src> ...][-touch [-a] [-m] [-t TIMESTAMP ] [-c] <path> ...][-touchz <path> ...][-truncate [-w] <length> <path> ...][-usage [cmd ...]]Generic options supported are:
-conf <configuration file>        specify an application configuration file
-D <property=value>               define a value for a given property
-fs <file:///|hdfs://namenode:port> specify default filesystem URL to use, overrides 'fs.defaultFS' property from configurations.
-jt <local|resourcemanager:port>  specify a ResourceManager
-files <file1,...>                specify a comma-separated list of files to be copied to the map reduce cluster
-libjars <jar1,...>               specify a comma-separated list of jar files to be included in the classpath
-archives <archive1,...>          specify a comma-separated list of archives to be unarchived on the compute machinesThe general command line syntax is:
command [genericOptions] [commandOptions]

查看详细命令

hadoop fs -help 命令(如cat)

更改hdfs的权限

vi core-site.xml

		<property><name>hadoop.http.staticuser.user</name><value>root</value></property>

HDFS客户端API操作

Windows环境配置

  1. 将Windows依赖放到文件夹,
  2. 配置环境变量,添加HADOOP_HOME ,编辑Path添加%HADOOP_HOME%/bin
  3. 拷贝hadoop.dll和winutils.exe到C:\Windows\System32

创建java项目

在这里插入图片描述

配置

编辑pom.xml

	<dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>4.12</version></dependency><dependency><groupId>org.apache.logging.log4j</groupId><artifactId>log4j-slf4j-impl</artifactId><version>2.12.0</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.1.3</version></dependency></dependencies>

在src/main/resources中建立log4j2.xml

打印日志到控制台

<?xml version="1.0" encoding="UTF-8"?>
<Configuration status="WARN"><Appenders><Console name="Console" target="SYSTEM_OUT"><PatternLayout pattern="%d{HH:mm:ss.SSS} [%t] %-5level %logger{36} - %msg%n"/></Console></Appenders><Loggers><Root level="error"><AppenderRef ref="Console"/></Root></Loggers>
</Configuration>

编写代码

在/src/main/java/cn.zcx.hdfs创建TestHDFS类

public class TestHDFS {// 创建全局变量private FileSystem fs;private Configuration conf;private URI uri;private String user;// 从本地上传文件@Testpublic void testUpload() throws IOException {fs.copyFromLocalFile(false,true,new Path("F:\\Download\\使用前说明.txt"),new Path("/testhdfs"));}/** @Before 方法在@Test方法执行之前执行* */@Beforepublic void init() throws IOException, InterruptedException {uri = URI.create("hdfs://master:8020");conf = new Configuration();user = "root";fs = FileSystem.get(uri,conf,user);}/** @After方法在@Test方法结束后执行* */@Afterpublic void close() throws IOException {fs.close();}@Testpublic void testHDFS() throws IOException, InterruptedException {//1. 创建文件系统对象
/*URI uri = URI.create("hdfs://master:8020");Configuration conf = new Configuration();String user = "root";FileSystem fs = FileSystem.get(uri,conf,user);System.out.println("fs: " + fs);
*/// 2. 创建一个目录boolean b = fs.mkdirs(new Path("/testhdfs"));System.out.println(b);// 3. 关闭fs.close();}
}

参数优先级

xxx-default.xml < xxx-site.xml < IDEA中resource中创建xxx-site.xml < 在代码中通过更改Configuration 参数

文件下载

    @Testpublic void testDownload() throws IOException {fs.copyToLocalFile(false,new Path("/testhdfs/使用前说明.txt"),new Path("F:\\Download\\"),true);}

文件更改移动

//改名or移动(路径改变就可以)@Testpublic void testRename() throws IOException {boolean b = fs.rename(new Path("/testhdfs/使用前说明.txt"),new Path("/testhdfs/zcx.txt"));System.out.println(b);}

查看文件详细信息

    // 查看文件详情@Testpublic void testListFiles() throws IOException {RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);//迭代操作while (listFiles.hasNext()){LocatedFileStatus fileStatus = listFiles.next();//获取文件详情System.out.println("文件路径:"+fileStatus.getPath());System.out.println("文件权限:"+fileStatus.getPermission());System.out.println("文件主人:"+fileStatus.getOwner());System.out.println("文件组:"+fileStatus.getGroup());System.out.println("文件大小:"+fileStatus.getLen());System.out.println("文件副本数:"+fileStatus.getReplication());System.out.println("文件块位置:"+ Arrays.toString(fileStatus.getBlockLocations()));System.out.println("===============================");}}

文件删除

第二参数,true递归删除

    //文件删除@Testpublic void testDelete() throws IOException {boolean b = fs.delete(new Path("/testhdfs/"), true);System.out.println(b);}

NN与2NN工作原理

在这里插入图片描述

本篇文章为转载内容。原文链接:https://blog.csdn.net/Python1One/article/details/108546050。

该文由互联网用户投稿提供,文中观点代表作者本人意见,并不代表本站的立场。

作为信息平台,本站仅提供文章转载服务,并不拥有其所有权,也不对文章内容的真实性、准确性和合法性承担责任。

如发现本文存在侵权、违法、违规或事实不符的情况,请及时联系我们,我们将第一时间进行核实并删除相应内容。

相关阅读
文章标题:[转载][洛谷P1082]同余方程

更新时间:2023-02-18
[转载][洛谷P1082]同余方程
文章标题:[转载]webpack优化之HappyPack实战

更新时间:2023-08-07
[转载]webpack优化之HappyPack实战
文章标题:[转载]oracle 同时更新多表,在Oracle数据库中同时更新两张表的简单方法

更新时间:2023-09-10
[转载]oracle 同时更新多表,在Oracle数据库中同时更新两张表的简单方法
文章标题:[转载][Unity] 包括场景互动与射击要素的俯视角闯关游戏Demo

更新时间:2024-03-11
[转载][Unity] 包括场景互动与射击要素的俯视角闯关游戏Demo
文章标题:[转载]程序员也分三六九等?等级差异,一个看不起一个!

更新时间:2024-05-10
[转载]程序员也分三六九等?等级差异,一个看不起一个!
文章标题:[转载]海贼王 动漫 全集目录 分章节 精彩打斗剧集

更新时间:2024-01-12
[转载]海贼王 动漫 全集目录 分章节 精彩打斗剧集
名词解释
作为当前文章的名词解释,仅对当前文章有效。
Hadoop Distributed File System (HDFS)HDFS是一种分布式文件系统,专为在大规模集群环境中存储和处理海量数据而设计。在本文语境中,HDFS的主要特点是支持一次写入多次读取且不支持文件修改,每个文件被划分为固定大小的块(如文中提到的128M),并分布在多台计算机节点上以实现高效的数据存储与访问。用户可以通过Hadoop提供的shell命令或客户端API进行文件上传、下载、复制、移动、删除等操作,并可以对文件权限、所有者、组以及其他元数据进行管理。
NameNode (NN)在HDFS架构中,NameNode是主控节点,负责整个文件系统的元数据管理。它维护着文件系统的目录树结构、文件到数据块的映射关系以及每个数据块所在的DataNode列表。当客户端发起文件操作请求时,首先会与NameNode交互获取必要的元数据信息,确保数据操作能够在正确的DataNode上执行。为了提高系统的可靠性和可用性,实际生产环境中通常会部署Secondary NameNode或启用HA高可用方案来辅助或替代NameNode工作。
Secondary NameNode (2NN)Secondary NameNode是Hadoop早期版本中提供的一种辅助服务角色,用于减轻NameNode的工作负担,尤其是在定期合并FsImage(文件系统镜像)和EditLog(编辑日志)方面。虽然名为“Secondary”,但它并不是NameNode的实时备份节点,不能直接接管NameNode的工作。其主要职责是在预定的时间间隔内,从NameNode获取FsImage和EditLog,将它们合并成新的FsImage,然后将其推送给NameNode,这样NameNode就可以用新合并的FsImage替换旧的FsImage,从而释放一部分资源并减少系统恢复时间。随着Hadoop的发展,更先进的高可用(High Availability, HA)解决方案逐渐取代了Secondary NameNode的角色,例如使用多个Active/Standby NameNode节点。
延伸阅读
作为当前文章的延伸阅读,仅对当前文章有效。
在深入理解了Hadoop Distributed File System (HDFS) 的基础操作、特性及Windows环境下的配置后,读者可能对大数据存储与处理领域的最新进展和相关技术动态产生兴趣。实际上,随着数据量的持续增长和技术迭代,HDFS也在不断发展以适应更复杂的应用场景。
近期,Apache Hadoop 3.3.0版本发布,引入了一系列新功能和改进。例如,HDFS现在支持EC(Erasure Coding)策略的进一步优化,能够在保证数据可靠性的同时,显著降低存储开销。此外,NameNode的高可用性和故障切换机制得到增强,确保了大规模集群的稳定运行。
另一方面,为应对云原生时代的挑战,Hadoop社区正积极将HDFS与Kubernetes等容器编排平台进行整合。如Open Data Hub项目就提供了在Kubernetes上部署HDFS及整个Hadoop生态系统的解决方案,使企业能够更加灵活高效地构建和管理基于云的大数据服务。
同时,对于那些寻求超越HDFS局限性的用户,可以关注到像Apache Hudi、Iceberg这样的开源项目,它们在HDFS之上构建了事务性数据湖存储层,支持ACID事务、时间旅行查询等功能,极大地丰富了大数据处理的可能性。
总之,掌握HDFS是理解和使用大数据技术的基础,而关注其演进路径以及相关的创新技术和解决方案,则有助于我们在实际应用中更好地利用HDFS及其生态系统的力量,解决日益复杂的数据管理和分析需求。
知识学习
实践的时候请根据实际情况谨慎操作。
随机学习一条linux命令:
cat <(command1) <(command2) > output.txt - 将两个命令的输出合并到一个文件中。
随便看看
拉到页底了吧,随便看看还有哪些文章你可能感兴趣。
纯js实用T恤衫花纹图案预览特效 01-26 基于Bootstrap仿Github样式下拉列表框插件 08-08 jQuery电子邮件地址填写自动完成插件 04-30 Superset 数据源连接配置:精细化自定义SQLAlchemy URI实现数据分析与可视化,含SSL加密连接实例 03-19 jquery可任意拖动排序的导航图片效果 02-23 侧边栏个人图文简历HTML模板 12-09 Beego框架升级中的Bee工具版本兼容性问题与迁移策略:结构变更、功能接口变动及社区解决方案 12-07 Kibana无法启动:针对服务器内部错误的Elasticsearch连接、配置文件、端口冲突与资源排查解决(注:由于字数限制,未能完全包含所有关键词,但包含了核心问题描述及几个关键排查点) 11-01 ClickHouse外部表使用中文件权限与不存在问题的解决方案:错误提示、查询操作与文件路径管理实务 09-29 本次刷新还10个文章未展示,点击 更多查看。
Apache Atlas UI无法正常加载与样式丢失问题排查及解决方案:关注网络连接、浏览器缓存与开发者工具应用 09-25 Greenplum数据库中数据插入操作详解:单行多行插入与gpfdist实现大批量导入 08-02 [转载]html5 footer header,html-5 --html5教程article、footer、header、nav、section使用 07-16 [转载][GCC for C]编译选项---IDE掩盖下的天空 06-29 简洁大方珠宝钻石收藏网站模板下载 06-20 黑色高端精致汽车4s店美容html5模板下载 06-01 蓝色互联网项目融资管理平台网站模板 05-16 响应式游戏开发类企业前端cms模板下载 05-02 Beego框架动态路由实现:重定向与命令行参数驱动的路由设计实践 04-05 .NET 中字典操作避免 KeyNotFoundException:TryGetValue、ContainsKey 与 GetOrAdd 实践详解 04-04 [转载]2021/4/23爬虫第五次课(爬虫网络请求模块下下) 03-01
时光飞逝
"流光容易把人抛,红了樱桃,绿了芭蕉。"