- 时间:2021-04-15 09:21 编辑:野上由加奈 来源:蚂蚁资源 阅读:202
- 扫一扫,手机访问
摘要:大家好,今天给大家介绍关于hadoop文件系统(hadoop简介)的相关内容,详细讲解Hadoop分布式文件系统和OpenStack对象存储有何不同,我在win7上安装的Hadoop。在格式化Hadoop文件系统HDFS时出现了您出现过的问题,求解,hadoop 连接 出现找不到文件系统错误等,希望可以帮助到您。
Hadoop分布式文件系统和OpenStack对象存储有何不同,最近在Quora上提到的问题,这是关于Hadoop分布式文件系统和OpenStack对象存储的不同。原文如下:“HDFS(Hadoop分布式文件系统)和OpenStack对象存储似乎具有类似的目的:实现冗余,快速,网络存储。这两个系统不同?这两个存储系统最终融入了这两个系统如果他们非常有意义?“在提出的问题后,OpenStack开发人员很快就会回复。本文将前两个回复删除了所有参考的翻译。第一个答案来自Rackspace OpenStack Swift开发人员Chuck他们:虽然HDFS类似于OpenStack对象存储(SWIFT),但这两个系统的整体设计非常不同nt。 1. HDFS使用中央系统来维护文件元数据(NameNode,Name节点),并且在SWIFT中,分布式元数据,并复制交叉组。在单个故障点中使用用于HDF的中央数据系统更难以扩展一个非常大的环境。 2. SWIFT在设计时考虑了多租户架构,HDFS没有多租户架构。 3. HDFS针对更大的文件进行了优化(通常在处理数据时发生),并且SWIFT旨在存储任何可以存储任何大小的文件。 4.在HDFS中,文件写入一次,每次只有一个文件写;在SWIFT中,文件可以多次写入;在并发操作环境中,最近的操作受到最后一次操作。 5.编写了HDFS在Java中,Swift用Python写。此外,HDFS旨在将更大的文件存储为支持数据处理,而Swift则设计为相对普遍的存储解决方案,可靠地存储大量不同的尺寸。第二次答案来自约书亚Mckenty,他是NASA星云云计算项目的首席架构师,它是OpenStack Nova Software的早期开发人员。目前是OpenStack项目监管委员会的成员,或露天公司的公司创始人。查克刚刚介绍了两者之间的技术差异,但两者可以想象的没有集成,并且OpenStack设计峰会抛出了这个主题的集成。简而言之,HDFS旨在实现MapReduce处理使用OOP,存储环境中的对象。对于许多OpenStack公司(包括我自己的公司),支持SWIFT的处理是路线图之上的目标,但每个人都认为MapReduce是一个解决方案。我们已经讨论了HDFS的Wrapen包装器,它将支持OpenStack内部存储应用程序编程接口(API),并允许用户对此数据执行Hadoop查询。还有一种方法可以在SWIFT中使用HDF。但这些方法似乎不是理想的。 OpenStack社区也在研发中进行一些工作,仔细研究其他替代地图德框架(RIAK和CouchdB等)。最后,目前还有一些其他存储项目“属于OpenStack社区(Sheepdog和HC2)。利用数据本地y并使对象存储变为“更智能”,预计将取得进展。
我在win7上安装的Hadoop。在格式化Hadoop文件系统HDFS时出现了您出现过的问题,求解,尝试bin / hdfs namenode -format
hadoop 连接 出现找不到文件系统错误,HDFS配置文件未加载
责任编辑(
野上由加奈)
以上就是关于**hadoop文件系统,hadoop简介**的全部内容,如有需要以上系统,请在搜索框搜索商品或者咨询客服,了解更多请关注蚂蚁资源网。
内容来源于网络,如无意中有侵权,请联系客服核实,以便及时删除,谢谢支持!
- 追梦
- hadoop里有哪些机制,Hadoop的核心机制是通过HDFS文件系统和MapReduce算法进行存储资源、内存和程序的有效利用与管理。然后Hadoop还包括的项目:mapreduce分布式处理模型;HDFS分布式文件系统;pig数据流语言和运行环境;hive分布式按列存储的数据仓库;HBase,ZooKeeper,Sqoop
- 2021-04-15 09:21:08
- hz
- 分布式文件系统很多,包括GFS,HDFS,HDFS基本可以认为是GFS的一个简化版实现,二者因此有很多相似之处。首先,GFS和HDFS都采用单一主控机+多台工作机的模式,由一台主控机(Master)存储系统全部元数据,并实现数据的分布、复制、备份决策,主控机还实现了元数据的checkpoint和操作日志记录及回放功能。工作机存储数据,并根据主控机的指令进行数据存储、数据迁移和数据计算等。其次,GFS和HDFS都通过数据分块和复制(多副本,一般是3)来提供更高的可靠性和更高的性能。当其中一个副本不可用时,系统都提供副本自动复制功能。同时,针对数据读多于写的特点,读服务被分配到多个副本所在机器,提供了系统的整体性能。最后,GFS和HDFS都提供了一个树结构的文件系统,实现了类似与Linux下的文件复制、改名、移动、创建、删除操作以及简单的权限管理等。然而,GFS和HDFS在关键点的设计上差异很大,HDFS为了规避GFS的复杂度进行了很多简化。首先,GFS最为复杂的部分是对多客户端并发追加同一个文件,即多客户端并发Append模型 。GFS允许文件被多次或者多个客户端同时打开以追加数据,以记录为单位。假设GFS追加记录的大小为16KB ~ 16MB之间,平均大小为1MB,如果每次追加都访问GFS Master显然很低效,因此,GFS通过Lease机制将每个Chunk的写权限授权给Chunk Server。写Lease的含义是Chunk Server对某个Chunk在Lease有效期内(假设为12s)有写权限,拥有Lease的Chunk Server称为Primary Chunk Server,如果Primary Chunk Server宕机,Lease有效期过后Chunk的写Lease可以分配给其它Chunk Server。多客户端并发追加同一个文件导致Chunk Server需要对记录进行定序,客户端的写操作失败后可能重试,从而产生重复记录,再加上客户端API为异步模型,又产生了记录乱序问题。Append模型下重复记录、乱序等问题加上Lease机制,尤其是同一个Chunk的Lease可能在Chunk Server之间迁移,极大地提高了系统设计和一致性模型的复杂度。而在HDFS中,HDFS文件只允许一次打开并追加数据,客户端先把所有数据写入本地的临时文件中,等到数据量达到一个Chunk的大小(通常为64MB),请求HDFS Master分配工作机及Chunk编号,将一个Chunk的数据一次性写入HDFS文件。由于累积64MB数据才进行实际写HDFS系统,对HDFS Master造成的压力不大,不需要类似GFS中的将写Lease授权给工作机的机制,且没有了重复记录和乱序的问题,大大地简化了系统的设计。然而,我们必须知道,HDFS由于不支持Append模型带来的很多问题,构建于HDFS之上的Hypertable和HBase需要使用HDFS存放表格系统的操作日志,由于HDFS的客户端需要攒到64MB数据才一次性写入到HDFS中,Hypertable和HBase中的表格服务节点(对应于Bigtable中的Tablet Server)如果宕机,部分操作日志没有写入到HDFS,可能会丢数据。其次是Master单点失效的处理 。GFS中采用主从模式备份Master的系统元数据,当主Master失效时,可以通过分布式选举备机接替主Master继续对外提供服务,而由于Replication及主备切换本身有一定的复杂性,HDFS Master的持久化数据只写入到本机(可能写入多份存放到Master机器的多个磁盘中防止某个磁盘损害),出现故障时需要人工介入。另外一点是对快照的支持 。GFS通过内部采用copy-on-write的数据结构实现集群快照功能,而HDFS不提供快照功能。在大规模分布式系统中,程序有bug是很正常的情况,虽然大多数情况下可以修复bug,不过很难通过补偿操作将系统数据恢复到一致的状态,往往需要底层系统提供快照功能,将系统恢复到最近的某个一致状态。总之,HDFS基本可以认为是GFS的简化版,由于时间及应用场景等各方面的原因对GFS的功能做了一定的简化,大大降低了复杂度。
- 2021-04-15 09:21:08
- 哆啦A梦的爸爸
- 从fs -ls从列出来的文件看,这个文件夹/user/root/input是通过root用户创建的。说明你在从本地文件系统拷贝input目录到hdfs系统的时候,不是采用的hadoop用户,而是用root用户执行的拷贝命令,你可能忘记切换用户了,可以删除现在的input目录(采用root用户运行hadoop的删除命令,或者不删除也没关系),重新使用hadoop用户把input导入到hdfs系统中试试看。frostfish425说的是对的!/user/hadoop是安装目录,就是说你hadoop相关的配置和代码都是放在这个位置,这个你自己定就可以了,但是要注意你配置文件和环境变量中的相关配置都要相应的发生改变。而/tmp/hadoop-hadoop/dfs/name是你配置的hdfs目录,也就是数据存放目录,在hdfs-site.xml中配置的,当然你也可以改变这个目录!这个目录挂载的磁盘要足够大,不然数据存放不下,你初始化的时候报的这个Storage directory /tmp/hadoop-hadoop/dfs/name has been successfully formatted其实就是在/tmp/hadoop-hadoop/dfs这个目录下创建了name目录,意思就是告诉你,数据存放目录已经创建成功了!
- 2021-04-15 09:22:53