当前位置：首页 > 资讯评论

hdfs文件系统（hadoop集群配置文件）

全部评论(3)

wolf8668
在正式介绍HDFS小文件存储方案之前，我们先介绍一下当前HDFS上文件存取的基本流程。(1) 读文件流程1）client端发送读文件请求给namenode，如果文件不存在，返回错误信息，否则，将该文件对应的block及其所在datanode位置发送给client2）签名系统 client收到文件位置信息后，与不同datanode建立socket连接并行获取数据。(2) 写文件流程1） client端发送写文件请求，namenode检查文件是否存在，如果已存在，直接返回错误信息，否则，发送给client一些可用namenode节点2） client将文件分块，并行存储到不同节点上datanode上，发送完成后，client同时发送信息给namenode和datanode3） namenode收到的client信息后，发送确信信息给datanode4） datanode同时收到namenode和datanode的确认信息后，提交写操作。
2021-12-20 12:42:11

至深科技
有许多分布式文件系统，包括GFS，HDF和HDFS基本上可以被视为GFS的简化版本，因此存在许多相似之处。首先，GFS和HDFS都使用单个主控制器+多个工作机器，所有元数据存储系统，以及实现数据分布，复制，备份决策和主控机器。元数据和播放功能的检查点和操作记录。工作机器存储数据，并根据主设备的命令执行数据存储，数据迁移和数据计算。其次，GFS和HDFS通过数据块和复制（一般3）提供更高的可靠性和更高的性能（通常为3）。当其中一个副本不可用时，系统提供复制函数的副本。同时，读取服务被分配给机器的多个副本，提供系统的整体性能。最后，GFS和HDF都提供了树结构文件SYSTEM实现了类似的文件复制，翻新，移动，创建，删除操作和简单权限管理和简单权限管理。但是，GFS和HDFS在关键点中具有不同的设计，HDFS具有大量简化，以避免GFS的复杂性。首先，GFS最复杂的部分是为多客户端添加相同的文件，即多客户端并发追加模型。GFS允许由多个或多个客户端打开文件以将数据添加到单位。假设GFS附加记录在16KB到16MB之间，平均大小为1MB，如果每个额外的访问，GFS主人显然是低效的，因此，GFS通过租用机制授权每个块的写入权限到块服务器。租赁的含义是封闭租赁的有效期内的块（假设为12s），具有写入权限，其中有租赁的块服务器，如果主要的块服务器是停机，则追逐租赁分析后有效送到其他块服务器。多客户并发附加文件使Chunk服务器订购记录，可以在客户端的写入操作失败后重试，导致重复记录，加上客户端API作为异步模型，并生成记录图表问题。在Append模型下，您可以在HDFS中重复您的记录，倒角等，只允许一次打开和添加数据。客户端将所有数据写入本地临时文件，等待达到数据量。块大小（通常为64MB），请求HDFS Master以分配工作机和块号，将块的数据写入HDFS文件一次。由于实际写入了64MB数据的累积，因此HDFS主设备引起的压力不大。它不需要将租赁授权写入类似于GFS的工作机器，并且没有重复的记录和混乱，这是大大简化的。系统设计。但是，我们必须知道HDFS是由HyperTable和HB构建的ASE不支持的Append Model，Hypertable和HBase支持，需要使用HDFS存储表系统，因为HDFS客户端需要64MB数据是一次性写入HDFS，HDF在高度和HBase中的表服务节点（对应在Bigtable中的平板电脑服务器（如果停机），则不会写入HDFS的一些操作日志，这可能会丢失。其次，主单点失败。在GFS中，使用主从模式备份系统元数据。当主主设备失败时，它可以设置主主主站以继续主母主机，因为复制和主题切换本身具有某些复杂性，因此HDFS掌握持久性数据仅写入设备（可能会写入在主机中存储的多个磁盘中的多个磁盘损坏），有必要在故障出现故障时进行干预。另一点是对快照的支持。GFS通过复制的内部数据结构实现群集快照功能 - 编写，而HDFS不提供快照功能。在大规模的分布式系统中，该程序具有正常的错误。虽然在大多数情况下可以修复错误，但是难以通过补偿操作将系统数据恢复为一致的状态，通常需要底层系统的快照功能，系统恢复到最近一致的状态。总之，HDFS可以基本上认为GFS被简化，由于时间和应用方案等，GFS的功能已经简化，这大大降低了复杂性。
2021-12-20 12:40:48

515680997
hadoop分布式文件系统具有怎样的特性,硬件错误硬件错误是常态而不是异常。HDFS可能由成百上千的服务器所构成，每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的，而且任一组件都有可能失效，这意味着总是有一部分HDFS的组件是不工作的。因此错误检测和快速、自动的恢复是HDFS最核心的架构目标。流式数据访问运行在HDFS上的应用和普通的应用不同，需要流式访问它们的数据集。HDFS的设计中更多的考虑到了数据批处理，而不是用户交互处理。比之数据访问的低延迟问题，更关键的在于数据访问的高吞吐量。POSIX标准设置的很多硬性约束对HDFS应用系统不是必需的。为了提高数据的吞吐量，在一些关键方面对POSIX的语义做了一些修改。大规模数据集运行在HDFS上的应用具有很大的数据集。HDFS上的一个典型文件大小一般都在G字节至T字节。因此，HDFS被调节以支持大文件存储。它应该能提供整体上高的数据传输带宽，能在一个集群里扩展到数百个节点。一个单一的HDFS实例应该能支撑数以千万计的文件。简单的一致性模型HDFS应用需要一个“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题，并且使高吞吐量的数据访问成为可能。Map/Reduce应用或者网络爬虫应用都非常适合这个模型。目前还有计划在将来扩充这个模型，使之支持文件的附加写操作。“移动计算比移动数据更划算”一个应用请求的计算，离它操作的数据越近就越高效，在数据达到海量级别的时候更是如此。因为这样就能降低网络阻塞的影响，提高系统数据的吞吐量。将计算移动到数据附近，比之将数据移动到应用所在显然更好。HDFS为应用提供了将它们自己移动到数据附近的接口。异构软硬件平台间的可移植性HDFS在设计的时候就考虑到平台的可移植性。这种特性方便了HDFS作为大规模数据应用平台的推广。
2021-12-20 12:40:48

商品推荐