基于虚拟化与分布式技术的存储系统

作者：时间：2012-05-31 来源：网络

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

摘要：介绍了一套基于云计算(cloud computing)技术的数据应用平台系统设计方案。该系统由多组服务器集群组成，可提供数据存储、备份和并行运算服务。并可采用虚拟化应用端与分布式(Hadoop)技术相结合的方式为用户提供高容量和异构应用存储系统，以便结合iSCSI协议在硬件层获得更灵活的部署。
关键词：虚拟化；数据处理；分布式存储；云计算

0 引言
通过FreeBSD系统搭建开源的Hadoop存储应用基础，依托在服务器虚拟化(VMware)的平台上进行运行，这样能够拥有更快、更稳定、更安全的硬件保障，使用iSCSI技术，尽可能降低存储部署成本。本系统利用VMware虚拟化平台将服务器硬件存储资源进行整合，通过建立Lun将服务器的磁盘阵列进行划分，组成多个磁盘逻辑，然后通过在Lun上安装FreeBSD操作系统及搭建iSCSI服务器端，使得存储硬件资源能够灵活地应用在Hadoop系统中。Hadoop将部署在虚拟化硬件平台上构成一个分布式的文件系统，通过WebDAV协议建立与客户端服务器的应用通信。用户可以通过访问客户端服务器，将文件通过WebDAV以HTTPS方式传输到Hadoop存储集群中保存。
该平台的设计充分利用了虚拟化与分布式技术的特点，采用多层次的模块化应用将整个存储系统从硬件架构到软件应用方式都变得灵活和易扩展，同时又因为虚拟化与分布式技术本身的安全特性，系统在数据安全性上具有先天优势，从而实现数据存储服务的低成本部署。

1 系统设计原理
存储系统采用底层云存储技术与应用层iSCSI技术来为用户提供跨系统应用平台支持。其工作原理如图1所示。

本文引用地址：https://www.eepw.com.cn/article/148960.htm

系统首先由多台数据存储服务器通过iSCSI网络构成一个庞大的数据存储服务集群，每一台数据服务器的配置是相同的。当数据达到存储池饱和状态时，可以将同样配置的服务器加入到这个存储网络中，在不改变原有系统运行状态下实现扩容。
系统采用VMware ESXi Server虚拟系统作为应用服务器集群底层系统，各应用服务器系统可在VMware虚拟系统之上建立逻辑上的关联。 VMware允许多个操作系统并行运行于一台高性能服务器之上和多个高性能服务器运行同一任务，同时通过网络对操作系统进行备份和管理，能够依据应用服务使用状况对操作系统实施迁移和复制，从而扩大网络应用处理带宽。
在VMware层上安装FreeBSD系统平台搭建Hadoop分布式存储系统，Hadoop系统能将数据同时分割成许多小块和备份，通过点播服务器(NameNode)存放于不同的数据存储服务器中。在Hadoop系统中，会有一台Master，主要负责NameNode的工作以及JobTracker的工作。Job Tracker的主要职责就是启动、跟踪和调度各个Slave的任务执行。还会有多台Slave，每一台Slave通常具有DataNode的功能并负责Task Tracker的工作。TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务。
在NameNode上部署WebDAV应用，实现应用服务器对存储资源的通信，从而让用户调用Hadoop上的数据。WebDAV(Web-based Distributed Authoring and Versioning)是基于HTTP 1．1的一个通信协议。它为HTTP 1．1添加了一些扩展(就是在GET、POST、HEAD等几个HTTP标准方法以外添加了一些新的方法)，使得应用程序可以直接将文件写到Web Server上，从而替代传统的FTP传输文件模式。

2 系统关键技术实现
存储平台通过在Hadoop上部署WebDAV，可实现客户端(应用服务器)对服务器端(Hadoop节点服务器)的复制和移动文件，并可进行多用户同时读取一个文件等操作。
实施步骤(以四台服务器为例，结合局域网内DNS服务器)：
第一步：Hadoop环境搭建使用Hadoop的用户，机器名和IP依次为域名vc1(192．168．1．1)，域名vc2(192．168．1．2)，域名vc3(19 2．168．1．3)和域名vc4(192．168．1．4)。这是因为四台机器中vc3作为Hadoop的Namenode，其他的作为Datanode。
详细环境配置介绍如下：
Hadoop版本为0．20．2；
JDK版本为1．6．0；
操作系统为FreeBSD8．0(最小化安装)。
ve3(192．168．1．3)是NameNode(Master)，其他三台作为DateNode(slave)．
Hadoop是Java语言编写的机群程序，它的安装是建立在ssh和JDK之上的，所以在配置Hadoop之前首先要对系统进行ssh和JDK的安装与配置。
(1)通过ssh来实现Hadoop节点之间用户的无密码访问
①在各个节点的／etc／hosts文件中添加节点IP及对应机器名，并在各个节点上建立相同用户名与密码的账户。
修改／etc／hosts文件如下：
192．168．1．1 vc1
192．168．1．2 vc2
192．168．1．3 vc3
192．168．1．4 vc4
修改成功后就可以实现IP地址与机器名的对应解析。
在各个节点建立用户名为Hadoop，密码为123456的用户。

新闻中心

基于虚拟化与分布式技术的存储系统

评论

相关推荐

技术专区