您的位置:新文秘網(wǎng)>>畢業(yè)論文/文教論文/畢業(yè)相關(guān)/科技/調(diào)研報告/>>正文

論文開題:分布式存儲系統(tǒng)相關(guān)技術(shù)的研究

發(fā)表時間:2013/8/12 18:24:48


大學(xué)本科畢業(yè)論文(設(shè)計)開題報告
學(xué)院:計算機(jī)科學(xué)與技術(shù)            專業(yè)班級:08計算機(jī)科學(xué)與技術(shù)B班 

課題名稱 分布式存儲系統(tǒng)相關(guān)技術(shù)的研究

1.課題的研究目的和意義
現(xiàn)代信息總量在飛速增長——每年增加的信息是歷史所有信息量的總和,因此對于存儲系
統(tǒng)的需求是:具有巨大容量、高可靠性、高可用性、高性能、動態(tài)可擴(kuò)展性和易維護(hù)性等。
雖然隨著硬盤技術(shù)的發(fā)展,市場上普通硬盤容量不斷增大,但用戶在多數(shù)情況下未能充分利用他們的硬盤,有大量的閑置存儲空間。而有的用戶需要存儲大量文件,卻苦于硬盤容量過;而其他高性能的存儲設(shè)備的情況也是如此,如高性能RAID、NAS往往都有多余的存儲空間。
為前提,分布式存儲最初研究的正是將文件分散存儲到網(wǎng)絡(luò)的、愿意貢獻(xiàn)和分享多余的存儲空間的不同硬盤或其它存儲設(shè)備上,解決單個主機(jī)磁盤容量小,不足以存儲大量文件的缺陷。方法是把這些單機(jī)的硬盤或存儲設(shè)備看做存儲節(jié)點,每個節(jié)點既提供自己的存儲空間給他人,也使用他人的存儲空間存儲數(shù)據(jù),最終達(dá)到充分合理利用局域網(wǎng)內(nèi)不同主機(jī)磁盤存儲空間的目的?偟膩碚f就是用廉價的、閑散的資源完成大量的數(shù)據(jù)存儲和計算,一方面提高了資源的利用率,另一方面提高了存儲效率。分布式存儲的這些優(yōu)點使其得到
……(新文秘網(wǎng)http://jey722.cn省略892字,正式會員可完整閱讀)…… 
的可行性,在Napster 關(guān)閉之后,更多的P2P 文件共享系統(tǒng)迅速崛起,成為Internet 發(fā)展的一股巨大浪潮,其中最著名的是Gnutella[3]和KaZaA[3]。Gnutella 對Naspter 的體系結(jié)構(gòu)進(jìn)行了徹底的改變不再使用中心目錄服務(wù)器,轉(zhuǎn)而使用全對等結(jié)構(gòu):每個結(jié)點記錄多個其它結(jié)點的IP 地址(稱為“指針”),
這樣整個系統(tǒng)的拓?fù)渚统蔀橐粋由指針搭建起來的有向圖KaZaA 對Gnutella 做了進(jìn)一步改進(jìn)。KaZaA 獲得了比Gnutella 更高的穩(wěn)定性和搜索效率。
服務(wù)器幾乎都使用異步模式[4]工作,使用IOCP[5]以及NT5.0線程池[5]技術(shù)可以獲得最佳性能,而線程池的基礎(chǔ)是多線程[8]技術(shù)及線程同步[6]問題。P2P分布存儲主要涉及文件分塊算法[7],文件的傳輸,文件的校驗,網(wǎng)絡(luò)傳輸效率的提高等問題,因為網(wǎng)絡(luò)故障時有發(fā)生,是不可預(yù)料的。
當(dāng)今P2P主要面臨的新問題是:節(jié)點數(shù)量大、動態(tài)性高、異構(gòu)性強(qiáng),分布廣泛。
現(xiàn)在幾種分布式存儲:
(1) Google文件系統(tǒng)(Google File System - GFS)[9],用來滿足Google迅速增長的數(shù)據(jù)處理需求。GFS與過去的分布文件系統(tǒng)擁有許多相同的目標(biāo),例如性能,可伸縮性,可靠性以及可用性。然而,它的設(shè)計還受到應(yīng)用負(fù)載和技術(shù)環(huán)境觀察的影響,采取了完全不同的設(shè)計觀點。
①  組件失效不再被認(rèn)為是意外,而是被看做正常的現(xiàn)象。
② 按照傳統(tǒng)的標(biāo)準(zhǔn)來看,文件非常巨大,數(shù)G的文件非常尋常。
③ 在Google大部分文件的修改,不是覆蓋原有數(shù)據(jù),而是在文件尾追加新數(shù)據(jù)。
④ 應(yīng)用程序和文件系統(tǒng)API的協(xié)同設(shè)計提高了整個系統(tǒng)的靈活性。
(2) Memcached[10]是一個高性能的分布式的內(nèi)存對象緩存系統(tǒng),通過在內(nèi)存里維護(hù)一個統(tǒng)一的巨大的hash表,它能夠用來存儲各種格式的數(shù)據(jù),包括圖像、視頻、文件以及數(shù)據(jù)庫檢索的結(jié)果等。Memcached由Danga Interactive開發(fā),用于提升LiveJournal.com訪問速度的。LJ每秒動態(tài)頁面訪問量幾千次,用戶700萬。Memcached將數(shù)據(jù)庫負(fù)載大幅度降低,更好的分配資源,更快速訪問。
(3)Hadoop[11]分布式文件系統(tǒng)(HDFS)被設(shè)計成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點。但同時,它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個高度容錯性的系統(tǒng),適合部署在廉價的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS放寬了一部分POSI*約束,來實現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。HDFS在最開始是作為Apache Nutch搜索引擎項目的基礎(chǔ)架構(gòu)而開發(fā)的。HDFS是Apache Hadoop Core項目的一部分。














① 
② Storage Nodes 實際文件存放的地方。




2、 本課題的主要研究內(nèi)容(提綱)和成果形式分布式存儲系統(tǒng)相關(guān)技術(shù)研究
第一章 緒論
第一節(jié) 課題研究的背景
第二節(jié) 主要研究內(nèi)容
第二章 分布式系統(tǒng)關(guān)鍵技術(shù)
第一節(jié) 分布式系統(tǒng)模型簡介
第二節(jié) 分布式系統(tǒng)基礎(chǔ)算法
第三節(jié) 本章小結(jié)
第三章 HADOOP整體架構(gòu)
第一節(jié) HADOOP核心組件概述
第二節(jié) HADOOP分布式文件系統(tǒng)(HDFS)
第三節(jié) 本章小結(jié)
第四章 數(shù)據(jù)存儲及計算模型
第一節(jié) 需求分析
第二節(jié) 設(shè)計思想
第三節(jié) 功能模塊
第四節(jié) 本章小結(jié)
第五章 數(shù)據(jù)及存儲計算模型部署
第一節(jié) 方案部署
第二節(jié) 結(jié)果分析
第三節(jié) 測試的截屏
第四節(jié) 本章小結(jié)
第六章 結(jié)論
第一節(jié) 結(jié)論
第二節(jié) 展望
參考文獻(xiàn)
致謝
附錄
成果形式:整個系統(tǒng),進(jìn)行配置并測試;一篇完整的論文
3、 擬解決的關(guān)鍵問題:
一、 在實驗室裝好Hadoop系統(tǒng)
二、 用linu*進(jìn)行配置
三、 對項目進(jìn)行測試
四、 完成全部論文
5、研究思路、方法和步驟:
思路:通過了解項目的背景和技術(shù)背景,了解相關(guān)技術(shù)和各種算法,了解Hadoop的整體架構(gòu),分布式存儲及其計算模型,對其模型進(jìn)行部署,最后進(jìn)行測試。
方法:一步一步來,從小處著手,先整體了解整個項目,然后再一個一個細(xì)節(jié)的去實現(xiàn)它。
步驟:
理解文 1、 件系統(tǒng)的理論知識;
(2) 熟悉現(xiàn)有幾種主流分布式文件系統(tǒng)的構(gòu)架 ……(未完,全文共4958字,當(dāng)前僅顯示2504字,請閱讀下面提示信息。收藏《論文開題:分布式存儲系統(tǒng)相關(guān)技術(shù)的研究》
文章搜索
相關(guān)文章