[中國,北京,2013年12月16日] 全球領先的信息與通信解決方案供應商華為今日宣布,中央研究院香農實驗室在2013Hadoop中國技術峰會(China Hadoop Summit 2013)上提出業界首創的HIMM (Hybrid Iterative Matrix Multiplication) 模型。使用該模型表達的圖數據挖掘算法能夠獲得10倍的性能提升,這對于大數據處理的實時性具有重要意義。
Hadoop中國技術峰會于2013年11月23日在北京圓滿落幕。作為本年度大中華地區規模最大的Hadoop技術峰會,本屆大會的主題是“掘金大數據”。 華為香農實驗室的首席研究員顏友亮發表了“HiGraph:一種面向圖計算的領域編程語言”的演講,介紹了華為香農實驗室在圖計算以及Spark(Berkeley AMP Lab開發的一種基于內存計算的并行計算框架)上所取得的研究成果。
“大數據時代的一個重要方面就是圖的規模越來越大。”顏友亮說,“Facebook人際關系網,包含頂點數目超過10億。其他網絡的規模也在數千萬頂點左右。這使得這些圖上的大量應用,例如好友推薦、尋找最短路徑等無法準實時地得到結果。”
華為香農實驗室提出業界首創的HIMM模型,與傳統圖計算模型相比,具有操作更簡單,接口更實用,編程更輕松等優點。算法開發者使用了HIMM模型,不僅可以用矩陣的方式來表達圖結構,而且還可以用自定義的矩陣運算來表達圖上的各種操作,并通過提供一整套圖計算算子來實現高效的并行圖算法。在底層框架上,基于HIMM的圖計算框架HiGraph會根據不同的硬件環境實現有針對性的一些優化措施,使得HiGraph的性能相比于業界獲得顯著提升。通過測試Pagerank和單源最短路徑的算法,結果顯示:在集群環境模式下,HiGraph借助Spark在迭代計算上的優勢,相比其他的解決方案如Bagel和Giraph,HiGraph的性能提高3倍到20倍;在單機環境模式下,HiGraph充分利用了多核的并行處理能力,實現最大化的并行加速設計,使得在業界開源方案的性能上獲得了至少10倍的提升。
“我們的HiGraph性能比業界高出了一個數量級,能夠在秒級完成PageRank、單源最短路徑等算法,完全能夠勝任大數據處理實時性的要求。”顏友亮說道。
HIMM模型與HiGraph框架對于完善香農實驗室在高性能計算研究的布局具有重要意義。華為香農實驗室也將繼續在圖計算領域和Spark框架上發力,并進一步完善HiGraph,為華為的大數據研究提供了堅實基礎,助力華為更好地進駐大數據領域。