巨大挺进乖女翘臀乱H继,公车上弄得我好爽,公粗一夜6次挺进我的密道

解析優酷土豆在大數據方面的管理與運用

來源：易賢網閱讀：2403 次日期：2016-07-14 11:24:58

溫馨提示：易賢網小編為您整理了“解析優酷土豆在大數據方面的管理與運用”,方便廣大網友查閱！

這篇文章主要介紹了優酷土豆在大數據方面的管理與運用,優酷著手Hadoop集群應用的起步較早,在相關大數據管理的方面也較有經驗,需要的朋友可以參考下

姚鍵是優酷土豆集團CTO，據他介紹，優酷新上線的首頁頁面上，光是導航欄上的視頻分類就有21個，21個不同類型的內容，這意味著會有各種不同的用戶來優酷看視頻，要想給不同的用戶推薦他們喜歡的視頻，這靠的是一個叫做“協同過濾推薦”的技術。

百度百科上這樣介紹協同過濾推薦（Collaborative Filtering recommendation）：“是在信息過濾和信息系統中正迅速成為一項很受歡迎的技術。與傳統的基于內容過濾直接分析內容進行推薦不同，協同過濾分析用戶興趣，在用戶群中找到指定用戶的相似（興趣）用戶，綜合這些相似用戶對某一信息的評價，形成系統對該指定用戶對此信息的喜好程度預測。”

這是亞馬遜、谷歌等互聯網巨頭都在使用的技術。亞馬遜會告訴你“買了A商品的顧客也同時購買了B商品”，Youtube上，一個視頻播放結束，馬上就會出現相關推薦視頻。

看上去簡單的相關推薦，其實在優酷的視頻推薦中涉及上百個參數，每次要調整參數，都要手動調整十幾甚至幾十個參數，每天推薦視頻的數據模型中要涉及的數據高達幾十億。

一次小小的參數調整，帶來的后果，可能是當天視頻觀看帶來幾百萬的增長，也可能是在算法穩定后的未來幾周，甚至幾個月帶來視頻觀看量的曲線變化。

當然，數字證實，通過這種協同過濾推薦給用戶的視頻是靠譜的，因為在海量的視頻中尋找自己喜歡的視頻成本是很高的，推薦視頻的打開率也令人滿意。

優酷土豆心中的“大數據”

數據的挖掘、分析，用在推薦視頻上，還只是個小意思。優酷在2010年推出的“優酷指數”把大數據精神進一步強化，把視頻播放周期、用戶核心特征、用戶播放行為、視頻熱度排行等數據進行展示。

姚鍵這樣介紹優酷指數誕生的背景：“2010年的時候，優酷在PC互聯網時代已經成為最有影響力的視頻網站，優酷希望能夠在行業內樹立一個標桿，在強化優酷品牌的同時，也打造優酷指數這樣一個概念。”

今年，優酷指數進而演變成“中國網絡視頻指數”，加入了土豆網以及移動客戶端的視頻數據，對數字感興趣的用戶，可以從這個指數里讀出很多內容。

作為一款平臺化的產品，“中國網絡視頻指數”在優酷土豆集團中的參考價值無處不在，從廣告售賣，到版權購買，再到播放器產品的優化，等等，處處都能夠作為指導依據。

據姚鍵透露，優酷土豆集團推出的數據報告給節目制作方、影視劇公司、第三方分析機構等了解視頻節目的播放信息，以及觀眾人群的分析提供了依據；在廣告銷售方面，能夠為廣告主呈現出用戶行為特征，提供廣告投放價值的分析；在進行版權購買的時候，可以根據指數的走向來幫助決策；公司內部，哪怕是播放器產品的用戶體驗優化，都可以查看數據分析結果，查看按鈕的擺放和使用頻率等。

這些價值都是顯而易見的，還有我們在表面看不到的，通過數據分析的結果來指導優酷土豆集團的自制內容。

“比如說優酷有很多自制的內容，有很多的微電影、綜藝節目等等，這些播放數據可以顯示出哪些題材是用戶喜歡的，用戶看到哪里就看不下去了，在哪里是拖放觀看的，一系列的用戶行為可以清晰地告訴內容制作人員，應該怎么去剪輯視頻，怎么去選擇內容題材。”姚鍵說。

其實這個過程也是對視頻質量進行分析的過程，在優酷土豆的搜索、推薦中按照視頻質量進行排序，反過來也提高了推薦成功率。

然而，大數據讀出的數據，其指導意義還遠不止此。

每部電影、電視劇在播出后都會有對應的數據，哪些演員受歡迎，哪些題材受追捧，通過分析數據就可以慢慢發現背后的原因，把這個受歡迎的故事講出來，這就是可見的未來。

敢為人先優酷土豆用Spark完善大數據分析

大數據，一個似乎已經被媒體傳播的過于泛濫的詞匯，的的確確又在逐漸影響和改變著我們的生活。也許有人認為大數據在中國仍然只是噱頭，但在當前中國互聯網領域，大數據以及大數據所催生出來的生產力正在潛移默化地推動業務發展，并為廣大中國網民提供更加優秀的服務。優酷土豆作為國內最大的視頻網站，和國內其他互聯網巨頭一樣，率先看到大數據對公司業務的價值，早在2009年就開始使用Hadoop集群，隨著這些年業務迅猛發展，優酷土豆又率先嘗試了仍處于大數據前沿領域的Spark/Shark 內存計算框架，很好地解決了機器學習和圖計算多次迭代的瓶頸問題，使得公司大數據分析更加完善。

MapReduce之痛

提到大數據，自然不能不提Hadoop。HDFS已然成為大數據公認的存儲，而MapReduce作為其搭配的數據處理框架在大數據發展的早期表現出了重大的價值。可由于其設計上的約束MapReduce只適合處理離線計算，其在實時性上仍有較大的不足，隨著業務的發展，業界對實時性和準確性有更多的需求，很明顯單純依靠MapReduce框架已經不能滿足業務的需求了。

優酷土豆集團大數據團隊技術總監盧學裕就表示：“現在我們使用Hadoop處理一些問題諸如迭代式計算，每次對磁盤和網絡的開銷相當大。尤其每一次迭代計算都將結果要寫到磁盤再讀回來，另外計算的中間結果還需要三個備份，這其實是浪費。”

據悉，優酷土豆的Hadoop大數據平臺是從2009年開始采用，最初只有10多個節點，2012年集群節點達到150個，2013年更是達到300個，每天處理數據量達到200TB。優酷土豆鑒于Hadoop集群已經逐漸勝任不了一些應用，于是決定引入Spark/Shark內存計算框架，以此來滿足圖計算迭代等的需求。

Spark是一個通用的并行計算框架，由伯克利大學的AMP實驗室開發，Spark已經成為繼Hadoop之后又一大熱門開源項目，目前已經有英特爾等企業加入到該開源項目。

“我們大數據平臺對快速需求的響應延時，尤其是在商業智能BI以及產品研究分析等需要多次對大數據做Drill Down與Drill Up時，等待成了效率殺手。” 優酷土豆集團大數據團隊技術總監盧學裕表示。

用Spark/Shark完善大數據分析

目前大數據在互聯網公司主要應用在廣告、報表、推薦系統等業務上。在廣告業務方面需要大數據做應用分析、效果分析、定向優化等，在推薦系統方面則需要大數據優化相關排名、個性化推薦以及熱點點擊分析等。優酷土豆屬于典型的互聯網公司，目前運用大數據分析平臺的主要工作是運營分析、機器學習、廣告定向優化、搜索優化等方面。

優酷土豆集團大數據團隊技術總監盧學裕表示：“優酷土豆的大數據平臺已經用了很多年，突出問題主要包括：第一是商業智能BI方面，公司的分析師提交任務之后需要等待很久才得到結果；第二就是大數據量計算，比如進行一些模擬廣告投放之時，計算量非常大的同時對效率要求也比較高，用Hadoop消耗資源非常大而且響應比較慢；最后就是機器學習和圖計算的迭代運算也是需要耗費大量資源且速度很慢。”

因此，面對復雜任務、交互式查詢以及流在線處理時，Hadoop與MapReduce并不適用。Spark/Shark這種內存型計算框架則比較適合各種迭代算法和交互式數據分析，可每次將彈性分布式數據集（RDD）操作之后的結果存入內存中，下次操作可直接從內存中讀取，省去了大量的磁盤IO，效率也隨之大幅提升。優酷土豆集團大數據團隊大數據平臺架構師傅杰表示：“一些應用場景并不適合在MapReduce里面去處理。通過對比，我們發現Spark性能比MapReduce提升很多。”

“比如在圖計算方面，視頻與視頻之間存在的相似關系，這就構成了一個圖譜，通過圖譜來做聚類，再給用戶做視頻推薦。” 優酷土豆集團大數據團隊技術總監盧學裕表示。

優酷土豆集團大數據團隊技術總監盧學裕表示：“我們進行過圖計算方面的測試，在4臺節點的Spark集群上用時只有5.6分鐘，而同規模的數據量，單機實現需要80多分鐘，并且內存吃滿，單機無法實現Scale-Out，不能計算更大規模數據。”

“在今天，數據處理要求非常快。比如優酷土豆的一些客戶、廣告商往往臨時就需要看一下投放效果。所以在前端應用不變的情況下，如果能更快的響應市場的需要就變得很有競爭力。市場是瞬息萬變的，有一些分析結果也需要快速響應成一個產品，Spark集成到數據平臺正能發揮這樣的效果。” 優酷土豆集團大數據團隊大數據平臺架構師傅杰補充道。

據了解，優酷土豆采用Spark/Shark大數據計算框架得到了英特爾公司的幫助，起初優酷土豆并不熟悉Spark以及Scala語言，英特爾幫助優酷土豆設計出具體符合業務需求的解決方案，并協助優酷土豆實現了該方案。此外，英特爾還給優酷土豆的大數據團隊進行了Scala語言、Spark的培訓等。

“優酷土豆作為國內視頻行業第一家商用部署Spark/Shark方案的公司，從視頻行業的多樣化分析角度來看是個非常好的方案。未來，英特爾將會繼續與優酷土豆在Spark/Shark進行合作，包括硬件配置的優化以及整體方案的優化等”英特爾（中國）有限公司銷售市場部互聯網及媒體行業企業客戶經理李志輝介紹道。

未來：將Spark/Shark融入到Hadoop 2.0

對于大數據而言，Hadoop已經構建完成了較為完善的生態系統，特別是Hadoop 2.0版本在推出之后，改善了諸多缺點。而Spark/Shark計算框架其實與Hadoop并不沖突，Spark現在已經可以直接運行在Yarn的框架之上，成為Hadoop生態系統之中不可或缺的成員。

優酷土豆集團大數據團隊大數據平臺架構師傅杰表示：“目前Hadoop 2.0已經發布了release版本，我們已經啟動了對Hadoop 2.0的升級預演。這中間還涉及到我們在1.0版本上修改的一些特性需要遷移和驗證，我們希望做到在不影響業務的情況下實現平滑升級，預計在明年Q1完成升級。Hadoop 2.0將會是非常強大的，不再僅僅是MapReduce，還能融入Spark，能夠讓用戶可以根據數據處理應用需求的不同來選擇合適的計算框架。”

上一篇：高質量移動網站應該如何創建

下一篇：簡介Hadoop集群技術在優酷土豆的應用

易賢網手機網站地址：解析優酷土豆在大數據方面的管理與運用

由于各方面情況的不斷調整與變化，易賢網提供的所有考試信息和咨詢回復僅供參考，敬請考生以權威部門公布的正式信息和咨詢為準！

相關閱讀網站運營

這么些年你真的會網購嗎省錢賺錢秘籍10月30日

電商行業開發者如何基于云端構建業務？騰訊云+未來峰會上這樣說10月30日

網站SEO外鏈怎樣發才會被收錄？六點外鏈發布技巧分享10月30日

SEO如何布局長尾關鍵詞 SEO長尾關鍵詞布局思路簡析10月30日

登錄頁面怎么設計更好？登錄頁面設計的15個心理學策略10月30日

淺析三點搜索引擎圖片搜索收錄展現基本要求10月30日

利用高權重網站借力操作關鍵詞快速排名 SEO實戰干貨分享10月30日