手機上的大數據(三):手機上的閱讀

【編者按】本文由百分點信息無線業務部高級總監李曉東、Talking Data COO徐懿以及成都電子科大的龔亮聯合撰寫。

在移動互聯網所覆蓋的日常生活中,用戶隨時隨地都在產生數據,數據的產生以及獲取在現在的移動互聯網上已經不是什麼難以攻破的難題。需要我們面對的是從海量數據的分析中得到我們所需要的真正信息。

手機大數據的組織與應用

手機上的大數據對於移動互聯網業務早期無疑具有非常大的指導意義,但並不是所有的手機上產生的大數據都會那麼有意義。比如說社會媒體—微博,每天也會產生大量的數據,但多數都是沒有意義的。

手機大數據的組織與應用

手機上產生的大數據需要重新組織方能揭示出有意義的信息。

在現今的時代,大數據本身不是問題,你從各個渠道都可能獲得海量的數據;我們每個人每天都要生產很大量的數據,關鍵的問題是如何處理、分析這些數據。數據不處理、不分析,就像Mary舉的例子一樣,就是一堆稻草,毫無價值。

稻草堆裡尋針

數據處理、分析就是要從一大垛稻草堆裡面挑出一根針。

這句話有兩層含義:

  • 無論我們從何種渠道,通過何種方式獲得的數據,大量的數據是沒有意義的,這其中只有少量的數據是有效地,可以從中得出一些有規律、有價值的信息的,原始數據需要清洗、整理;(這一點對於移動互聯網更為明顯,一般來說,幾乎80%-90%的移動應用數據都是毫無價值的,只有不到10%-20%左右的數據才包含後續分析所需要的信息)
  • 我們需要通過後續的數據挖掘的工作,從雜亂無章的稻草堆裡找出遺落在層層表象下面的一根針,而非一根稻草!這顯然,不是簡單通過統計就可以得出的;是比統計分析更為複雜的算法,去從簡單關聯過度複雜邏輯的層面。

上一章中,我們知道手機上的大數據的來源多種多樣,不同的移動互聯入口、不同的應用都會導致不同數據的產生,而這些不同的數據又支撐不同的業務,並且不同的業務之間還可能存在一些交叉應用。所以針對這些特點,下面我們根據這些特點來對大數據的組織做一個簡單介紹,手機大數據的組織方式可以採用如下圖的結構。

手機大數據的組織方式

從上面的結構可以看出,手機大數據的組織主要分為以下三個部分:原始數據存儲層,計算層和業務數據存儲層

原始數據存儲層

  • 主要存儲不同入口產生的數據,而不同入口不同數據域也分開並存此時各個數據集是彼此獨立,數據集之間沒有任何聯繫方式。這樣做的好處就是能最大限度的保證原始數據的完善性,正確性。

計算層

  • 該層的主要任務是對原始數據存儲層存取的數據進行挖掘處理,並將挖掘結果按照不同業務進行分類。挖掘處理的大致分為以下兩點:① 對不同數據域進行內部分析,挖掘。② 對不同數據域之間進行關聯分析挖掘。結果分類主要是將挖掘出的結果進行分類,比如音樂、餐飲、廣告等應用。

業務數據存儲層

  • 業務數據存儲層主要是對計算層產出的數據進行分開存儲,以為上層應用提供更明確的數據接口。

當我們對數據進行有效地存儲管理後,我們就可以利用這些大數據進行一些有意義的工作,尤其是對於移動互聯網業務早期無疑具有非常大的指導意義,下面我們以手機閱讀為例,對手機上的大數據如何應用做一個說明。

手機上的閱讀

手機閱讀作為移動互聯網目前為數不多還算有一定共性和沉澱應用之一,是我們早期手機應用研究的對象。所謂「共性」和「沉澱」,就是針對手機應用「碎片化」而言。手機閱讀雖然也有大量的碎片時間,但已經逐漸形成了一早一晚寶貴的「床上」連片時間,有相對比較完整時間片上呈現的行為習慣,有相對比較完整的用戶在移動互聯網上體現出來的偏好信息。

儘管很多報告都顯示,用戶在互聯網與移動互聯網上的表徵有著巨大的差異,但我依然相信,人們在面對一段文字,一個圖片上的喜好、感覺是不會變的。因為人性是不會輕易改變的。互聯網和移動互聯網的用戶行為之所以不同,那是因為應用本身使用場景的不同,解決問題的不同所導致的。並不是一個人在互聯網上是一個性格,而到了移動互聯網上就是另外一個人生了。

這是我們研究手機閱讀上大數據的初衷。

下面,我們以一個曾經做過的手機閱讀項目為例,主要從發現問題、解決問題、結果驗證三個方面來為大家展開。

發現問題

通過對手機閱讀數據的挖掘分析,我們發現了如下幾個問題:

(1) 城市與城市之間的閱讀行為相似

我們統計過杭州、廣州、深圳在某一時間段內用戶的閱讀數據,得到了這三個城市這三個月熱門前二十的數據。

下表統計的是杭州與廣州深圳這兩個城市在該時間段內的熱門閱讀圖書重合數數。

三月
四月
五月

杭州VS深圳
杭州VS廣州
杭州VS深圳
杭州VS廣州
杭州VS深圳
杭州VS廣州

前十
9
9
4
4
2
8

前二十
13
10
8
8
9
14

從表中,我們可以猜測,杭州與深圳、廣州這兩個城市之間確實存在著一定程度上的閱讀相似性。

計算公式為:Sim(A,B) = Same(A,B)*2/[Count(A)+Count(B)]

Sim(A,B)表示的是城市A,B的閱讀相似性。Same(A,B)表示的是城市A,B在某時間段內共同閱讀過的圖書的本書,Count(A)表示的是城市A在某時間段內閱讀過的圖書的本書。

從表中我們可以發現杭州與深圳廣州的閱讀相似性都很高。也就是說杭深或者杭廣城市間閱讀是比較相似的,我們可以考慮用他們來作為閱讀風向標的參考城市。

所以,如果考慮要做風向標分析的話,更傾向於選擇廣州作為杭州的閱讀風向標,杭州作為深圳的風向標,杭州跟廣州可以互相參考。

(2) 移動閱讀的「長尾」現象嚴重

在我們的數據統計中發現,手機閱讀市場基本上靠熱榜和主觀推薦來運營。這就造成了我們所常見的「長尾」效應,而且隨著書籍的增多,這種效應更為嚴重!

(3) 不同行為模式的用戶表現相差比較大

我們通過kmeans聚類算法(一種常見的數據挖掘算法),說明各類用戶之間表現的特徵差異還是比較明顯。

不同行為模式的用戶表現相差比較大

解決方案

我們針對歷史數據進行了分析,對於不同的問題,我們覺得可以採用如下方法進行解決。

(1) 數據聚類推薦送

通過對用戶進行聚類推送圖書,我們發現有如下結果:

數據聚類推薦送

第一類:人群比例接近60%。這類人群一直有閱讀推薦書的行為(平均約e^1),在6月14號當天PV量並沒有提升,而在後面幾天提到較明顯的提升,6月20號之後似乎又回到了之前的PV水平。

第二類:人數較少,僅57人。在推薦前基本無閱讀推薦書行為,而在推薦後閱讀推薦書PV量較大(平均e^2),且後續也有較好的保持,可以認為被推送激發了閱讀推薦書的興趣。

第三類:人群比例接近40%。這類人群在6月13-17號之間閱讀推送書籍的PV量提升非常明顯,但是在這個時間段之外,比較沉默,前期(6月13號前)閱讀推薦書很少,後期(6月17號)閱讀量有些提升,但是還是回歸到比較沉默狀態。

(2) 個性化推送

由於手機的推送方式,目前大多數是通過流行榜來推薦,這就造成了這些被推送的書籍越流行,後面越推送他。反覆的循環下去,就造成了系統長尾現象,數據覆蓋率等問題。所以最好是根據不同的用戶設置不同的推薦方法。這樣可以大大改善系統中這些狀況。

結果驗證

通過我們對數據的挖掘處理,然後用戶實際應用,最後得到了如下的反饋結果:

(1) PV量的增加

首日PV比較

從實驗分析中,我們得出:總的一週反饋率,實驗組是對照組的1.30倍。

  • 推薦成功用戶首日推薦書籍PV總量,實驗組是對照組的8.17倍;人均推薦書籍PV量,實驗組是對照組的15.19倍。
  • 推薦成功用戶首日總激發PV量,實驗組是對照組的9.62倍;人均全部書籍PV量,實驗組是對照組的17.88倍。
  • 推薦成功用戶中,實驗組的一週推薦書籍PV總量約為對照組的5.45倍;人均推薦書籍PV量,實驗組是對照組的4.88倍。
  • 推薦成功用戶中,實驗組的一週總激發PV量是對照組的7.01倍;人均全部書籍PV量,實驗組是對照組的6.28倍。

綜上所述,經過數據挖掘、分析、推薦等算法的處理,手機閱讀的各項指標得到了大幅的提升,其效果已經不是百分之幾十的提高,而是成倍地增加了!這就是大數據應用的魅力!

相關鏈接:

手機上的大數據(一):移動互聯網的入口

手機上的大數據(二):手機大數據的特點

中關村老李雷鋒網專稿,轉載請註明來自雷鋒網及作者,並鏈回本頁)

要得知最新科技消息,請留意派亞普科技創見!

Categories: ,