第一篇:易觀智庫:大數(shù)據(jù)下的用戶分析及用戶畫像(18頁PPT附下載)
大數(shù)據(jù)下,用戶分析的核心是什么? ——解決實際問題
確定用戶分析目的,具體是為了降低成本?增加收入?優(yōu)化用戶體驗?提升營銷效果?用戶針對性管理?
確定目的后開始選擇合適的數(shù)據(jù),然后搭建模型,最后得出結(jié)果,并用數(shù)據(jù)可視化解讀。大數(shù)據(jù)時代,用戶數(shù)據(jù)使用成為企業(yè)發(fā)展的重中之重 數(shù)據(jù)基礎(chǔ)平臺:
1、用戶唯一+ 用戶行為ID + 用戶畫像 + 用戶興趣
2、數(shù)據(jù)接入系統(tǒng)計算任務(wù)調(diào)度系統(tǒng)+ 元數(shù) 完善產(chǎn)品運營,提升用戶體驗:
1、業(yè)務(wù)運營監(jiān)控 異動智能分析 金字塔體系 用戶路徑分析 數(shù)據(jù)體系
2、用戶/客戶體驗優(yōu)化 產(chǎn)品體驗分析 口碑監(jiān)測
用戶/客戶體驗研究 對外服務(wù),提升盈利
3、對外服務(wù),提升盈利 精細化營銷 個性化推薦
用戶生命周期管理 活動效果提升
自助提取和分析工具
4、數(shù)據(jù)服務(wù) 數(shù)據(jù)分析產(chǎn)品化 分析結(jié)果可視化 分析結(jié)果實時化 戰(zhàn)略分析 業(yè)務(wù)經(jīng)營分析 收入分析 競爭分析 用戶維護
用戶數(shù)據(jù)的構(gòu)成——用戶畫像基礎(chǔ)數(shù)據(jù)
1、網(wǎng)絡(luò)行為數(shù)據(jù)指標 活躍人數(shù)
訪問/啟動次數(shù) 頁面瀏覽量 訪問時長 裝機量 激活率 滲透率 外部觸點
2、網(wǎng)站內(nèi)行為數(shù)據(jù)指標 唯一頁面瀏覽次數(shù) 頁面停留時間 直接跳出訪問數(shù) 訪問深度
進入或離開頁面 瀏覽路徑
評論次數(shù)與內(nèi)容
3、用戶內(nèi)容偏好數(shù)據(jù)指標 使用APP/登陸網(wǎng)站 時間/頻次 瀏覽/收藏內(nèi)容 評論內(nèi)容 互動內(nèi)容
用戶生活形態(tài)偏好 用戶品牌偏好 用戶地理位置
4、用戶交易數(shù)據(jù)指標 貢獻率
客單件/客單價 連帶率 回頭率 流失率
促銷活動轉(zhuǎn)化率 喚醒率
下面是詳細的PPT,最后附下載:
文檔下載:大數(shù)據(jù)下的用戶分析.pdf
第二篇:用戶定位數(shù)據(jù)分析報告
用戶定位數(shù)據(jù)分析報告
目的
運用可利用的數(shù)據(jù)資源,分析魔秀客戶端產(chǎn)品所面向的主要用戶群體特征,包括用戶的人口學屬性,使用產(chǎn)品的目標、行為、動機,以及用戶價值觀和對某些事物的傾向等
數(shù)據(jù)來源
本分析報告中所采用的數(shù)據(jù),主要來自艾瑞、第一象限以及GA、友盟、DCCI 數(shù)據(jù)分析
用戶基本屬性
人口屬性
第一象限----性別和年齡 / 22
第一象限----學歷分布
第一象限----職業(yè)分布
第一象限----收入分布 / 22
第一象限----地區(qū)分布
艾瑞----性別比例 / 22
艾瑞----年齡分布
艾瑞----學歷分布 / 22
艾瑞----職業(yè)分布
DCCI----年齡與學歷分布
分析: / 22
20到39歲中青年為主體;男女用戶比例接近,男性比例略高于女性用戶;受教育程度主要分布在高中至大學本科階段;主要集中在北京、上海、廣州、深圳等一線城市,以及天津、鄭州、成都、重慶、西安等二線城市;按地區(qū)分布的特征為華東,華北、華南和東北地區(qū)分布較集中,西北和西南地區(qū)的用戶占比相對較低;學生在用戶群體中的比例最高,其次為普通企業(yè)員工和個體工商業(yè)者
終端使用情況
操作系統(tǒng)
第一象限----操作系統(tǒng)分布 / 22
艾瑞----操作系統(tǒng)分布
在此項數(shù)據(jù)上,第一象限與艾瑞的數(shù)據(jù)分歧較大,塞班借助諾基亞曾經(jīng)的市場份額,仍然擁有較大的存量市場占有率;anroid和ios系統(tǒng)的占比上升迅速,并且在新增終端中占據(jù)更大比重,隨著用戶終端的更新?lián)Q代,android和ios系統(tǒng)將逐步取代symbian的市場地位,成為主要的智能終端操作系統(tǒng);微軟的Windows Mobile和Windows Phone緊隨其后,后期的市場表現(xiàn)有待觀察;黑莓排名第六,用戶比例不足1% / 22
手機品牌
第一象限----終端品牌分布
艾瑞----終端品牌分布
諾基亞仍然占據(jù)首位,但比重已較前幾年有較大下降;三星在android終端市場發(fā)力,其市場份額有明顯成長,進一步拉近與諾基亞的距離;蘋果的市場份額超過10%;HTC與蘋果相比份額已有明顯差距;華為、中興等國產(chǎn)品/ 22
牌,憑借在二三線城市的優(yōu)勢,市場份額也有較大提高
第一象限----安卓用戶年齡收入分布
第一象限----收入分布 / 22
DCCI----收入分布 / 22
DCCI----手機價格分布
安卓系統(tǒng)受低收入年輕人及三十歲左右的高收入人群親睞 / 22
常用功能
第一象限----用戶常用功能
手機除了上網(wǎng)功能外,最常扮演的角色是相機、音樂播放器和游戲機,人群使用比例在75%以上;另外攝像、藍牙/紅外傳輸、電子書、彩信功能使用比例也較高,用戶比例達到七成左右
上網(wǎng)行為
第一象限----用戶上網(wǎng)行為 / 22
艾瑞----用戶上網(wǎng)行為
瀏覽新聞,即時通訊、在線閱讀和應用下載在手機用戶的上網(wǎng)行為中占據(jù)很大比重,其次手機搜索、收發(fā)郵件,地圖導航的用戶比例也較高
使用習慣
第一象限----操作習慣
90%以上的用戶習慣使用右手操作 / 22
第一象限----手機使用場合
同2011相比,2012年手機人在睡前、醒后、廁所里使用手機的比例基本維持穩(wěn)定。手機仍是最晚離開和最早接觸的媒介
常用APP類型
第一象限----常用APP類型 / 22
游戲娛樂類App最受歡迎,安裝比例最高為61.70%,其次網(wǎng)絡(luò)瀏覽、即時聊天、影音播放類App的用戶安裝比例也超過50%。輸入法、導航地圖、圖像拍照、閱讀、系統(tǒng)軟件、詞典等類型的App也活獲得用戶較多偏好。不過總體來看,在App上用戶的偏好類型相對較廣,更愿意用多種類型的App來輔助自己的手機生活
產(chǎn)品關(guān)注點
第一象限----產(chǎn)品關(guān)注點
用戶在選擇App的時候,依然是價格敏感人群,有超過一半的人會關(guān)注軟件是否免費,其次用戶的評價、下載量也是用戶選擇App的考量標準。另外,App軟件需要占用多大的空間,也成為關(guān)注的重點。而中文界面由于更加接近我國手機用戶的使用習慣,也獲得30.36%的用戶關(guān)注 / 22
第一象限----用戶APP更換頻率
第一象限----用戶APP更換頻率
用戶更換APP并非固定的使用習慣,產(chǎn)品的使用體驗成為用戶更換的重要條件,接近一半的用戶只在遇到使用體驗更好的產(chǎn)品時才會進行更換 / 22
第一象限----用戶產(chǎn)品忠誠度變化
APP轉(zhuǎn)換使用成本較低,多數(shù)類別的APP均存在不同程度的多產(chǎn)品并用、換用情況 游戲娛樂類的APP流動性最強,安裝多個、頻繁更換比例均為最高
桌面美化、影音播放、網(wǎng)絡(luò)瀏覽、閱讀等對手機功能補充擴展并且其功能可以脫機使用的APP忠誠度尤其低 導航地圖、安全防護、辦公工具、郵件、同步備份等需要服務(wù)商持續(xù)提供服務(wù)的APP產(chǎn)品換用、并用比例相對較低 / 22
第一象限----個性化桌面工具使用情況
個性化需求飆升,桌面管理類軟件在APP用戶中基本普及,使用桌面管理類APP的用戶占比達到84.20% 常用的手機桌面應用包括GO桌面、點心桌面、91桌面、安卓桌面、QQ桌面、小米桌面、QQ桌面、寶軟桌面等
基本屬性分析結(jié)論
目前手機終端用戶群以20到39歲,學歷為高中到大學本科的學生和企業(yè)員工、個體戶為主,男性比例略高于女性用戶,主要集中在北京、上海、廣州、深圳等一線城市,以及天津、鄭州、成都、重慶、西安等二線城市,除iphone之外,主要使用價格在1000到3000元之間的三星、華為、htc等android手機以及NOKIA塞班手機,主要使用手機上網(wǎng)瀏覽,拍照,聽音樂,看書和玩游戲,對個人終端有很強的個性化需求,相當一部分用戶使用桌面管理類應用對自己的手機終端進行美化和管理;在選擇APP產(chǎn)品時,受價格因素、下載量和評價內(nèi)容影響較大,有從眾心理,對產(chǎn)品的忠誠度較低;除通話、短信等基本通訊功能外,主要的使用時間分布仍呈碎片化,使用場景主要集中在睡前,醒后,廁所以及交通工具內(nèi) 用戶關(guān)注的內(nèi)容 / 22
GA----用戶關(guān)注內(nèi)容(關(guān)鍵詞)
通過GA數(shù)據(jù),獲得用戶關(guān)注度比較高的部分關(guān)鍵詞,由此得出,用戶對時尚、娛樂、體育、名車、明星以及設(shè)計感較強的內(nèi)容關(guān)注度較高,將關(guān)鍵詞內(nèi)容再提煉,可以得出一些用戶關(guān)注內(nèi)容的形容詞,包括但不限于: 流行、時尚、炫酷、科技、可愛、唯美、小清新、浪漫、帥氣 …… …… 百度指數(shù)分析
百度指數(shù)反應出關(guān)注某一關(guān)鍵詞的用戶分布,使用百度指數(shù),分析各關(guān)鍵詞和競品被關(guān)注情況 關(guān)鍵詞:手機主題
百度指數(shù)----相關(guān)關(guān)鍵詞 / 22
百度指數(shù)----關(guān)注用戶地區(qū)分布
百度指數(shù)----關(guān)注用戶群人口屬性
關(guān)注“手機主題”的用戶,主要分布在北上廣等一線城市與鄭州、天津、西安等二線城市,主要使用三星、HTC,以及華為、中興等品牌的手機,年齡層以16到29歲為主,男女用戶比例非常接近,女性比例略高于男性,絕大多數(shù)用戶的受教育程度在高中至大學本科階段,以學生為主,其次為IT企業(yè)員工;除“手機主題”外,延伸的關(guān)鍵詞包括“免費”、“安卓”、“小米”和“OPPO”,說明大部分用戶傾向于使用免費的安卓主題管理應用,小米和OPPO手機用戶對手機主題的關(guān)注度高于其他品牌手機用戶 關(guān)鍵詞:GO桌面 / 22
百度指數(shù)----相關(guān)關(guān)鍵詞
百度指數(shù)----關(guān)注用戶地區(qū)分布
百度指數(shù)----關(guān)注用戶群人口屬性
關(guān)注“GO桌面”的用戶,其地理分布,以及年齡層、教育程度和職業(yè)分布情況,與關(guān)注“手機主題”的用戶群的人口屬性基本一致,差別在于男女用戶的比例出現(xiàn)了變化,男性用戶占比達到67.94%,是女性用戶的兩倍 / 22
關(guān)鍵詞:點心桌面 競品分析
相關(guān)的影響因素分析(不同用戶群、類別、因素等在產(chǎn)品使用中的差異性和相關(guān)性分析)/ 22
第三篇:信用卡的用戶畫像與場景分析
信用卡的用戶畫像與場景分析
曾設(shè)想過一個問題:如果讓我做一個信用卡有關(guān)的APP,我會怎么做?先調(diào)研市場,重點研究數(shù)據(jù),得出用戶畫像,從而進行場景分析,這將是我的步驟。根據(jù)《中國銀行卡產(chǎn)業(yè)發(fā)展藍皮書(2016)》相關(guān)的信用卡報告,持卡用戶的用戶畫像內(nèi)容涵蓋了以下三部分: 第一部分:信用卡持卡用戶特征分析第二部分:信用卡用戶消費行為分析第三部分:用戶信用卡管理行為分析第一部分:信用卡持卡用戶特征分析
1、“80后”為持卡主力,占比接近四成目前的持卡人群以“80后”和“90后”為主,“80后”持卡用戶占比高達42.15 %,堪稱主力;“90后”持卡用戶緊隨其后,占比為28.04%?!?0后”持卡用戶占比為21.63 %,70后與80后一共接近七成多的比例。
2、男性持卡用戶占絕對優(yōu)勢男性持卡用戶占比高達86.06%,女性持卡用戶僅占13.94%,男女比例約6:1。
3、城市持卡用戶占比近90%目前,信用卡持卡用戶主要集中在城市地區(qū),市郊及鄉(xiāng)鎮(zhèn)地區(qū)由于辦卡業(yè)務(wù)不普及、滿足辦卡條件的人群較少等客觀原因,持卡用戶占比較低,僅為11.06%。從地域分布情況看,南方的持卡用戶要多于北方持卡用戶。
4、月收入萬元以下的持卡用戶占比高持卡人群中,近八成用戶月收入在萬元以下,其中,月收入5000-10000元(含)的用戶占比最高,為49.04%;月收入5000元以下(含)的用戶,占比為27.88%;月收入在10000元以上的用戶僅占22.59%。以上數(shù)據(jù)得出結(jié)論:80后為主,70、90后為輔,大部分為男性,年齡在27-37之間,有房貸車貸,小孩年齡0-15歲,消費偏理性(1)金融理財場景 用戶場景一:辦理信用卡本質(zhì)是借款,借款額度無法滿足需求,繼續(xù)借款,借款場景搭建。用戶場景二:擁有一定財富積累的男性,身價的升值,理財保險購買的場景搭建。(2)購買商品場景 用戶場景三:男性愛車,與汽車廠商合作,推出分期購買車以及車的周邊設(shè)備購買。用戶場景四:90后使用信用卡趨勢越發(fā)明顯,大熱的王者榮耀游戲,除了推出王者榮耀信用卡,也可與騰訊舉辦信用卡打折購買皮膚等活動。用戶場景五:信用卡的用戶男性為主,意味著商品分期的品類、積分兌換商品的品類等等商品,在選品上,建議更多地以男性為主,而不是女性(女性更多的購物場景為淘寶支付寶)第二部分:信用卡用戶消費行為分析1、66%的用戶持有三張以下信用卡“玩轉(zhuǎn)”多張信用卡的用戶占比不高,66%的用戶持有三張以下信用卡;45.83%的用戶持有信用卡的時間在一年以內(nèi)。
2、敗家指數(shù):七成用戶月均消費金額在收入金額50%(含)以內(nèi)70.52%的用戶平均每月消費金額不超過月收入金額的50%,“每月消費占總收入的比例” 最多為30%-50%,達到37.98%。根據(jù)相關(guān)性分析,收入越高的用戶,每月消費占收入比越高。月收入2萬-3萬的持卡用戶每月花銷比例最高,當中有67.6%的人每月花掉收入的50%以上。
3、月刷萬元以上的用戶占比最高超五成用戶平均每月刷卡消費次數(shù)在10次以下。55.40%的持卡用戶平均每月刷卡金額在5000元以上,月均刷卡以達5505.80元。平均每月信用卡賬單金額(所有卡賬單總和)在10000元以上的用戶占比最多,達到23.56%,其次為1000元-3000元,占比為21.79%。
4、信用卡里的錢花費渠道在信用卡日常消費類型中,占大頭的是超市購物、網(wǎng)絡(luò)購物和美食餐飲這三項。85.26%的用戶預期明年“刷卡消費”會提高,對“消費能力”具有較強信心。
5、用戶日常消費支付方式以刷信用卡為主用日常消費支付方式采用“信用卡刷卡支付”的占比最高,達到75.48%;其次為通過第三方綁定信用卡支付,占比超過50%。數(shù)據(jù)可見,當前信用卡支付的滲透,無論從線下消費,還是線上消費角度,都處于第一位。以上數(shù)據(jù)得出結(jié)論:大部分用戶手持三張以下信用卡,且時間較短,消費額度在50%以內(nèi),偏理性,但在高收入群體中,收入與消費比例成正比,花費渠道最多的是超市購物,使用場景最多的是日常消費支付。用戶場景一:收入越高,消費占比越高,以此證明高端客戶使用信用卡的頻次越高,借款的需求越大,所以可以針對信用卡額度較高的這部分客戶,推送推薦辦卡的高額獎勵,通過推薦辦卡,獲取高質(zhì)量的信用卡客戶。用戶場景二:招行可與沃爾瑪?shù)瘸羞M行合作推出活動,首頁推薦超市活動,場景結(jié)合。第三部分:用戶信用卡管理行為分析
1、超過六成用戶信用卡總額度在5萬元以下75.28%的持卡用戶信用卡總額度不超過5萬元;信用卡總額度1萬-5萬的持卡用戶占比45,35%,總額度5萬-10萬的用戶占比15.22%,信用卡總額度10萬以上的“富人”僅占9.5%。43.43%的持卡用戶未申請信用卡提額,對現(xiàn)有額度表示滿意,而31.57%的用戶會主動向銀行申請?zhí)嵘庞每~度,其中,27.24%的用戶通過網(wǎng)上、手機銀行、銀行微信等渠道申請?zhí)犷~,用戶更傾向于選擇網(wǎng)絡(luò)渠道辦理業(yè)務(wù)。
2、八成用戶使用支付寶、微信進行賬單管理用戶普遍會對信用卡賬單進行管理,不做管理的用戶占比僅為2.67%;其中,最常用的賬單管理方式是通過支付寶、微信進行管理,占比達82.05%。
3、用戶最常用支付寶、微信進行信用卡還款通過線上渠道為信用卡還款簡單快捷,成為大部分持卡用戶的選擇。75.48%的持卡用戶使用支付寶、微信進行信用卡還款,其次為綁定銀行儲蓄卡自動還款和使用網(wǎng)上銀行、銀行手機APP等方式還款;通過銀行柜臺或ATM機等線下方式還款的占比僅為9.94%。
4、近三成用戶有過逾期還款行為2016年,27.72%的持卡用戶有過信用卡逾期還款行為,逾期次數(shù)多在1-3次。其中,58.93%的用戶是因為粗心大意、忘記還款導致信用卡逾期,34.52%的用戶是因為還款渠道導致未能及時到賬導致信用卡逾期。以上數(shù)據(jù)得出結(jié)論:約80%的客戶的信用卡額度在5萬以下,對額度不滿意占比為60%,八成用戶使用微信和支付寶進行賬單管理以及信用卡還款,且近三次用戶有逾期還款行為。(1)大數(shù)據(jù)風控用戶場景一:用戶對額度不滿占比為60%,說明有市場,銀行不提升額度,擔心風控問題,導致?lián)p失。常規(guī)的調(diào)查薪資證明,獲取該客戶在招商以及其他行的資金數(shù)據(jù),算法分析風控與支付寶的芝麻信用體系合作,獲取接口,對用戶消費數(shù)據(jù)進行算法分析,評估風控等等通過以上方式,獲取用戶數(shù)據(jù),保證資金安全,同時保證銀行利益最大化。(2)消息提示用戶場景二:三成用戶逾期還款,且粗心大意、忘記還款的比例很高,另外一部分由于還款渠道太慢導致。逾期還款比例越高,銀行獲利越高,但從長遠來看,用戶體驗不好,沒有一個明顯的消息提示,容易讓用戶喪失忠誠度。在還款日當天發(fā)一條短信到手機,以及在信用卡個人中心中新建消息中心功能,進行通知。通過分析信用卡的用戶畫像,剝離出用戶畫像,最后搭建場景,通過場景的梳理,衍生出需求,最終需求實現(xiàn),形成產(chǎn)品。可分為四個模塊:首頁、推薦、金融、我的 首頁為banner活動以及電影、商城、積分商城等場景的搭建推薦為招行每個月主推的一些活動,以及用戶購買商品、積分兌換的排行榜等信息金融為借款、理財、保險等場景我的為個人借款、額度、個人賬號、消息通知等等場景當前市場,有關(guān)信用卡的APP,大多做得十分復雜,非常臃腫,各行體驗吐槽。#專欄作家#不羈,人人都是產(chǎn)品經(jīng)理專欄作家,對于電商以及社交領(lǐng)域產(chǎn)品有深入了解,重業(yè)務(wù)邏輯,喜深入思考,歡迎與我交流~題圖來自 Pixabay,基于 CC0 協(xié)議
第四篇:基于Spark的大數(shù)據(jù)精準營銷中搜狗搜索引擎的用戶畫像挖掘
基于Spark的大數(shù)據(jù)精準營銷中搜狗搜索引擎的用戶畫像挖掘
近期參加了CCF舉辦的“大數(shù)據(jù)精準營銷中搜狗用戶畫像挖掘”競賽,最終得到復賽第32名。正好這學期《機器學習與數(shù)據(jù)挖掘》課程需要一個實驗報告的大作業(yè),于是就那它來寫了。本博文會在這幾周不斷的完善更新ing
1.選題背景與意義
1.1 用戶畫像與精準營銷
“用戶畫像”是近幾年誕生的名詞。很多營銷項目或很多廣告主,在打算投放廣告前,都要求媒體提供其用戶畫像。在以前,大多媒體會針對自身用戶做一個分類,但是有了大數(shù)據(jù)后,企業(yè)及消費者行為帶來一系列改變與重塑,通過用戶畫像可以更加擬人化的描述用戶特點。
用戶畫像,即用戶信息標簽化,就是企業(yè)通過收集與分析消費者社會屬性、生活習慣、消費行為等主要信息的數(shù)據(jù)之后,完美地抽象出一個用戶的商業(yè)全貌,可以看作是企業(yè)應用大數(shù)據(jù)技術(shù)的基本方式。用戶畫像為企業(yè)提供了足夠的信息基礎(chǔ),能夠幫助企業(yè)快速找到精準用戶群體以及用戶需求等更為廣泛的反饋信息。
消費方式的改變促使用戶迫切希望盡快獲取自己想要了解的信息,所以說,基于用戶畫像上的精準營銷不管對企業(yè)還是對用戶來說,都是有需求的,這會給雙方交易帶來極大便捷,也為雙方平等溝通搭建了一個暢通平臺。
1.2 搜索引擎下用戶畫像的挑戰(zhàn)
在搜索引擎下,由于搜索引擎本身使用方式的特殊性、用戶的流動性、查詢的實時性等,帶來了與企業(yè)傳統(tǒng)的對用戶信息進行收集與分析有著巨大的不同、更加艱巨的挑戰(zhàn)。
例如,我們實時獲取到的是用戶的查詢語句,而由于用戶的流動性,并不能直接獲取到如年齡、性別、學歷等用戶的標簽信息。這么一來,也就無法根據(jù)用戶屬性對用戶進行分群處理,而后再通過推薦系統(tǒng)進行產(chǎn)品上的優(yōu)化
1.3 本文內(nèi)容概要
本文內(nèi)容概要如下:
第1章:簡介用戶畫像與搜索引擎下用戶畫像的精準營銷的挑戰(zhàn)。第2章:說明實驗集群、數(shù)據(jù)與課題研究目標。
第3章:介紹使用分詞工具對用戶的搜索詞列進行分詞,以及相關(guān)的優(yōu)化方案。第4章:介紹在分詞的基礎(chǔ)上,對文本進行特征的抽取與轉(zhuǎn)換,以及相關(guān)的優(yōu)化方案。第5章:介紹在原始特征向量上,進行聚類與降維。第6章:介紹實驗中試驗過各分類模型 第7章:介紹模型參數(shù)調(diào)優(yōu)
第8章:總結(jié)本課題研究中不足與展望后續(xù)的優(yōu)化方案 第9章:參考文獻 2.課題實驗準備
2.1 Spark集群
節(jié)點 cdh01 cdh02 cdh03 cdh04 備注
8核,32G內(nèi)存,角色:Spark Master,HDFS NameNode,Spark Worker,HDFS DataNode 8核,12G內(nèi)存,角色:Spark Worker,HDFS DataNode 8核,12G內(nèi)存,角色:Spark Worker,HDFS DataNode 8核,12G內(nèi)存,角色:Spark Worker,HDFS DataNode 2.2 數(shù)據(jù)集
數(shù)據(jù)文件 備注
Train.csv 帶標注的訓練集 Test.csv 測試集 2.3 數(shù)據(jù)介紹
本數(shù)據(jù)來源于搜狗搜索數(shù)據(jù),ID經(jīng)過加密,訓練集中人口屬性數(shù)據(jù)存在部分未知的情況(需要解決方案能夠考慮數(shù)據(jù)缺失對算法性能的影響)。數(shù)據(jù)所有字段如下表所示:
字段 ID age 說明 加密后的ID 0:未知年齡;1:0-18歲;2:19-23歲;3:24-30歲;4:31-40歲;5:41-50歲;6: 51-999歲
Gender 0:未知1:男性2:女性
Education 0:未知學歷;1:博士;2:碩士;3:大學生;4:高中;5:初中;6:小學 Query List 搜索詞列表 2.4 數(shù)據(jù)示例
對于train.csv中的數(shù)據(jù)記錄:
00627779E16E7C09B975B2CE13C088CB 4 2 0 鋼琴曲欣賞100首 一個月的寶寶眼睫毛那么是黃色 寶寶右眼有眼屎 小兒抽搐怎么辦 剖腹產(chǎn)后刀口上有線頭 屬羊和屬雞的配嗎 2.5 課題任務(wù)描述
根據(jù)提供的用戶歷史一個月的查詢詞與用戶的人口屬性標簽(包括性別、年齡、學歷)做為訓練數(shù)據(jù),通過機器學習、數(shù)據(jù)挖掘技術(shù)構(gòu)建分類算法來對新增用戶的人口屬性進行判定。
3.查詢詞分詞
3.1 NLPIR
NLPIR漢語分詞系統(tǒng)(又名ICTCLAS2013),主要功能包括中文分詞;詞性標注;命名實體識別;用戶詞典功能;支持GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發(fā)現(xiàn)與關(guān)鍵詞提??;張華平博士先后傾力打造十余年,內(nèi)核升級10次。
全球用戶突破20萬,先后獲得了2010年錢偉長中文信息處理科學技術(shù)獎一等獎,2003年國際SIGHAN分詞大賽綜合第一名,2002年國內(nèi)973評測綜合第一名。
我們傳入每個用戶的搜索詞列,表經(jīng)過NLPIR分詞工具得到的分詞。之后,我們做個進一步的優(yōu)化策略:
3.1.1 去停用詞
我們根據(jù)分詞后詞語所帶的詞性,對一些特征代表性不夠強的詞語進行過濾:
for(int i = 0;i < sbtmp.length();++i){
char cc = sbtmp.charAt(i);
if(cc == ' '){
sbtmp.deleteCharAt(i);
--i;
} else if(cc == '/'){
// 去詞條件
Boolean isdel =
// 1.去標點
(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'w')
// 2.疑問詞
||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'r'
&& sbtmp.charAt(i + 2)== 'y')
// 3.數(shù)字
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'm')
// 4.連詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'c')
// 5.副詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'd')
// 6.嘆詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'e')
// 7.擬聲詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'o')
// 8.介詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'p')
// 9.量詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'q')
// 10.助詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'u')
// 11.純動詞
||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'v'
&& sbtmp.charAt(i + 2)== ' ');
// 去詞
if(sbtmp.charAt(i + 1)!= 'n' && sbtmp.charAt(i + 1)!= 'i' && sbtmp.charAt(i + 1)!= 'j'
&& sbtmp.charAt(i + 1)!= 'h'
&&!(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 2)== 'n')){
while(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)!= ' '){
sbtmp.deleteCharAt(i + 1);
}
while(i >= 0 && sbtmp.charAt(i)!= ','){
sbtmp.deleteCharAt(i);
--i;
}
}
// 若無需去詞,把‘/’轉(zhuǎn)為‘,’,并去除隨后的詞性標志
else {
sbtmp.setCharAt(i, ',');
while(sbtmp.charAt(i + 1)!= ' '){
sbtmp.deleteCharAt(i + 1);
}
}
}
}
for(int i = 1;i < sbtmp.length()1)== ',' || sbtmp.charAt(i + 1)== ',')){
sbtmp.deleteCharAt(i);
--i;
}
// 去中間單個字
else if(sbtmp.charAt(i1);
sbtmp.deleteCharAt(i1] == Y[j1][j1][j];
//刪除X第i個字符
t1 = t1 < dp[i][j1];
//刪除Y第j個字符
t1 = t1 < dp[i1] ? t1 : dp[i1];//最后字符改相同
dp[i][j] = t1 + 1;
這里我們所使用的優(yōu)化方案為:
對整個訓練集和測試集的搜索詞列做分詞后的詞頻統(tǒng)計表
對每個用戶的搜索詞列分詞后的各個詞與詞頻統(tǒng)計表各詞(排除前者自身)進行編輯距離計算。得到詞頻統(tǒng)計表中編輯距離與該詞編輯距離最小詞,在這些詞中在選擇一個詞頻最高的詞將該詞替代。4.7 額外增加數(shù)據(jù)量
在大數(shù)據(jù)時代背景下,只要數(shù)據(jù)量足夠的大,反而我們所選用的不同的算法模型對最終的預測準確率的影響會變小,獲取更多數(shù)據(jù)會使模型更完善更準確。我們這里用不同方案所得到的分詞結(jié)果,人為的增加訓練集的數(shù)據(jù)。如將10萬條記錄的訓練集進行NLPIR分詞得到結(jié)果,與進行”結(jié)巴”提取關(guān)鍵詞得到的結(jié)果拼接,就將訓練集記錄人為的翻倍了。后續(xù)的分類實驗中證明了,使用該方案,在模型相同的情況下,相比原來會有1%左右的準確率的提升。
5.聚類與降維
2009年結(jié)束的Nexfix競賽表明,很多參數(shù)團隊用到的高等矩陣因子分解對模型提高預測準確略非常有幫助。模型使用矩陣因子分解方法從特征矩陣中抽取一組潛在的屬性,并通過這些屬性來描述用戶。20世紀80年代后期,利用潛在的”語義”屬性的思想被成功的應用于信息檢索領(lǐng)域。Deerwesteret al.在1990年提出使用奇異值分解(SVD)方法發(fā)現(xiàn)文檔中的潛在的屬性。[2]而本課題在實驗中會使用到LDA方法。
5.1 LDA
隱含狄利克雷分配(LDA,Latent Dirichlet Allocation)是一種主題模型(Topic Model,即從所收集的文檔中推測主題)。甚至可以說LDA模型現(xiàn)在已經(jīng)成為了主題建模中的一個標準,是實踐中最成功的主題模型之一。那么何謂“主題”呢?,就是諸如一篇文章、一段話、一個句子所表達的中心思想。不過從統(tǒng)計模型的角度來說,我們是用一個特定的詞頻分布來刻畫主題的,并認為一篇文章、一段話、一個句子是從一個概率模型中生成的。也就是說 在主題模型中,主題表現(xiàn)為一系列相關(guān)的單詞,是這些單詞的條件概率。形象來說,主題就是一個桶,里面裝了出現(xiàn)概率較高的單詞(參見下面的圖),這些單詞與這個主題有很強的相關(guān)性。這里寫圖片描述
LDA可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息。它采用了詞袋的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。但是詞袋方法沒有考慮詞與詞之間的順序,這簡化了問題的復雜性,同時也為模型的改進提供了契機。每一篇文檔代表了一些主題所構(gòu)成的一個概率分布,而每一個主題又代表了很多單詞所構(gòu)成的一個概率分布。
LDA可以被認為是如下的一個聚類過程:
各個主題(Topics)對應于各類的“質(zhì)心”,每一篇文檔被視為數(shù)據(jù)集中的一個樣本。
主題和文檔都被認為存在一個向量空間中,這個向量空間中的每個特征向量都是詞頻(詞袋模型)
與采用傳統(tǒng)聚類方法中采用距離公式來衡量不同的是,LDA使用一個基于統(tǒng)計模型的方程,而這個統(tǒng)計模型揭示出這些文檔都是怎么產(chǎn)生的。5.1.1 模型訓練
Spark API 參數(shù)介紹:
K:主題數(shù)量(或者說聚簇中心數(shù)量)
maxIterations:EM算法的最大迭代次數(shù),設(shè)置足夠大的迭代次數(shù)非常重要,前期的迭代返回一些無用的(極其相似的)話題,但是繼續(xù)迭代多次后結(jié)果明顯改善。我們注意到這對EM算法尤其有效。,至少需要設(shè)置20次的迭代,50-100次是更合理的設(shè)置,取決于數(shù)據(jù)集。
docConcentration(Dirichlet分布的參數(shù)α):文檔在主題上分布的先驗參數(shù)(超參數(shù)α)。當前必須大于1,值越大,推斷出的分布越平滑。默認為-1,自動設(shè)置。topicConcentration(Dirichlet分布的參數(shù)β):主題在單詞上的先驗分布參數(shù)。當前必須大于1,值越大,推斷出的分布越平滑。默認為-1,自動設(shè)置。checkpointInterval:檢查點間隔。maxIterations很大的時候,檢查點可以幫助減少shuffle文件大小并且可以幫助故障恢復。
val lda=new LDA()
.setK(20)
.setOptimizer(“online”)
.setCheckpointInterval(10)
.setMaxIter(100)
val model=lda.fit(dataset_lpa)
5.1.2 模型評價
生成的model不僅存儲了推斷的主題,還包括模型的評價方法。模型的評價指標:logLikelihood,logPerplexity。logLikelihood越大越好,logPerplexity越小越好
val ll = model.logLikelihood(dataset_lpa)
val lp = model.logPerplexity(dataset_lpa)
用評價方法,在online 方法下,對setMaxIter進行調(diào)參:
for(i<-Array(5,10,20,40,60,120,200,500)){
val lda=new LDA()
.setK(3)
.setTopicConcentration(3)
.setDocConcentration(3)
.setOptimizer(“online”)
.setCheckpointInterval(10)
.setMaxIter(i)
val model=lda.fit(dataset_lpa)
val ll = model.logLikelihood(dataset_lpa)
val lp = model.logPerplexity(dataset_lpa)
println(s“$i $ll”)
println(s“$i $lp”)}
可以看到,logPerplexity在減小,LogLikelihood在增加,最大迭代次數(shù)需要設(shè)置50次以上,才能收斂:
5.1.3 對語料的主題進行聚類
val topicsProb=model.transform(dataset_lpa)
topicsProb.select(“l(fā)abel”, “topicDistribution”)show(false)
/**
+-----++
|label|topicDistribution
|
+-----++
|0.0 |[0.***,0.***147,0.***77] |
|1.0 |[0.***3,0.***623,0.***]
|
|2.0 |[0.***7,0.***417,0.***]
|
...*/
label是文檔序號,文檔中各主題的權(quán)重,我們可以將該DataFrame帶入后續(xù)的分類器中,進行訓練。
5.1.4 其他聚類與降維
Spark在基于RDD的MLlib中還提供了SVD、PCA的降維方法,而基于DataFrame的聚類方法還包括k-means、Bisecting k-means和Gaussian Mixture,其中Gaussian Mixture提供的API類似與LDA,可以直接為我們返回文檔中各主題的權(quán)重,以便于后續(xù)的分類。但是由于LDA在主題聚類上的典型性,我們的課題實驗只試驗了LDA的方案
第五篇:易觀推薦:家庭日用品直銷平臺Alice – 易觀智庫
易觀推薦:家庭日用品直銷平臺Alice – 易觀智庫
廠商簡介:
北京時間2012年2月1日,美國家庭日用品直銷平臺Alice(http: /)再獲360萬美元融資,其清晰的商業(yè)模式以及穩(wěn)步增長的用戶數(shù)再次得到了投資機構(gòu)的認可。隨著電子商務(wù)的飛速發(fā)展,越來越多的消費者選擇通過網(wǎng)絡(luò)購買書籍、衣服、鞋、家電等商品。然而,真正專注于像牙膏、衛(wèi)生紙、狗糧等家庭日常消耗品的電商并不多,更多的消費者還是選擇去超市等實體店進行線下采購。Alice正是抓住了這一商機,創(chuàng)建了以經(jīng)營家庭日用消耗品為主的直銷平臺,通過對消費者使用情況進行跟蹤,并以定期郵件的形式通知消費者某種日用品可能需要進行補充。這樣消費者不用再自己監(jiān)測日用品使用情況,也省去了一次性去超市購買大量的日用品的不便。
廠商特點描述:
特點一:家庭日用品直銷平臺
商品類別商品類別衛(wèi)生間用品衛(wèi)生紙、洗發(fā)液、漱口水等洗衣用品洗衣粉、洗潔劑嬰兒用品食品、浴液以及營養(yǎng)品化妝品香水、唇膏、粉底臥室用品床上用品、安眠藥、空氣清新劑醫(yī)藥急救藥、感冒藥、維生素清潔用品除銹劑、管道疏通劑家用文具及電器打印紙、筆、燈泡、電池食品零食、咖啡、柴米油鹽寵物用品貓糧、狗糧、清洗用品廚房用品保鮮膜、垃圾袋、洗滌靈
Alice是一家針對美國用戶的家庭日用品直銷平臺,其首要特點是其線上產(chǎn)品全部圍繞一般家庭日常消耗的生活用品,下面來簡單看一下它的商品種類:
商品類別商品類別
衛(wèi)生間用品衛(wèi)生紙、洗發(fā)液、漱口水等洗衣用品洗衣粉、洗潔劑
嬰兒用品食品、浴液以及營養(yǎng)品化妝品香水、唇膏、粉底
臥室用品床上用品、安眠藥、空氣清新劑醫(yī)藥急救藥、感冒藥、維生素
清潔用品除銹劑、管道疏通劑家用文具及電器打印紙、筆、燈泡、電池
食品零食、咖啡、柴米油鹽寵物用品貓糧、狗糧、清洗用品
廚房用品保鮮膜、垃圾袋、洗滌靈
從上圖可以看出,Alice的商品種類幾乎覆蓋了全部家庭中可能會用到的日常
消耗品。Alice提供了一個線上的平臺并列出了清晰的產(chǎn)品種類分類,消費者可以通過日常生活的使用習慣在該平臺找到想要的細分產(chǎn)品,并掌握詳細的產(chǎn)品信息介紹和其它同類產(chǎn)品的對比。
除此之外,Alice還添加了用戶評價系統(tǒng),用戶可以在購買前參考其他用戶在使用后的評價,從而做出更加放心的決定。
Alice的另一特點便是其采用的直銷平臺的模式,通過該平臺將消費者與日用品的生產(chǎn)廠商直接聯(lián)系在了一起。當消費者付款下單后,Alice會將訂單信息直接轉(zhuǎn)給日用品的生產(chǎn)廠商,只要顧客達到了一定的購買量,生產(chǎn)商便會直接為用戶提供免費的物流配送,省去了中間環(huán)節(jié)的費用。目前,雖然只有少部分商品采用了這種模式,但Alice在其網(wǎng)站的介紹中強調(diào)到,未來會有更多的商品被列入到廠商直接遞送的模式。對于Alice而言,這種模式使其降低了倉儲和快遞的運營投入,便可將更多的精力投入在用戶使用習慣的分析上。對于廠商來說,201388888,隨著Alice的用戶數(shù)增長,必會為其帶來大量的忠誠度更高的用戶。而對于用戶來說,消費者可以通過互聯(lián)網(wǎng)平臺,通過對比來選擇價格更加便宜、口碑更好的商品。同時,也省去了搭乘交通工具去幾家實體店才能買齊全部日用品的不便。
特點二:用戶監(jiān)測提醒
Alice的第二大特點便是其用戶監(jiān)測提醒系統(tǒng),當用戶在網(wǎng)站注冊時,網(wǎng)站會要求用戶填寫一些簡單的家庭信息,例如注冊用戶在家庭中的角色,以及其他家庭成員的構(gòu)成。當用戶把心怡的商品放入購物車的時候,網(wǎng)站會希望用戶填寫該商品的購買頻率,如每周、每月一次。這樣,Alice會根據(jù)用戶的家庭成員組成和使用速度,在定期通過郵件的方式通知用戶訂購該類產(chǎn)品。Alice通過這種監(jiān)測提醒的增值服務(wù),幫助用戶避免了經(jīng)常檢查各種日常生活用品的煩惱。與此同時,Alice的這種提醒服務(wù)起到了有效的廣告功能,這樣以來大大提升了用戶對網(wǎng)站的黏性以及對各廠商產(chǎn)品的忠誠度。
Enfodesk易觀智庫分析師點評:
與美國電子商務(wù)相比,中國的電子商務(wù)還處于發(fā)展的初級階段,京東、凡客等大型B2C電商網(wǎng)站還是以服飾、鞋、3C類產(chǎn)品為主。只有一號店、我買網(wǎng)等少數(shù)網(wǎng)上超市平臺經(jīng)營著一部分日常用品的網(wǎng)上銷售,但營收狀況并不理想。下面來看一下Alice的家用日常用品網(wǎng)上直銷模式在中國發(fā)展可能存在的優(yōu)勢和潛在的風險:
投資亮點:客戶關(guān)系管理模式+細分市場需求
一、客戶主動選擇的監(jiān)測提醒服務(wù)有效的保持了客戶粘性及產(chǎn)品忠誠度
Alice的家庭日用品直銷平臺的成功模式最值得國內(nèi)同行學習的地方便是其有效的客戶關(guān)系管理模式。這種人性化的監(jiān)測提醒服務(wù)保障了很強的用戶黏性,讓消費者自愿的接受了曾經(jīng)一度厭煩的廣告促銷信息,并有效的管理了與客戶的關(guān)系。另外,由于生活日常消耗品的特點,消費者一旦選定了一個品牌便不容易經(jīng)常更換品牌,因此當消費者收到補充一些日用品的郵件提醒時,消費者只需對以前購買過的訂單再次確認付費即可,這樣以來消費者對選中的品牌有著很強的忠誠度。
二、家庭日常用品網(wǎng)上零售細分市場需求日益增加
對于中國電子商務(wù)市場來說,家庭日常用品的網(wǎng)上零售細分還是一片藍海。與美國市場相比,在中國推廣家庭日用品網(wǎng)上零售的另一優(yōu)勢便是受到大型零售超市網(wǎng)上業(yè)務(wù)的競爭較少。在美國、英國等發(fā)達國家,一些像Wal-mart(沃爾瑪)和Tesco(樂購)等大型零售超市都在幾年前就已經(jīng)完善了網(wǎng)上購物和物流配送的體系建設(shè)。而中國的一些大型超市在網(wǎng)上平臺建設(shè)方面的投入還相對較少,隨著人們生活節(jié)奏的加快以及線下采購時遇到的交通、停車等諸多不便,導致了都市白領(lǐng)人群對于家庭日用品網(wǎng)購的需求將日益增高。
風險:物流壓力或成家庭日用品網(wǎng)上銷售最大阻力
與美國電商市場環(huán)境相比,中國物流發(fā)展狀況相對落后,且持續(xù)增加的物流成本迫使電商更愿意做利潤高的服裝及3C類等產(chǎn)品。
欲了解更多研究內(nèi)容,請訪問Enfodesk易觀智庫或致電客服。
研究說明:
Enfodesk易觀智庫提供的產(chǎn)業(yè)分析,主要是在產(chǎn)業(yè)宏觀數(shù)據(jù)、最終用戶季度調(diào)研數(shù)據(jù)、廠商歷史數(shù)據(jù)以及廠商季度業(yè)務(wù)監(jiān)測信息等基礎(chǔ)上,運用易觀的產(chǎn)業(yè)分析模型,并結(jié)合市場研究、行業(yè)研究以及廠商研究方法得出的,日用品,,主要反映了市場現(xiàn)狀、趨勢、拐點和規(guī)律,以及廠商的發(fā)展現(xiàn)狀。
Enfodesk易觀智庫相信通過上述產(chǎn)業(yè)研究方法得出的數(shù)據(jù)在行業(yè)公認可接受誤差范圍內(nèi),可以準確反映行業(yè)走勢與變化規(guī)律。
通過專業(yè)研究方法得到的研究結(jié)果,旨在供決策參考。廠商的實際數(shù)據(jù)請查詢廠商發(fā)布的財務(wù)報告。
研究領(lǐng)域:
電子商務(wù):
移動互聯(lián)網(wǎng):
新媒體:
互動娛樂:
行業(yè)互聯(lián)網(wǎng)化:,