第一篇:[轉(zhuǎn)載]讀書筆記《誰說菜鳥不會(huì)數(shù)據(jù)分析》
[轉(zhuǎn)載]讀書筆記《誰說菜鳥不會(huì)數(shù)據(jù)分析》
原文地址:讀書筆記《誰說菜鳥不會(huì)數(shù)據(jù)分析》作者:不過如此
起因:對(duì)于數(shù)據(jù)分析,雖然一直在做,當(dāng)然也想了很多思路,查了大量的數(shù)據(jù),解決了一些問題。但效果卻 仍是在一直下降,始終不能讓人滿意,總感覺分析得不是很專業(yè),很系統(tǒng)。因此,想學(xué)習(xí)數(shù)據(jù)分析方面的理 論知識(shí),了解一下更多的分析方法,借鑒與學(xué)習(xí)別人的分析思路,以用于當(dāng)前的實(shí)際工作,改善項(xiàng)目運(yùn)營的 效果!
購買:最近家里的事情都安排妥當(dāng),需要將重心回到工作中!在當(dāng)當(dāng)網(wǎng)和京東商城找書,看到《誰說菜鳥不 會(huì)數(shù)據(jù)分析》這些書,人氣很高,難度不大,可以先作為入門學(xué)習(xí)的材料。
學(xué)習(xí)時(shí)間:2011年7月16日至2011年7月17日
閱讀方式:只抓重點(diǎn),快速閱讀
讀書摘要:
重點(diǎn)看了數(shù)據(jù)分析的概念,數(shù)據(jù)分析師的基本素質(zhì),數(shù)據(jù)分析的六個(gè)步驟,數(shù)據(jù)分析方法論與數(shù)據(jù)分析方法,以及看了下以前都很熟悉字段、記錄、數(shù)據(jù)類型、數(shù)據(jù)表。對(duì)于EXCEL使用與操作,如函數(shù)、圖表、快捷 鍵等,以及數(shù)據(jù)的展現(xiàn)(圖表的使用)以及分析報(bào)告(PPT的制作)等內(nèi)容,我早已具備了這方面的知識(shí),且在實(shí)際工作中,都是以功能比EXCEL強(qiáng)大得多的數(shù)據(jù)庫,通過編寫大量的SQL腳本來處理數(shù)據(jù),因此這里只 是瀏覽帶過??傮w來說,這是一本很基礎(chǔ),入門的數(shù)據(jù)分析讀本。該書使用情景故事與對(duì)話,使得讀起來更 通俗易懂,更容易讓人理解,也便于記憶。
筆記:
1,何謂數(shù)據(jù)分析?
數(shù)據(jù)分析,是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來的大量數(shù)據(jù)進(jìn)行分析,將它們加以匯總、理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能。數(shù)據(jù)分析是為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié) 的過程。
2,數(shù)據(jù)分析師的基本素質(zhì)
1)態(tài)度嚴(yán)謹(jǐn)負(fù)責(zé):只有本著嚴(yán)謹(jǐn)負(fù)責(zé)的態(tài)度,才能保證數(shù)據(jù)的客觀、準(zhǔn)確。數(shù)據(jù)分析師可以說是企業(yè) 的醫(yī)生,他們通對(duì)企業(yè)運(yùn)營數(shù)據(jù)的分析,為企業(yè)尋找癥結(jié)及問題。
2)好奇心強(qiáng)烈:積極主動(dòng)地發(fā)現(xiàn)與挖掘隱藏在數(shù)據(jù)背后的真相。
3)邏輯思路清晰:通常數(shù)據(jù)分析面臨的都是復(fù)雜的問題,會(huì)有無數(shù)影響與改變結(jié)果的因素。因此要求
數(shù)據(jù)分析保持清醒的頭腦,清晰的思路,縝密的邏輯,將雜亂無章的數(shù)據(jù),整理得清晰,有序,方能找到影 響與改變結(jié)果的真正原因。
4)擅長模仿:學(xué)習(xí)與借鑒他人優(yōu)秀的分析思路和分析方法。
5)勇于創(chuàng)新:通過不斷創(chuàng)新,提高自己的分析水平,以及解決問題的思路和能力。
3,數(shù)據(jù)分析六部曲
1)明確分析目的和內(nèi)容:凡事都要先明確目的,數(shù)據(jù)分析當(dāng)然也不例外,不可盲目。
2)數(shù)據(jù)收集:根據(jù)分析的目的和內(nèi)容,收集相關(guān)的數(shù)據(jù),為數(shù)據(jù)分析提供素材和依據(jù)。
3)數(shù)據(jù)處理:對(duì)收集來的數(shù)據(jù)進(jìn)行加工整理,形成適合數(shù)據(jù)分析的樣式。數(shù)據(jù)處理的目的是從大量的、雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對(duì)解決問題有價(jià)值、有意義的數(shù)據(jù)。
4)數(shù)據(jù)分析: 通過統(tǒng)計(jì)分析或數(shù)據(jù)挖掘技術(shù)對(duì)處理過的數(shù)據(jù)進(jìn)行分析和研究,從中發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部關(guān)
系和規(guī)律,為解決問題提供參考。
5)數(shù)據(jù)展現(xiàn):通過表格和圖形來展現(xiàn)數(shù)據(jù),讓他人更直觀地理解數(shù)據(jù),發(fā)現(xiàn)其中的規(guī)律。
6)報(bào)告撰寫:對(duì)整個(gè)數(shù)據(jù)分析過程的一個(gè)總結(jié)。通過報(bào)告,把數(shù)據(jù)分析的起因、過程、結(jié)果以及建議 完整地呈現(xiàn)出來,以供決策者參考。
4,幾個(gè)常用指標(biāo)或術(shù)語
1)平均數(shù)
2)絕對(duì)數(shù)與相對(duì)數(shù)
3)百分比和百分點(diǎn)
4)頻度和頻率
5)比例和比率
6)倍數(shù)和番數(shù)
7)同比和環(huán)比
5,理解數(shù)據(jù)
1)字段與記錄:字段是事物或現(xiàn)象的某種特征。記錄是事物或現(xiàn)象的具體表現(xiàn)。
2)數(shù)據(jù)類型
3)數(shù)據(jù)表
6,“三心二意”處理數(shù)據(jù)
1)信心
2)細(xì)心
3)平常心
4)誠意
5)合老板意
7,PEST分析法
影響一切行業(yè)和企業(yè)的宏觀力量。PEST:Political(政治)、Economic(經(jīng)濟(jì))、Technological(技
術(shù))、Social(社會(huì))。
1)政治環(huán)境:包括一個(gè)國家的社會(huì)制度,執(zhí)政黨的性質(zhì),政府的方針、政策、法令等。關(guān)鍵指標(biāo)有: 政治體制、經(jīng)濟(jì)體制、財(cái)政政策、稅收政策、產(chǎn)業(yè)政策、投資政策、專利數(shù)量、國防開支水平等。
2)經(jīng)濟(jì)環(huán)境:分為宏觀與微觀兩個(gè)方面。宏觀經(jīng)濟(jì)環(huán)境是指一個(gè)國家的國民收入、國民生產(chǎn)總值及其 變化情況,以及通過這些指標(biāo)反映的國民經(jīng)濟(jì)發(fā)展水平和發(fā)展速度。微觀經(jīng)濟(jì)環(huán)境是指企業(yè)所在地區(qū)或所服 務(wù)地區(qū)消費(fèi)者的收入水平、消費(fèi)偏好等。關(guān)鍵指標(biāo)有:GDP及增長率,進(jìn)出口總量及增長率,利率,通貨膨 脹率,消費(fèi)價(jià)格指數(shù),居民可支配收入,失業(yè)率等。
3)社會(huì)環(huán)境:指一個(gè)國家或地區(qū)的居民受教育程序和文化水平、宗教信仰、風(fēng)俗習(xí)慣、審美觀點(diǎn)和價(jià) 值觀念等。關(guān)鍵指標(biāo)有:人口規(guī)模、性別比例、年齡結(jié)構(gòu)、出生率、死亡率、種族結(jié)構(gòu)、生活方式、教育狀 況、宗教信仰等。
4)技術(shù)環(huán)境:國家對(duì)科技開發(fā)的投資和支持重點(diǎn),技術(shù)轉(zhuǎn)移和商品化速度,專利及保護(hù)情況等。關(guān)鍵 指標(biāo)有:新技術(shù)的發(fā)明與進(jìn)展,折舊與報(bào)廢速度,技術(shù)更新速度,技術(shù)傳播速度,技術(shù)商品化速度,國家重 點(diǎn)扶持項(xiàng)目,國家投入的研發(fā)費(fèi)用,專利個(gè)數(shù),專利保護(hù)等。
8,5W2H分析法(方法論之一)
5W2H:Why(何因),What(何事),Who(何人),When(何時(shí)),Wherr(何地),How(如何做),How much(何價(jià))。
9,邏輯樹分析法(方法論之二)
邏輯樹,又稱問題樹,分解樹或演繹樹。把一個(gè)已知的問題當(dāng)成樹干,然后考慮這個(gè)問題和哪些問題有 關(guān),每個(gè)問題作為一個(gè)樹枝,同樣,每個(gè)樹枝可以有若干小的樹枝(每個(gè)大問題有若干小問題),以此類推,直到列出所有的問題。邏輯樹的作用是幫助你理清自己的思路,避免進(jìn)行重復(fù)和無關(guān)的思考。
10,4P營銷理論(方法論之三)
4P:Product(產(chǎn)品)、Price(價(jià)格)、Place(渠道)、Promotion(促銷)。
11,用戶行為理念(方法論之四)
用戶使用行為:是指用戶為獲取、使用物品或服務(wù)所采取的各種行為。用戶對(duì)產(chǎn)品首先需要有一個(gè)認(rèn)知、熟悉的過程,然后試用,再?zèng)Q定是否繼續(xù)消費(fèi)使用,最后成為忠誠用戶。
12,對(duì)比分析法(分析方法之一)
對(duì)比分析法,是指將兩個(gè)或兩個(gè)以上的數(shù)據(jù)進(jìn)行比較,分析它們的差異,從而揭示這些數(shù)據(jù)所代表的事 物發(fā)展變化情況和規(guī)律性。它的特點(diǎn)是:可以非常直觀地看出事物某方面的變化和差距,并且可以準(zhǔn)確、量 化地表示出這種變化和差距是多少。
1)實(shí)際完成與目標(biāo)的對(duì)比。
2)兩個(gè)不同時(shí)期的對(duì)比。
3)同級(jí)部門、單位、地區(qū)的對(duì)比。
4)行業(yè)內(nèi)對(duì)比(競爭對(duì)手對(duì)比)
5)活動(dòng)效果對(duì)比。
13,分組分析法(分析方法之二)
分組分析法,是根據(jù)數(shù)據(jù)分析對(duì)象的特征,按照一定的標(biāo)志和區(qū)別,把數(shù)據(jù)分析對(duì)象劃分為不同的部分 和類別來進(jìn)行研究,以提示其內(nèi)在的聯(lián)系和規(guī)律性。
14,結(jié)構(gòu)分析法(分析方法之三)
結(jié)構(gòu)分析法,是指被分析研究總體內(nèi)各部分與總體之間進(jìn)行對(duì)比的分析方法,即總體內(nèi)各部分占總體的 比例。
15,平均分析法(分析方法之四)
平均分析法,是指運(yùn)用計(jì)算平均數(shù)的方法來反映總體在一定時(shí)間、地點(diǎn)條件下某一數(shù)量特征的一般水平。
16,交叉分析法(分析方法之五)
交叉分析法,通常用于分析兩個(gè)變量(字段)之間的關(guān)系,即同時(shí)將兩個(gè)有一定聯(lián)系的變量及其值交叉
排列在一張表格內(nèi),使各個(gè)變量值成為不同變量的交叉結(jié)點(diǎn),形成交叉表,從而分析交叉表中變量之間的關(guān) 系。
17,綜合評(píng)價(jià)分析法(分析方法之六)
1)綜合評(píng)價(jià)分析法的基本思想是將多個(gè)指標(biāo)轉(zhuǎn)化為一個(gè)能夠反映綜合情況的指標(biāo)來進(jìn)行分析評(píng)價(jià),如 不同國家的經(jīng)濟(jì)實(shí)力,不同地區(qū)的社會(huì)發(fā)展水平,企業(yè)經(jīng)濟(jì)效益評(píng)價(jià)。
2)5個(gè)步驟:
a.確定綜合評(píng)價(jià)指標(biāo)體系,即包含哪些指標(biāo),是綜合評(píng)價(jià)的基礎(chǔ)和依據(jù)。
b.收集數(shù)據(jù),并對(duì)不同計(jì)量單位的指標(biāo)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
c.確定指標(biāo)體系中各指標(biāo)的權(quán)重,以保證評(píng)價(jià)的科學(xué)性。
d.對(duì)經(jīng)處理后的指標(biāo)再進(jìn)行匯總,計(jì)算出綜合評(píng)價(jià)指數(shù)或綜合評(píng)價(jià)分值。
e.根據(jù)評(píng)價(jià)指數(shù)或分值對(duì)參評(píng)單位進(jìn)行排序,并由此得出結(jié)論。
18,杜邦分析法(分析方法之七)
杜邦分析法,是由美國杜邦公司創(chuàng)造并最先使用的一種綜合分析方法。它是利用各主要財(cái)務(wù)指標(biāo)間的內(nèi) 在聯(lián)系,對(duì)企業(yè)財(cái)務(wù)狀況及經(jīng)濟(jì)效益進(jìn)行綜合分析評(píng)價(jià)的方法。
19,漏斗圖分析法(分析方法之八)
漏斗圖是一個(gè)適合業(yè)務(wù)流程比較規(guī)范、周期比較長、各流程環(huán)節(jié)涉及比較復(fù)雜、業(yè)務(wù)過程比較多的管理 分析工具。
總結(jié):
花了兩天時(shí)間,只是初略了解一分析方法論與分析方法。下周可以花一些時(shí)間,考慮是否對(duì)現(xiàn)有的工作有多少適用性。
第二篇:【EXCEL】數(shù)據(jù)分析那些事(菜鳥入門必看)
Q1:我現(xiàn)在的工作有一點(diǎn)數(shù)據(jù)分析的模塊,自從上微薄后了解到還有專門從事數(shù)據(jù)分析工作,我現(xiàn)在想做這一行,但是經(jīng)驗(yàn)、能力都還是菜鳥中的菜鳥,請(qǐng)問成為一名數(shù)據(jù)分析師還有需要哪些準(zhǔn)備?
A:很簡單,我們可以看一下國內(nèi)知名互聯(lián)網(wǎng)數(shù)據(jù)分析師的招聘要求,進(jìn)行自我對(duì)照,即可知道需要做哪些準(zhǔn)備。
數(shù)據(jù)分析師職位要求 :
1、計(jì)算機(jī)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)等相關(guān)專業(yè)本科及以上學(xué)歷;
2、具有深厚的統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘知識(shí),熟悉數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的相關(guān)技術(shù),能夠熟練地使用SQL;
3、三年以上具有海量數(shù)據(jù)挖掘、分析相關(guān)項(xiàng)目實(shí)施的工作經(jīng)驗(yàn),參與過較完整的數(shù)據(jù)采集、整理、分析和建模工作;
4、對(duì)商業(yè)和業(yè)務(wù)邏輯敏感,熟悉傳統(tǒng)行業(yè)數(shù)據(jù)挖掘背景、了解市場特點(diǎn)及用戶需求,有互聯(lián)網(wǎng)相關(guān)行業(yè)背景,有網(wǎng)站用戶行為研究和文本挖掘經(jīng)驗(yàn)尤佳;
5、具備良好的邏輯分析能力、組織溝通能力和團(tuán)隊(duì)精神;
6、富有創(chuàng)新精神,充滿激情,樂于接受挑戰(zhàn)。
Q2:對(duì)數(shù)據(jù)分析有濃厚興趣,希望從事數(shù)據(jù)分析、市場研究相關(guān)工作,但聽說對(duì)學(xué)歷要求較高,請(qǐng)問我是否要讀研,讀研的話應(yīng)該讀哪個(gè)方向?
A:讀研要看自身情況,但可明確:專業(yè)不是問題,本科學(xué)歷就夠。關(guān)鍵是興趣與能力,以及自身的努力,興趣是學(xué)習(xí)成長最好的老師!
當(dāng)然如果是在校生考上研究生的話那是最好,如果考不上可以先工作,等你工作有經(jīng)驗(yàn)了,你就知道哪方面的知識(shí)是自己需要,要考哪方面的研究生,也就更有方向性。
Q3:那么如何培養(yǎng)對(duì)數(shù)據(jù)分析的興趣呢?
A:建議如下:
1、先了解數(shù)據(jù)分析是神馬?
2、了解數(shù)據(jù)分析有何用?可解決什么問題?
3、可以看看啤酒與尿布等成功數(shù)據(jù)分析案例;
4、關(guān)注數(shù)據(jù)分析牛人微博,聽牛人談數(shù)據(jù)分析(參考Q1的三個(gè)鏈接);
5、多思考,親自動(dòng)手分析實(shí)踐,體驗(yàn)查找、解決問題的成就感;
6、用好搜索引擎等工具,有問題就搜索,你會(huì)有驚喜發(fā)現(xiàn);
7、可以看看@李開復(fù) 老師寫的《培養(yǎng)興趣:開拓視野,立定志向》;
有網(wǎng)友說:讓數(shù)據(jù)分析變的有趣的方法是,把自己想象成福爾摩斯,數(shù)據(jù)背后一定是真相!Q4:我有點(diǎn)迷茫,是練好技能再找工作,還是找一個(gè)數(shù)據(jù)分析助理之類的要求不是特別高的工作,在工作中提升?
A:建議在工作中進(jìn)行學(xué)習(xí)實(shí)踐,這才是最好的提升??茨敲炊鄷瑳]有實(shí)踐都是虛的。Q5:我是做電商的,對(duì)于數(shù)據(jù)分析這塊,您有什么好的軟件工具類推薦嗎?
A:做數(shù)據(jù)分析首先是熟悉業(yè)務(wù)及行業(yè)知識(shí),其次是分析思路清晰,再次才是方法與工具,切勿為了方法而方法,為工具而工具!不論是EXCEL、SPSS還是SAS,只要能解決問題的工具就是好工具。
問題的高效解決開始于將待解決問題的結(jié)構(gòu)化,然后進(jìn)行系統(tǒng)的假設(shè)和驗(yàn)證。分析框架可以幫助我們:
1、以完整的邏輯形式結(jié)構(gòu)化問題;
2、把問題分解成相關(guān)聯(lián)的部分并顯示它們之間的關(guān)系;
3、理順?biāo)悸?、系統(tǒng)描述情形/業(yè)務(wù);
4、然后洞察什么是造成我們正在解決的問題的原因。
Q6:請(qǐng)問現(xiàn)在國內(nèi)做數(shù)據(jù)分析行業(yè)需要精通SPSS、SAS之類的統(tǒng)計(jì)軟件嗎?
A:不同公司不同職位要求都不一樣,雖然大部分公司的招聘要求有提到要求會(huì)SPSS、SAS之類的統(tǒng)計(jì)軟件,但是實(shí)際工作中還是以EXCEL居多,只有少數(shù)公司在工作中才常用到SPSS、SAS。
另外分享一網(wǎng)友@AC不米蘭微博感想:
其實(shí)對(duì)絕大多數(shù)財(cái)務(wù)人員和管理人員而言,excel用到透視表已經(jīng)可以解決95%的問題了吧,宏什么的屬于炫技式用法。重要的是數(shù)據(jù)設(shè)置時(shí)的邏輯關(guān)系。還有一個(gè)重要的是分析結(jié)果的展示方法。
地址:
Q9:看完小黃書后要看哪本書?有何推薦沒有?
A:如果看完小黃書后,能對(duì)數(shù)據(jù)分析有個(gè)清晰的認(rèn)識(shí),知道數(shù)據(jù)分析是做什么用的,并且書中每個(gè)方法都理解,都能用簡單的語言描述出來,能活學(xué)活用,那就說明你真正掌握了。到時(shí)你自然而然的知道你需要再補(bǔ)充哪方面的知識(shí)。
如果是想往統(tǒng)計(jì)技術(shù)方面發(fā)展,可以看@文彤老師 這本SPSS統(tǒng)計(jì)分析基礎(chǔ)教程(第二版)。Q10:我想知道想要從事數(shù)據(jù)分析這方面的工作,我現(xiàn)在應(yīng)該找什么類型的公司和實(shí)習(xí)崗位來積累經(jīng)驗(yàn)?zāi)兀?/p>
A:建議是互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、游戲、通信類的企業(yè),因?yàn)檫@些類型的公司是數(shù)據(jù)都較為龐大,并且也較為重視數(shù)據(jù)分析工作的公司。
不過先想清楚自己以后所要從事的行業(yè),然后在有針對(duì)性的實(shí)習(xí),這樣可以累積行業(yè)經(jīng)驗(yàn),加深對(duì)行業(yè)及業(yè)務(wù)的理解,應(yīng)為畢竟數(shù)據(jù)分析的前提是要熟悉行業(yè)及業(yè)務(wù)。如果你熟悉了業(yè)務(wù),你看到的不在是簡簡單單的數(shù)據(jù),而是看到數(shù)據(jù)后面所隱含的信息。
舉個(gè)案例:某公司面試官發(fā)了這么一條微博:問他擅長什么,答數(shù)據(jù)分析,于是給他一堆數(shù)據(jù),5分鐘后問他,答約,可以分析出標(biāo)準(zhǔn)差,離散度……再追問,分析這些的意義是什么,答曰:可以知道樣本數(shù)據(jù)的標(biāo)準(zhǔn)差,離散程度……
地址:http://weibo.com/1590680882/y4YGB8nIH
這就是技術(shù)與業(yè)務(wù)脫節(jié),為了分析而分析,謹(jǐn)記!
Q11:如何寫成一份好的數(shù)據(jù)分析報(bào)告?
A:一份好的數(shù)據(jù)分析報(bào)告,首先需要有一個(gè)好的分析框架,并且圖文并茂,層次明晰,能夠讓閱讀者一目了然。結(jié)構(gòu)清晰、主次分明可以使閱讀者正確理解報(bào)告內(nèi)容;圖文并茂,可以令數(shù)據(jù)更加生動(dòng)活潑,提高視覺沖擊力,有助于閱讀者更形象、直觀地看清楚問題和結(jié)論,從而產(chǎn)生思考。--小黃書《誰說菜鳥不會(huì)數(shù)據(jù)分析》
Q12:該如何學(xué)習(xí)數(shù)據(jù)分析呢?
A:數(shù)據(jù)分析三字經(jīng):
①學(xué)習(xí):先了解,后深入;先記錄,后記憶;先理論,后實(shí)踐;先模仿,后創(chuàng)新; ②方法:先思路,后方法;先框架,后細(xì)化;先方法,后工具;先思考,后動(dòng)手; ③分析:先業(yè)務(wù),后數(shù)據(jù);先假設(shè),后驗(yàn)證;先總體,后局部;先總結(jié),后建議;
Q13:我看到有人說數(shù)據(jù)分析可以分為數(shù)據(jù)分析師和數(shù)據(jù)挖掘師,是這樣嗎?數(shù)據(jù)分析做到深入的話必須要懂?dāng)?shù)據(jù)挖掘嗎?數(shù)據(jù)挖掘要掌握一些算法吧,那不成了計(jì)算機(jī)專業(yè)的了嗎?
A:首先要了解數(shù)據(jù)挖掘與數(shù)據(jù)分析之間的關(guān)系。
《誰說菜鳥不會(huì)數(shù)據(jù)分析》中有如下介紹:數(shù)據(jù)挖掘其實(shí)是一種高級(jí)的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中挖掘出有用的信息,它是根據(jù)用戶的特定要求,從浩如煙海的數(shù)據(jù)中找出所需的信息,以滿足用戶的特定需求。數(shù)據(jù)挖掘技術(shù)是人們長期對(duì)數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。一般來說,數(shù)據(jù)挖掘主要側(cè)重解決四類數(shù)據(jù)分析問題:分類、聚類、關(guān)聯(lián)和預(yù)測,重點(diǎn)在尋找模式與規(guī)律。
數(shù)據(jù)分析與數(shù)據(jù)挖掘的本質(zhì)都是一樣的,都是從數(shù)據(jù)里面發(fā)現(xiàn)關(guān)于業(yè)務(wù)的知識(shí)。
另外從事數(shù)據(jù)挖掘工作需要各種專業(yè)的人才一起參與,如計(jì)算機(jī)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)等,數(shù)據(jù)挖掘工作包括算法研究開發(fā)、ETL、業(yè)務(wù)建模、系統(tǒng)開發(fā)等等,所以要看你的工作偏向哪方面,如果是業(yè)務(wù)建模分析,那就要熟悉業(yè)務(wù),并對(duì)各種常用算法原理、優(yōu)缺點(diǎn)比較熟悉,至于具體如何實(shí)現(xiàn),統(tǒng)統(tǒng)交給數(shù)據(jù)挖掘軟件和計(jì)算機(jī)去處理吧!
Q14:數(shù)據(jù)分析師會(huì)遇到哪些困難呢?
A:可以參考下最傷數(shù)據(jù)分析師的幾句話:
1、你這個(gè)數(shù)據(jù)不對(duì)吧;
2、數(shù)據(jù)換個(gè)口徑重新跑一遍;
3、你們做的一大堆數(shù)據(jù),有啥用呢?無法落地;
4、怎么數(shù)據(jù)還沒跑出來;
5、報(bào)告一點(diǎn)邏輯都沒有;
6、報(bào)告一點(diǎn)業(yè)務(wù)深度都沒有;
7、報(bào)告看不懂;
8、報(bào)告看懂了但沒用;
9、報(bào)告再改改;
10、全是基礎(chǔ)數(shù)據(jù)堆徹,沒有重點(diǎn),沒有分析和結(jié)論!
以上問題在工作中可能會(huì)遇到,要盡量避免及做好心理準(zhǔn)備!一句話:數(shù)據(jù)分析師傷不起!
第三篇:誰說大象不能跳舞 讀書筆記
誰說大象不能跳舞讀書筆記
《誰說大象不能跳舞》是IBM公司前CEO郭士納寫的一本自傳,記錄了他在IBM公司長達(dá)9年的時(shí)間中的一些所見所聞,以及他在臨危受命以后所采取的一系列行動(dòng)。講述了他作為一個(gè)臨危受命的CEO是如何讓一個(gè)瀕臨破產(chǎn)的巨型公司重新煥發(fā)青春,重塑企業(yè)競爭力的全過程。
整本書可以分為五個(gè)部分:掌舵領(lǐng)航、戰(zhàn)略決策、IBM文化、教訓(xùn)篇、經(jīng)驗(yàn)篇。作者郭士納是IBM公司的前任董事長,CEO。加盟IBM之前,他曾是納貝斯克公司的董事長兼CEO。他還曾在著名的麥肯錫管理咨詢公司擔(dān)任公司總監(jiān)。
在他加盟IBM初,IBM是個(gè)擁有龐大資源的機(jī)構(gòu),在150多個(gè)國家都有分公司,然后它每月都在以億美元計(jì)算虧損。而他離開時(shí),IBM擁有同樣的資源,同樣的業(yè)務(wù),然而卻成為IT行業(yè)的領(lǐng)先者。
那么郭士納靠什么帶領(lǐng)IBM走出低谷?
面對(duì)市場地位急劇下挫、巨額虧損和士氣低落的危局,作為一個(gè)完全的局外人,郭士納并沒有盲目行動(dòng),也沒有輕言許諾,而是采取完全務(wù)實(shí)的策略。
他在首次公開亮相時(shí)提出了IBM要做的五件大事:
第一是盡快實(shí)現(xiàn)盈利,第二是贏得客戶信任,第三是強(qiáng)化服務(wù)器業(yè)務(wù);
第四是強(qiáng)化IBM作為整體服務(wù)提供者的獨(dú)一無二的定位;
第五是提高回應(yīng)客戶的速度和效率。
這五件大事是他最初為IBM設(shè)計(jì)的基本戰(zhàn)略的具體體現(xiàn)。這些基本戰(zhàn)略是:保持公司的完整性、改變公司的經(jīng)濟(jì)模式、再造業(yè)務(wù)流程以及出售缺乏生產(chǎn)力的資產(chǎn)。這一戰(zhàn)略貫穿于郭士納在IBM重整過程的始終。
盡管郭士納重整IBM的戰(zhàn)略是清晰、直接和有效的,但在一個(gè)擁有20多萬聰明絕頂?shù)母呒?jí)白領(lǐng)的企業(yè)中,對(duì)于一個(gè)沒有IT背景的CEO來說要貫徹執(zhí)行則是一件異常困難的事。因?yàn)橐淖內(nèi)藗兊挠^念和習(xí)慣本來就很難,如果這個(gè)習(xí)慣和觀念背后又包含著利益,那么就更困難。要克服這些困難,關(guān)鍵在于戰(zhàn)略執(zhí)行,而執(zhí)行的關(guān)鍵又在于領(lǐng)導(dǎo),這是郭士納重整IBM成功的關(guān)鍵。
一流的戰(zhàn)略,需要卓越執(zhí)行才能實(shí)現(xiàn)戰(zhàn)略效果。提升戰(zhàn)略實(shí)施效果,在精神方面,他通過IBM企業(yè)文化的演繹闡述,傳達(dá),植入,最終實(shí)現(xiàn)引導(dǎo)IBM忠誠員工向戰(zhàn)略方向集中投入。在物質(zhì)方面,他通過將資源重新配置,讓IBM更多資源投入到戰(zhàn)略實(shí)施中。他通過變賣對(duì)企業(yè)沒有價(jià)值的資產(chǎn)獲取足夠資金,同時(shí)通過組織架構(gòu)的調(diào)整,權(quán)力的回收,讓更多人力資源投入。最終在3年內(nèi)復(fù)蘇。
這本書讓我領(lǐng)悟到:現(xiàn)階段,企業(yè)的經(jīng)營,需要以客戶需求作為導(dǎo)向,并且以此作為公司經(jīng)營的唯一焦點(diǎn)。通過卓越的執(zhí)行力實(shí)施,實(shí)現(xiàn)焦點(diǎn)目標(biāo),同時(shí)利用領(lǐng)導(dǎo)藝術(shù)(激情,品德,溝通)等讓資源持續(xù)化投入。卓越執(zhí)行力指將更多時(shí)間,采用更適合手段,投入到事情上。
第四篇:《大數(shù)據(jù)時(shí)代》讀書筆記
“凡是過去,皆為序曲”
《大數(shù)據(jù)時(shí)代》讀書筆記
2014年2月20日sunjinshuang
各章節(jié)內(nèi)容摘要與感想
第一部分 大數(shù)據(jù)時(shí)代的思維變革
1.不是隨機(jī)樣本,而是全體數(shù)據(jù)--更多
通過GOOGLE預(yù)測流感流行趨勢和Farecast系統(tǒng)預(yù)測機(jī)票價(jià)格等例子說明了大數(shù)據(jù)時(shí)代分析數(shù)據(jù)立足于海量數(shù)據(jù)分析的重要性,而非傳統(tǒng)的取樣分析,并且闡述了在很多領(lǐng)域曾經(jīng)不被重視的混雜數(shù)據(jù)在大數(shù)據(jù)時(shí)代而產(chǎn)生了新的商業(yè)價(jià)值的案例,只有從思想上改變了原始的數(shù)據(jù)分析方法,重視大數(shù)據(jù)思維方式,才能更好的發(fā)現(xiàn)生活中更具價(jià)值的信息和商機(jī)。
2.不是精確性,而是混雜性--更雜
在“小數(shù)據(jù)”時(shí)代,采樣最基本、最重要的要求就是減少錯(cuò)誤,保證質(zhì)量,因?yàn)槭占男畔⒘枯^少,所以要保證記錄下來的信息要盡量精確。但在大數(shù)據(jù)時(shí)代,很多時(shí)候數(shù)據(jù)的量變會(huì)產(chǎn)生質(zhì)變,如果依然沿用以前的分析方法,可能會(huì)和更多有價(jià)值的信息失之交臂,只有容忍不精確性,擁抱混雜性,以一種高屋建瓴的思維方式跳出傳統(tǒng)思維模式,才有可能發(fā)現(xiàn)更多平凡數(shù)據(jù)中隱藏的“寶藏”。
3.不是因果關(guān)系,而是相關(guān)關(guān)系--更好
知道“是什么”就夠了,沒必要知道“為什么”。在大數(shù)據(jù)時(shí)代,我們不必知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”。本節(jié)通過列舉了亞馬遜網(wǎng)站的書評(píng)團(tuán)隊(duì)輸給圖書推薦系統(tǒng)、蛋撻與颶風(fēng)用品捆綁銷售、客戶購買行為與懷孕預(yù)測、紐約沙井蓋與爆炸事故預(yù)測等眾多經(jīng)典案例來闡述在生活中很多時(shí)候我們并不需要尋找事物之間的因果關(guān)系,而只要知道了相關(guān)關(guān)系就足夠給我們的生活和工作帶來有價(jià)值的信息,人們必須轉(zhuǎn)變在以往的日常生活中,習(xí)慣性地用因果關(guān)系來考慮事情的思維,才能在大數(shù)據(jù)
時(shí)代更好的認(rèn)知自己和這個(gè)世界。
第二部分 大數(shù)據(jù)時(shí)代的商業(yè)變革
1.數(shù)據(jù)化:一切皆可“量化”
“數(shù)據(jù)”(data)一詞在拉丁文里是“已知”的意思,也可以理解為“事實(shí)”。信息化的發(fā)展其實(shí)就是一場逐漸將世界轉(zhuǎn)化為數(shù)據(jù)的革命,在將世間萬物運(yùn)轉(zhuǎn)過程中所“散發(fā)”的特征量化為數(shù)據(jù)的過程中,其所具有的的商業(yè)價(jià)值也就如泉水般源源不斷的涌現(xiàn)出來,文中莫里的航海導(dǎo)航圖的研制和日本教授通過研究司機(jī)不同坐姿的臀部經(jīng)壓力傳感器數(shù)據(jù)化后所孕育出的新型產(chǎn)業(yè)鏈,著實(shí)讓人眼前一亮,大呼數(shù)據(jù)化研究的不可思議。如今的信息技術(shù)變革重點(diǎn)在“T”(技術(shù))上,而不是在“I”(信息)上?,F(xiàn)在,是時(shí)候把聚光燈打向“I”,開始關(guān)注信息本身了。
2.價(jià)值:“取之不盡,用之不竭”的數(shù)據(jù)創(chuàng)新
節(jié)選:
我們所處的時(shí)代之所以與眾不同,是因?yàn)閿?shù)據(jù)的收集不再存在固有的局限性。技術(shù)已經(jīng)發(fā)展到一定程度,大量信息可以被廉價(jià)地捕捉和記錄。數(shù)據(jù)經(jīng)常會(huì)得到被動(dòng)的收集,人們無需投入太多精力甚至不需要認(rèn)識(shí)這些數(shù)據(jù)。而且,由于存儲(chǔ)成本的大幅下降(在過去的50年中,數(shù)字儲(chǔ)存成本大約每2年就削減一半,而存儲(chǔ)密度則增加了5000萬倍),保存數(shù)據(jù)比丟棄數(shù)據(jù)更加容易。這使得以較低成本獲得更多數(shù)據(jù)的可能性比以往任何時(shí)候都大。
不同于物質(zhì)性的東西,數(shù)據(jù)的價(jià)值不會(huì)隨著它的使用而減少,而是可以不斷地被處理。這就是經(jīng)濟(jì)學(xué)家所謂的“非競爭性“的好處:個(gè)人的使用不會(huì)妨礙其他人的使用,而且信息不會(huì)像其他物質(zhì)產(chǎn)品一樣隨著使用而有所耗損。
數(shù)據(jù)就像一個(gè)神奇的鉆石礦,當(dāng)它的首要價(jià)值被發(fā)掘后仍能不斷給予。它的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下。
3.角色定位:數(shù)據(jù)、技術(shù)與思維的三足鼎立
從商業(yè)角度描繪了大數(shù)據(jù)價(jià)值鏈的三種角色定位:
? 基于數(shù)據(jù)本身的公司
? 基于技能的公司
? 基于思維的公司
并依此講述了3種定位不同的公司的核心競爭力、未來發(fā)展前景和商業(yè)模式的轉(zhuǎn)變所帶來的新的挑戰(zhàn)和商機(jī)。作者對(duì)未來公司體系結(jié)構(gòu)和經(jīng)營模式有了大膽的設(shè)想,認(rèn)為大數(shù)據(jù)是決定未來企業(yè)的核心競爭力,對(duì)各個(gè)行業(yè)將會(huì)起到?jīng)Q定性的影響,誰首先掌握了大數(shù)據(jù)技術(shù)和思維,進(jìn)行了深入的變革,誰就會(huì)最先受益并在此后的競爭過程中遙遙領(lǐng)先。文中的一個(gè)觀點(diǎn)讓人印象頗深:“行業(yè)專家和技術(shù)專家的光芒都會(huì)因?yàn)榻y(tǒng)計(jì)學(xué)家和數(shù)據(jù)分析家的出現(xiàn)而變暗,因?yàn)楹笳卟皇芘f觀念的影響,能夠聆聽數(shù)據(jù)發(fā)出的聲音“。
第三部分 大數(shù)據(jù)時(shí)代的管理變革
1.風(fēng)險(xiǎn):讓數(shù)據(jù)主宰一切的隱憂
2.掌控:責(zé)任與自由并舉的信息管理
最后一章主要是講大數(shù)據(jù)時(shí)代的到來帶來的個(gè)人隱私、公共安全、司法公正方面的風(fēng)險(xiǎn)問題,通過數(shù)據(jù)的公開和共享,個(gè)人信息將越來越容易被利用,個(gè)人隱私的保護(hù)將變得不堪一擊。甚至通過大數(shù)據(jù)分析預(yù)測,將將要犯罪之人繩之以法所面臨的道德風(fēng)險(xiǎn)問題,一一進(jìn)行討論分析。但就如核工業(yè)技術(shù)和生物工程學(xué)領(lǐng)域的發(fā)展一樣,人類總是先創(chuàng)造出可能危害自身的工具,然后才著手建立保護(hù)自己、防范危險(xiǎn)的安全機(jī)制,在這方面,大數(shù)據(jù)也和其他領(lǐng)域的新技術(shù)一樣,機(jī)會(huì)的到來也伴隨著風(fēng)險(xiǎn)。但作者也在書中討論了應(yīng)該如何建立一種安全的機(jī)制去管控不可預(yù)知的風(fēng)險(xiǎn)問題,甚至設(shè)想了一種新的職業(yè)--“大數(shù)據(jù)算法師”,對(duì)數(shù)據(jù)利用的風(fēng)險(xiǎn)進(jìn)行評(píng)估和提供相關(guān)分析算法的解決方案這一職業(yè)進(jìn)行了描繪。
雖然大數(shù)據(jù)技術(shù)和思想能幫助我們更好地進(jìn)行已有的工作,但大數(shù)據(jù)也并非萬能的,人類的創(chuàng)造力、直覺、天賦和靈感遠(yuǎn)非機(jī)器所能取代。大數(shù)據(jù)為我們提供的不是最終答案,只是參考答案。
第五篇:大數(shù)據(jù)時(shí)代讀書筆記
大數(shù)據(jù)時(shí)代——讀書筆記
一、引論
1.大數(shù)據(jù)時(shí)代的三個(gè)轉(zhuǎn)變:
1.可以分析更多的數(shù)據(jù),處理和某個(gè)現(xiàn)象相關(guān)的所有數(shù)據(jù),而不是隨機(jī)采樣
2.不熱衷于精確度
3.不熱衷與尋找因果關(guān)系
2.習(xí)慣:用來決策的信息必須是少量而精確的。實(shí)際:數(shù)據(jù)量變大,數(shù)據(jù)處理速度變快,數(shù)據(jù)不在精確
3.危險(xiǎn):不是隱私的泄露而是未來行動(dòng)的預(yù)判
二、大數(shù)據(jù)時(shí)代的思維變革
1.原因:沒有意識(shí)到處理大規(guī)模數(shù)據(jù)的能力,假設(shè)信息匱乏,發(fā)展一些使用少量信息的技
術(shù)(隨機(jī)采樣)
1.1086年 末日審判書 英國對(duì)人的記載
2.約翰·格朗特:統(tǒng)計(jì)學(xué),采樣分析精確性隨著采樣隨機(jī)性上升而大幅上升,與樣本數(shù)
量關(guān)系不大
3.1890年,穿孔卡片制表機(jī),人口普查
4.隨機(jī)采樣有固有的缺陷
1.采樣過程中存在偏差
2.采樣不適合考察子類別
3.只能得出實(shí)現(xiàn)設(shè)計(jì)好的問題的結(jié)果
4.忽視了細(xì)節(jié)考察
2.全數(shù)據(jù)模式:樣本=總體
1.通過異常量判斷信用卡詐騙
2.大數(shù)據(jù)分析:不用隨機(jī)抽樣,而是采用所有數(shù)據(jù)。不是絕對(duì)意義而是相對(duì)意義。
(Xroom信用卡詐騙,日本相撲比賽)
3.多樣性的價(jià)值(社區(qū)外聯(lián)系很多》社區(qū)內(nèi)聯(lián)系很多)
3.混雜性而非精確性
1.葡萄樹溫度測量:數(shù)據(jù)變多,雖然可能有錯(cuò)誤數(shù)據(jù),但總體而言會(huì)更加精確。
2.包容錯(cuò)誤有更大好處
3.word語法檢查:語料庫》算法發(fā)展
4.google翻譯:讓計(jì)算機(jī)自己估算對(duì)應(yīng)關(guān)系,尋找成千上萬對(duì)譯
結(jié)論:大數(shù)據(jù)的簡單算法好過小數(shù)據(jù)的復(fù)雜算法
5.大數(shù)據(jù)讓我們不執(zhí)著于也無法執(zhí)著于精確
6.MIT的通貨緊縮軟件:即時(shí)的大數(shù)據(jù)
7.標(biāo)簽:不精確
8.想要獲得大規(guī)模數(shù)據(jù)的好處,混亂是一種標(biāo)準(zhǔn)途經(jīng)
9.新的數(shù)據(jù)庫:大部分?jǐn)?shù)據(jù)是非結(jié)構(gòu)化的,無法被利用
10.Hadoop:與mapreduce系統(tǒng)相對(duì)的開源式分布系統(tǒng),輸出結(jié)果不精確,但是非常快 結(jié)論:相比于依賴小數(shù)據(jù)和精確性的時(shí)代,大數(shù)據(jù)因?yàn)楦鼜?qiáng)調(diào)數(shù)據(jù)的完整性和混雜性,幫助我們進(jìn)一步接近事情的真相?!安糠帧焙汀贝_切“的吸引力是可以理解的。但是當(dāng)我們的視野局限在我們可以分析和確定的數(shù)據(jù)上時(shí),我們對(duì)世界的整體影響就會(huì)產(chǎn)生偏差和錯(cuò)誤。不僅失去了盡力收集一切數(shù)據(jù)和活力,也失去了從不同角度觀察時(shí)間的權(quán)利。
三、不是因果是相關(guān)
1.知道是什么就夠了,不需要知道為什么。
1.亞馬遜放棄書評(píng)組,使用大數(shù)據(jù)預(yù)測人們的未來購書需求
2.2.在小數(shù)據(jù)世界,相關(guān)關(guān)系有用,但是大數(shù)據(jù)背景,相關(guān)關(guān)系大放異彩。通過找關(guān)聯(lián)
物,相關(guān)關(guān)系可以幫助我們捕捉現(xiàn)在和預(yù)測未來
1.A和B經(jīng)常一起發(fā)生,那么A發(fā)生時(shí)可以預(yù)測B發(fā)生
2.例子:沃爾瑪把颶風(fēng)用具和蛋撻放在一起
3.過時(shí)的尋找關(guān)聯(lián)物的方法
a)原因:數(shù)據(jù)少且收集花時(shí)間
b)在建立,應(yīng)用假想和選擇關(guān)聯(lián)物時(shí)容易犯錯(cuò)誤
c)結(jié)論:我們不需要人工選擇關(guān)聯(lián)物
3.大數(shù)據(jù)的相關(guān)分析法更準(zhǔn)確,更快
1.例子:FICO我們知道你明天會(huì)做什么
2.伊百麗:根據(jù)個(gè)人信用卡交易記錄預(yù)測個(gè)人收入,防止逃稅
3.Aviva:根據(jù)生活方式數(shù)據(jù)預(yù)測疾病
4.美國零售商target:通過購買習(xí)慣預(yù)測是否懷孕
4.通過找出新種類數(shù)據(jù)的相互聯(lián)系解決日常需要:找到關(guān)聯(lián)物并監(jiān)控,我們可以預(yù)知未來
1.例子:UPS與汽車修理預(yù)測
2.新生兒健康監(jiān)測:肉眼看不到,但是計(jì)算機(jī)能看到
5.當(dāng)收集分析和儲(chǔ)存數(shù)據(jù)的成本較高時(shí),應(yīng)當(dāng)適當(dāng)丟棄一些數(shù)據(jù)
6.數(shù)據(jù)的非線性關(guān)系
1.幸福的非線性關(guān)系
7.快速思維模式使人們偏向于用因果關(guān)系看待周圍的一切,因此經(jīng)常對(duì)世界產(chǎn)生錯(cuò)誤認(rèn)識(shí)。這也使大腦為了避免辛苦思考而產(chǎn)生的捷徑。大數(shù)據(jù)會(huì)經(jīng)常被用來證明我們習(xí)慣的思維方式是錯(cuò)誤的。
8.證明因果關(guān)系的實(shí)驗(yàn)開銷大,難于操作;相關(guān)關(guān)系很有用,不僅是因?yàn)槟転槲覀兲峁┬碌囊暯牵姨峁┑囊暯嵌己芮逦?。一旦我們考慮因果關(guān)系,這些視角會(huì)被蒙蔽。
9.大數(shù)據(jù)并非是理論消亡的時(shí)代。
四、一切皆可量化
1.莫里的信息交換計(jì)劃:總結(jié)所有船只的航海日志已獲得好的航線,為第一根大西洋電纜奠定基礎(chǔ)
2.坐姿研究與汽車防盜系統(tǒng)
3.數(shù)據(jù)化
1.把現(xiàn)象轉(zhuǎn)變成可指標(biāo)分析的量化形式的過程
2.計(jì)量和記錄促成了數(shù)據(jù):
1.阿拉伯?dāng)?shù)字
2.計(jì)數(shù)板
3.復(fù)式記賬法
3.數(shù)字化與數(shù)據(jù)化的區(qū)別
1.例子:google的數(shù)字圖書館:開始使用掃描-》數(shù)字化,進(jìn)而光學(xué)識(shí)別-》數(shù)
據(jù)化。Google借此改進(jìn)自己的翻譯
2.文化組學(xué):定量分析揭示人類行為
4.文字變成數(shù)據(jù):人可以閱讀,機(jī)器可以分析
5.方位變成數(shù)據(jù):需要一套標(biāo)準(zhǔn)的標(biāo)記系統(tǒng)和收集,記錄數(shù)據(jù)的工具。
1. 始于古希臘
2.1884年,國際子午線會(huì)議
3.1978年,全球定位系統(tǒng)
4.英國汽車保險(xiǎn)
5. UPS的最佳行車路線:減少左轉(zhuǎn)
6.收集用戶地理位置數(shù)據(jù),以便進(jìn)行忠誠度計(jì)劃?;蛘呖梢灶A(yù)測交通情況
6.現(xiàn)實(shí)挖掘
1.處理大量手機(jī)數(shù)據(jù),發(fā)現(xiàn)并預(yù)測人類的行為。
2.例子:預(yù)測流感隔離區(qū)域
3.例子:通過非洲預(yù)付費(fèi)用戶的位置信息和他們賬戶的資金,發(fā)現(xiàn)貧民窟是
經(jīng)濟(jì)繁榮的跳板
7.溝通變成數(shù)據(jù)
1.FaceBook:社交關(guān)系數(shù)據(jù)化
2.推特:情緒數(shù)據(jù)化。對(duì)沖基金正在分析微博的文本,以作為股市投資的信
號(hào)。新推特頻率可以預(yù)測電影票房
3.例子:微博與疫苗:人們對(duì)于疫苗的態(tài)度與他們實(shí)際注射預(yù)防流感藥物的可能性呈現(xiàn)正相關(guān)
8.萬物數(shù)據(jù)化
1.觸覺地板:適時(shí)開關(guān)燈,確定身份,某人摔倒之后是否站起來
2.人體傳感器:監(jiān)控健康狀態(tài)
4.結(jié)論:世界的本質(zhì)是信息和數(shù)據(jù),大數(shù)據(jù)提供新視角。
五、大數(shù)據(jù)的潛在價(jià)值
1.例子:captcha(驗(yàn)證碼,全自動(dòng)區(qū)分人類和電腦的圖靈測試)與數(shù)據(jù)再利用。作者使用了新的驗(yàn)證碼recaptcha,人們從計(jì)算機(jī)光學(xué)字符識(shí)別程序無法識(shí)別的文本掃面項(xiàng)目中讀入單詞并輸出,知道他們都輸出正確后才確定(用來破譯數(shù)字化文本中不清楚的單詞)
2.大數(shù)據(jù)時(shí)代,所有的數(shù)據(jù)都是有價(jià)值的?,F(xiàn)在,我們能夠以較低成本獲取并存儲(chǔ)數(shù)據(jù)。數(shù)據(jù)的真實(shí)價(jià)值就像漂浮在海洋中的冰山,絕大部分隱藏在表面之下。
3. 不同于物質(zhì)性的東西,數(shù)據(jù)的價(jià)值不會(huì)隨它的使用而減少,而且可不斷被處理。意味著數(shù)據(jù)的最終價(jià)值遠(yuǎn)遠(yuǎn)大于它的最初價(jià)值。在基本用途完成后,數(shù)據(jù)的價(jià)值仍然存在,數(shù)據(jù)的價(jià)值是其所有可能用途的總和。
4.例子:IBM與電力汽車動(dòng)力系統(tǒng)的優(yōu)化預(yù)測:大數(shù)據(jù)預(yù)測模型,甚至考慮天氣預(yù)報(bào)
5.數(shù)據(jù)再利用:
1. 搜索關(guān)鍵詞,搜索結(jié)果預(yù)測夏天流行色
2.google保存語音翻譯記錄,開發(fā)自己的語音識(shí)別技術(shù)
3.移動(dòng)運(yùn)營商長期使用大數(shù)據(jù)微調(diào)網(wǎng)絡(luò)性能
4.有些公司可能會(huì)收集到大量的數(shù)據(jù),但是他們并不急需使用,也不擅長使用數(shù)據(jù),但是別的公司可以借此探尋數(shù)據(jù)的潛在價(jià)值
8.重組數(shù)據(jù)
1.例子:丹麥癌癥協(xié)會(huì)與手機(jī)致癌調(diào)查:使用所有的手機(jī)用戶信息和所有的中樞神經(jīng)系統(tǒng)腫瘤信息。
隨著大數(shù)據(jù)的出現(xiàn),數(shù)據(jù)的總和比部分更有價(jià)值,當(dāng)我們將多個(gè)數(shù)據(jù)集的總和重組在一起,重組總和本身的價(jià)值也比單個(gè)總和更大
9.可拓展數(shù)據(jù)
1.Google街景和GPS采集,不僅將其用于基本用途,而且進(jìn)行了大量的二次利用。例如,對(duì)Google自動(dòng)駕駛汽車的運(yùn)作
10.?dāng)?shù)據(jù)的折舊值
1.隨著時(shí)間的推移,大多數(shù)數(shù)據(jù)都會(huì)失去一部分基礎(chǔ)用途,不應(yīng)用此破壞新數(shù)據(jù)
2.挑戰(zhàn):如何得知某些數(shù)據(jù)不再有價(jià)值
3.并非所有數(shù)據(jù)都會(huì)貶值。例子:Google希望得到每年的同比數(shù)據(jù)
結(jié)論:組織機(jī)構(gòu)應(yīng)收集盡可能多的使用數(shù)據(jù)并保存盡可能長的時(shí)間。同時(shí)也應(yīng)該與第三方分享數(shù)據(jù)
11.數(shù)據(jù)廢氣:用戶在線交互的副產(chǎn)品,包括瀏覽哪些頁面,停留多久,輸入信息等
1.數(shù)據(jù)再利用的方式很隱蔽
2.例子:Google的拼寫檢查:搜集每天處理的查詢中數(shù)據(jù)搜索框的錯(cuò)誤拼寫
3.例子:Google的過濾噪音技術(shù):如果用戶點(diǎn)擊搜索結(jié)果靠后的鏈接,說明這個(gè)結(jié)果更加有相關(guān)性,Google會(huì)把這個(gè)頁面的排名相應(yīng)提升。
4.當(dāng)用戶指出了各種自動(dòng)化程序的錯(cuò)誤,實(shí)際上是訓(xùn)練了系統(tǒng)
5.例子:巴諾與數(shù)據(jù)快照,電子書閱讀器捕捉人們閱讀書籍的習(xí)慣
6.例子:Coursera通過捕捉學(xué)生犯的錯(cuò)誤來提示未來犯錯(cuò)誤者
結(jié)論:數(shù)據(jù)廢氣可以成為公司的巨大競爭優(yōu)勢,和對(duì)手的強(qiáng)大進(jìn)入堡壘
12.開放數(shù)據(jù)
1.最大的數(shù)據(jù)收集者:政府,可以強(qiáng)迫人們提供信息,但是信息利用效率低下。最好允許私人運(yùn)營部門和社會(huì)大眾訪問
2.例子:FlyOnTime網(wǎng)站,通過開放的數(shù)據(jù)分析航班延誤可能性。
3.給數(shù)據(jù)估值:從數(shù)據(jù)持有人在價(jià)值提取上所采取的不同策略入手,將數(shù)據(jù)授權(quán)給第三方
三、角色定位:數(shù)據(jù),技術(shù)與思維
1.例子:decide.com廣泛收集數(shù)據(jù),用來發(fā)現(xiàn)不正常,不合理的價(jià)格高峰。
2.思維轉(zhuǎn)變的重要性
3.三種大數(shù)據(jù)公司
1.基于數(shù)據(jù)本身的公司:twitter
大數(shù)據(jù)最值錢的是他本身,所以應(yīng)該優(yōu)先考慮數(shù)據(jù)擁有者
例子:機(jī)票預(yù)訂系統(tǒng)ITA不直接使用數(shù)據(jù):擔(dān)心暴露利潤
例子:MasterCard通過大數(shù)據(jù)預(yù)測客戶的消費(fèi)習(xí)慣
2.基于技能的公司:咨詢公司,技術(shù)供應(yīng)商或者分析公司:Teradata
例子:埃森哲公司利用大數(shù)據(jù)檢測汽車零件并節(jié)省費(fèi)用
例子:微軟分析公司利用大數(shù)據(jù)降低病人的再入院率
3.基于思維的公司:創(chuàng)新思維
例子:FlightCaster飛機(jī)晚點(diǎn)預(yù)測
例子:prismatic分析新聞并排序
4.大數(shù)據(jù)先驅(qū)者一般有跨學(xué)科的知識(shí)
5.例子:google和amazon三者兼?zhèn)?/p>
6.全新的數(shù)據(jù)中間商:從各個(gè)地方搜集數(shù)據(jù),提取有用的信息進(jìn)行利用,并不威脅數(shù)據(jù)擁有者的利益
1.社會(huì)需要定向廣告
例子:Inrix:分析各種汽車制造者的數(shù)據(jù)和用戶的數(shù)據(jù),提供衛(wèi)星導(dǎo)航服務(wù)
汽車制造商們本身數(shù)據(jù)量不夠,自身也沒有技術(shù)利用大數(shù)據(jù),也并不介意數(shù)據(jù)會(huì)被中間商利用。同時(shí)可以提供失業(yè)率等相關(guān)數(shù)據(jù)
例子:Quantcast:收集用戶訪問信息來測評(píng)用戶年齡等,之后發(fā)定向廣告
例子:HCCI收集醫(yī)療保單,分析美國醫(yī)療費(fèi)用上漲是否合理
結(jié)論:
1.數(shù)據(jù)價(jià)值的轉(zhuǎn)移:從技術(shù)到數(shù)據(jù)本身和大數(shù)據(jù)思維
2.傳統(tǒng)商業(yè)模式顛覆:交易數(shù)據(jù)而不是交易技術(shù)
3.傳統(tǒng)專家的光芒會(huì)被統(tǒng)計(jì)和數(shù)據(jù)學(xué)家取代,因?yàn)楹笳咧魂P(guān)心數(shù)據(jù)
1.例子:谷歌翻譯團(tuán)隊(duì)的工程師都不會(huì)說出翻譯的語言
2.真正的專家不會(huì)消亡,但是主導(dǎo)地位會(huì)改變
3.專業(yè)技能只適用于小數(shù)據(jù)時(shí)代,因?yàn)槟鞘切枰揽恐庇X和經(jīng)驗(yàn)指導(dǎo),但是
遭遇海量數(shù)據(jù)時(shí),可以通過數(shù)據(jù)挖掘得到更多
4.數(shù)據(jù)和統(tǒng)計(jì)學(xué)知識(shí)將成為現(xiàn)代工廠的基礎(chǔ),人類的價(jià)值體現(xiàn)在交流上,以進(jìn)行廣泛而深刻的傳播
1.例子:交互式游戲,會(huì)根據(jù)用戶來改良,以數(shù)據(jù)為基礎(chǔ)運(yùn)作
2.例子:The-numbers.com通過大數(shù)據(jù)來預(yù)測電影票房
5.大數(shù)據(jù)決定企業(yè)核心競爭力
1.數(shù)據(jù)規(guī)模決定價(jià)值
2.例子:勞斯萊斯通過大數(shù)據(jù)監(jiān)測引擎,預(yù)測可能出問題的引擎
3.例子:蘋果進(jìn)軍手機(jī)
4.大數(shù)據(jù)為小公司帶來了機(jī)遇:能享受非固有資產(chǎn)規(guī)模的好處,低成本傳播
創(chuàng)新結(jié)果,只需要?jiǎng)?chuàng)新思維
5.大數(shù)據(jù)擁有者會(huì)想辦法增加數(shù)據(jù)存儲(chǔ)量
6.消費(fèi)者成為數(shù)據(jù)擁有者并與中間商交易
7.大數(shù)據(jù)對(duì)中等規(guī)模的公司幫助不大:既沒有靈活性也沒有規(guī)模效應(yīng)
6.大數(shù)據(jù)撼動(dòng)國家競爭力:西方世界優(yōu)勢減少
四、大數(shù)據(jù)時(shí)代的管理
1.大數(shù)據(jù)會(huì)帶來很多危險(xiǎn),因?yàn)槠浜诵乃枷胧怯靡?guī)模劇增來改變現(xiàn)狀。
2.濫用大數(shù)據(jù)的力量會(huì)傷害人身安全
3.大數(shù)據(jù)的二次利用顛覆了隱私保護(hù)法:無法征得個(gè)人同意
4.如果所有人的信息在數(shù)據(jù)庫里,有意識(shí)地避免就是此地?zé)o銀三百兩
5.匿名化:交叉檢驗(yàn)會(huì)檢驗(yàn)出來
6.大數(shù)據(jù)預(yù)測:罪責(zé)判定基于對(duì)個(gè)人未來行為的預(yù)測。大數(shù)據(jù)可能會(huì)否定人的自由意志
7.數(shù)據(jù)有其局限性,數(shù)據(jù)的質(zhì)量可能會(huì)很差,有誤導(dǎo)性。
8.卓越的才華并不依賴數(shù)據(jù):Apple喬布斯的才能
五、掌握大數(shù)據(jù)
1.個(gè)人隱私保護(hù):從個(gè)人許可到讓數(shù)據(jù)使用者承擔(dān)責(zé)任,因?yàn)閷⒇?zé)任從民眾轉(zhuǎn)移到數(shù)據(jù)使用者很有意義因?yàn)閿?shù)據(jù)使用者比其他人更明白他們想怎么樣使用數(shù)據(jù),也因?yàn)樗麄兪亲畲罄娅@得者:監(jiān)管機(jī)制可以決定不同種類的個(gè)人數(shù)據(jù)必須刪除的時(shí)間
2.信息模糊處理
3.個(gè)人應(yīng)該為他們的行動(dòng)而非傾向負(fù)責(zé)
4.打破大數(shù)據(jù)的黑盒子:大數(shù)據(jù)算法師:評(píng)估數(shù)據(jù)源,分析數(shù)據(jù)工具,解讀運(yùn)算結(jié)果
1.外部算法師:審計(jì)大數(shù)據(jù)的準(zhǔn)確程度和有效性
2.內(nèi)部算法師:監(jiān)督大數(shù)據(jù)的運(yùn)轉(zhuǎn)
5.反數(shù)據(jù)壟斷
六、結(jié)語
沒有什么是上天注定的,因?yàn)槲覀兛偰芫褪种械男畔⒅贫ǔ鱿鄳?yīng)的對(duì)策。大數(shù)據(jù)的預(yù)測結(jié)果也并非鐵定而只是一種可能性,也就是說,只要我們愿意,結(jié)果可以改寫,我們可以判定出迎接未來的最佳方式,也無需理解宇宙的奧秘或者神的存在,因?yàn)榇髷?shù)據(jù)幫我們做好了。更大的數(shù)據(jù)來源于人本身,大數(shù)據(jù)所不能預(yù)測的,正是人類的直覺,勇氣,探索精神和獨(dú)創(chuàng)性。使用大數(shù)據(jù)的時(shí)候,我們應(yīng)該懷有謙卑之心,銘記人性之本