網頁

2013年8月29日 星期四

[Books] Nate Silver 的 The Signal and the Noise 繁體中譯本《精準預測》出版啦!

圖片取自 http://pic.eslite.com/Upload/Product/201308/l/635129301094863750.jpg

期盼很久的 Nate Silver 著作 《The Signal and the Noise: Why So Many Predictions Fail—but Some Don’t》終於在原文書出版 (2012/09/27) 接近一年後要出繁體中譯本《精準預測:如何從巨量雜訊中,看出重要的訊息?》了!

Nate Silver 是誰呢? 大學就讀芝加哥大學經濟系,曾在大三時前往倫敦政經學院研修一年,2000年大學畢業後,進入KPMG事務所擔任顧問,因為對實際工作內容缺乏熱情,開始(充分)利用時間發展自己的興趣,研發以數據預測美國職業棒球員表現與球隊賽果的PECOTA系統打出名堂,因為精準至極,因而吸引Baseball Propectus於2003年時收購。

2004年及2005年靠著打線上德州撲克牌賺了40萬美元,但2006年因為線上撲克受到「非法網路賭博禁止法案」影響,可以參與的雜魚玩家大幅減少(被迫退出或是破產了),沒有較弱的雜魚玩家支撐比賽,贏錢難度大幅增加,2006年和2007年輸了共13萬5千美元後(約先前賺來的1/3),停損,不打了。

從線上賭博法案通過後 Nate Silver 對政治程序興趣大增,也因此發覺政治競選活動預測競爭門檻低得讓人心動,只要有做一些相當基本的研究,了解政治競選活動中什麼東西才是有預測力的,看起來就會像個天才!(因為特定的立場和意識形態,所以很多預測是以有偏見的眼光看待調查與數據,只看到他們想看到的,提出引人注目但背離事實的解讀,所以更多的資訊並沒有讓有偏見的人預測得更好,因為這隱藏了預測者的壞習慣或看待資訊的態度),所以開始寫部落格,貼出詳細、以資料為主的分析,討論民意調查、募款數字之類的議題,2008年3月時將所分析的內容開始轉到 FiveThirtyEight (網站命名來自於美國選舉人團的總票數538票)發表他的選情預測。

2008年美國總統大選,他成功預測歐巴馬勝選:50州個別選舉結果,49州預測正確,而且35席參議員的勝選者,全部預測正確。 
2012年,他再次力抗全國媒體、政治名嘴團、預測機構所稱「勢均力敵」的說法,成功預測歐巴馬勝選, 這次 50州全部命中, 在關鍵州的預測更驚人的準確徹底打敗傳統電視台的民調、傳統政治名嘴的預測、傳統大型民意調查機構的預測 (例如: 蓋洛普 Gallup 和 Rasmussen) 可參考 Which Polls Fared Best (and Worst) in the 2012 Presidential Race 

《精準預測》書內涵蓋非常多元豐富的內容 (地震預測、氣象預測、氣候預測、反恐預測、西洋棋電腦對戰棋王、撲克贏錢預測、金融市場贏錢預測、經濟預測、職業棒球賽預測、職業籃球賽預測、流行病傳染預測、政治選舉結果預測.....等),而且充分利用他於紐約時報擔任部落客與記者的資源 (2008年~2012年書籍出版前),訪問了以上相關領域不同意見的核心專家(超過百位)的說明與看法,並內化與統整精粹成書籍內容。

與其說 Nate Silver 是預測鬼才(天才),倒不如說他是對造成預測準確或錯誤的根本原因或侷限與盲點,有深刻體認與時時自省並檢討修正的持續改進者!非常推薦大家閱讀 Nate Silver 的《精準預測》!


《The Signal and the Noise: Why So Many Predictions Fail—but Some Don’t》
★ 出版三個月穩居亞馬遜書店銷售總榜前 20 名、商業理財類第 1 名、政治社會科學類第 1 名 
★《紐約時報》暢銷書排行榜前 10 名 
★ 榮登亞馬遜書店 2012 年度「非文學類」第 1 名 
★ 獲選為亞馬遜書店編輯嚴選2012年度「商業類」最佳書籍 
★ 獲選《華爾街日報》2012「十大最佳非文學類好書」 
★《紐約時報》書評盛讚:「10 年來最重要的一本書」 
★ 2009 年《時代雜誌》將奈特˙席佛列入「世界最有影響力的百大名人」 
★ 2012 年《滾石雜誌》將奈特˙席佛譽為「改變遊戲規則的人」 


◎ Nate Silver 在書中不斷提醒讀者: 
˙預設立場或過度自信,對預測來說,是非常可怕的事。  
˙預測不是在追求是與非,而是估算事情發展的「機率」。有精準的機率,才能做出有利的決策。 
˙做預測時,最怕一看見「有相關」就解釋成「因果關係」。(冰淇淋 vs. 森林大火) 
˙預測時不能忽略「誤差」,並要勇於承認有「不確定性」。 不然你會過度解釋,變成不精準的預測。 
˙根據預測出來的機率,做了最有利的選擇,即使最後結果不好,仍然是好預測。 
˙在很多情境中,不是一定要追求終極完美的預測,只要預測比競爭對手好,你就贏了。 
˙當大家不免被雜訊迷惑時,問問自己,你有什麼法寶,能讓自己更接近真相?跟著法寶走,不要跟著群眾走。 
˙有新的重大資訊進來時,能保持客觀,隨時更新的預測,才有可能是精準的預測。


以下修改自簡體中譯本之目次,可以快速一窺內容主題之精髓

2013年8月28日 星期三

[Books] The Data Journalism Handbook 資料新聞學手冊中文版

 圖片取自 http://farm8.staticflickr.com/7115/7038139465_1693e1a304.jpg


The Data Journalism Handbook 
由美國紐約時報(The New York Times)、英國衛報(The Guardian)、ProPublica、德國之聲(Deutsche Welle)、開放知識基金會(The Open Knowledge Foundation)、金融時報(The Financial Times)、La Nación 等來自世界先端資料新聞學實務者共同協作。


資料新聞學手冊(簡體)中文版線上閱讀
http://xiaoyongzi.github.io/web/index.html


The Data Journalism Handbook 資料新聞學手冊(簡體)中文版是將近30人(志工) 的在線協同作業翻譯,由香港大學JMSC進行審核。開放知識基金會和歐洲新聞中心正式授權。

    

2013年8月25日 星期日

[Data News] Google 2013Q1調查台灣智慧型手機之市場報告

Google 2013Q1調查台灣智慧型手機之市場報告pdf
檔案閱讀與下載  http://services.google.com/fh/files/misc/omp-2013-tw-local.pdf

以下僅是報告最後3頁對於此次調查樣本之說明



2013年8月23日 星期五

[Data News] 巨量資料團隊需要的五種人才

原文:Five Roles You Need on Your Big Data Team   http://blogs.hbr.org/cs/2013/07/five_roles_you_need_on_your_bi.html
作者:Matt Ariker, Tim McGuire, and Jesko Perry

中譯:巨量資料團隊需要的五種人才  
http://www.hbrtaiwan.com/blog_content_261_1.html
譯者:侯秀琴


圖片取自 http://retail360solutions.com/wp-content/uploads/2013/08/data-scientist-wp.jpg


許多公司念念不忘要如何把他們的資料轉化為價值,但我們發現,他們花太多時間在「資料」上,花太少時間在這個方程式的「人員」這一邊。


然而,要把方程式裡「人員」這一邊做對,不只是要雇用最優秀的人才(雖然這點很重要)。根據我們的經驗,許多企業忽略了兩個重要項目:1)確認他們真正需要的人員,2)在他們的先進分析(advanced analytics)辦公室裡建立「顧客服務」的心態。


合適的團隊


巨量資料人才是關鍵問題。麥肯錫全球研究院(McKinsey Global Institute)指出,到2018年,光是在美國,就可能短缺14萬至19萬擁有深厚分析技能的人才。但是,企業應先花時間確認他們需要的各種角色,好讓巨量資料機器運作,而不是急著招募數學與科學高手。雖然不同的公司有不同的人才需求,但你的先進分析辦公室仍然需要配備下列五種重要人才:


1.資料衛生員(Data Hygienists)
可確保進入系統的資料是乾淨、正確的,並在整個資料生命週期當中都保持乾淨而正確。例如,擷取的時間值都相同嗎?一個資料集測量的可能是一年的日曆天數(365天),另一個測量的是一年的工作日數(260天),還有一個是一年的小時數(8765小時)。所有的值都必須相同,才能進行比較。或是舊資料的欄位裡面填的是新類型的資料,但沿用舊的欄位名稱?如果資料庫沒有處理這些問題,新產品的資料可能會覆蓋舊產品的資料,呈現毫無意義的結果。這個資料清理的工作,在資料最初被擷取時就得開始做,而且在任何階段接觸到該資料的所有團隊成員都應參與。


2.資料探索員(Data Explorer)
篩選堆積如山的巨量資料,找出你真正需要的資料。這可能是很重要的任務,因為外部那麼多資料並不是為了分析而存在,因此,不是用容易取得的方式儲存或組織的。收銀機的資料是絕佳的例子。它最初的功能是讓公司追蹤營收,而非去預測某一顧客接下來會買什麼產品。


2013年8月21日 星期三

[Speech] 沒有任何人只靠自己的努力就能變得富有 - Elizabeth Warren

美國哈佛大學法律系教授 Elizabeth Warren,身兼美國著名的破產法專家和民主黨參議員候選人,並於該次選舉中拿下 Massachusetts(麻州)參議員席次,是麻州有史以來第一位女性國會參議員。以下是 Warren 在2011年一場關於稅賦公平所發表的演說:



以下節錄文字約從影片55秒開始

There is nobody in this country who got rich on his own, Nobody!
在這個國家,沒有任何人只靠自己的努力就能變得富有!


"You built a factory out there? Good for you." 

"But I want to be clear: you moved your goods to market on the roads the rest of us paid for; you hired workers the rest of us paid to educate; you were safe in your factory because of police forces and fire forces that the rest of us paid for. You didn't have to worry that marauding bands would come and seize everything at your factory, and hire someone to protect against this, because of the work the rest of us did.
我要把話說得明白,也許你認為你一切的成就都是來自於你自己奮鬥的成果,可是別忘了那些社會成本,因為社會大眾的納稅,政府修建道路,你的貨物才能在工廠和市場之間順利運輸;社會大眾出資建立了完善的教育制度,你才可以雇用到優秀的員工;你不用擔心搶劫或意外,因為政府設立了安全的警政機構與消防隊安全維護,才讓你可以在工廠裡安心工作。


"Now look, you built a factory and it turned into something terrific, or a great idea? Keep a big hunk of it. But part of the underlying social contract is you take a hunk of that and pay forward for the next kid who comes along."

你看,你建造了一座工廠,並且經營的有聲有色或者發展出很好的理念,你可以拿走大部分的利潤,但是,這背後隱藏著一份社會契約,這份契約的內容是,你可以拿走這些利潤,但是你必須為下一代人負擔這些費用,讓制度運作得更順利。



以下轉貼報紙關於 Elizabeth Warren 的介紹


2013年8月15日 星期四

[Paradox] 為什麼貧窮? 出路

非常推薦觀看的記錄片《出路》 (片長約一小時,中文發音,英文字幕)

「為什麼貧窮?」是由總部位於丹麥的國際非營利組織 STEPS INTERNATIONAL 推動的非商業計畫。Steps曾在2007年推動過「為什麼要民主?」(Why Democracy?)。而「為什麼貧窮?」即以此為基礎,希望用影片刺激大眾討論貧窮問題;計畫共同發起人還有英國廣播公司 (BBC)和丹麥廣播公司(DR),這兩家電視台也是計畫的主要合作伙伴和推動者。

紀錄片《出路》,導演陳維軍以中國武漢為背景,透過三個人的故事-弘博軟件教育的講師王振祥、高中畢業生王盼,以及大學畢業,求職屢屢碰壁的萬超-探討中國教育的真實面。紀錄中國經濟發展,加上唯才是用的觀念下,讓人以為唸書就能擺脫貧窮,但目前存在的教育制度下卻只有少數人能找到工作,培育出的是一批失業絕望的新世代。而「教育產業化」背後,也產生弘博軟件教育的講師王振祥所說的「中國三大暴利行業之首就是招生」的扭曲現象。





《為什麼貧窮? 出路  Education Education - Why Poverty? 

2013年8月11日 星期日

[Tools] Visualization Test Pie Chart

終於知道英國衛報網站 The Guardian Data Store 網頁上的即時互動統計圖表是怎麼顯示出來的,以下將 2012/12/29 開始至 2013/08/11 這期間以不同瀏覽器到訪部落格的記錄,先試玩畫一個 Pie Chart (次數低於150次的瀏覽器合併以Others計數)



Google Visualization API Sample

[Paradox] 別太快說,不可能!

圖片取自 http://hdwallpapersbase.com/wp-content/uploads/2013/06/1967-pontiac-gto-muscle-car-wallpaper.jpg

這是一個發生在美國通用汽車的客戶與該公司客服部間的真實故事。 有一天美國通用汽車公司的龐帝雅克 (Pontiac) 部門收到一封客戶抱怨信,上面是這樣寫的: 
“這是我為了同一件事第二次寫信給你,我不會怪你們為什麼沒有回信給我,因為我也覺得這樣別人會認為我瘋了,但這的確是一個事實。”                  
  我們家有一個傳統的習慣,就是我們每天在吃完晚餐後,都會以冰淇淋來當我們的飯後甜點。由於冰淇淋的口味很多,所以我們家每天在飯後才投票決定要吃哪一種口味,等大家決定後我就會開車去買。
  但自從最近我買了一部新的龐帝雅克後,在我去買冰淇淋的這段路程問題就發生了。
“你知道嗎?每當我買的冰淇淋是香草口味時,我從店理出來車子就發不動。但如果我買的是其他的口味,車子發動就順得很。”
  我要讓你知道,我對這件事情是非常認真的,儘管這個問題聽起來很豬頭。
  為什麼這部龐帝雅克當我買了香草冰淇淋它就秀逗,而我不管什麼時候買其他口味的冰淇淋,它就一尾活龍?為什麼?為什麼?”

[Paradox] Why-Why Analysis

圖片取自 http://www.kinokuniya.co.jp/f/dsg-01-9784526055607
     
豐田汽車(TOYOTA)公司前副社長 大野耐一 先生曾舉了一個例子來找出停機的真正原因。 
有一次,大野耐一 在生產線上的機器總是停轉,雖然修過多次但仍不見好轉。

於是,大野耐一 與工人進行了以下的問答: 

  一問:『為什麼機器停了?』 
  答:「因為超過了負荷,保險絲就斷了。」 

  二問:『為什麼超負荷呢?』 
  答:「因為軸承的潤滑不夠。」

[Paradox] 我們先用情緒下決定,再用理性找理由

維吉尼亞大學心理學家強納森‧海德特(Jonathan Haidt,著有《象與騎象人The Happiness Hypothesis》)寫道:「當你看到一幅畫,通常很快就會知道自己是否喜歡。如果有人要你解釋你的判斷,你會虛構一些理由……道德爭論大致也是這樣:兩個人如果對某議題有強烈的感覺,先出場的都是他們的感情,然後才編造出理由,丟給對方。(《大腦決策手冊:該用腦袋的哪個部分做決策?How We Decide》頁222)


圖片取自 http://acbe.eu/index.php?/les-temps-modernes/les-temps-modernes-2003-2004/

2013年8月10日 星期六

[Paradox] 慈善-産業綜合體

原文 http://www.nytimes.com/2013/07/27/opinion/the-charitable-industrial-complex.html
作者 Peter Buffett (著名投資人 華倫巴菲特的兒子在紐約時報投書高呼慈善是富人“洗滌良心”的虛僞産業。)

譯者 Albert Tzeng

圖片取自 http://www.nytimes.com/imagepages/2013/07/27/opinion/0727OPEDopen.html

【慈善-産業綜合體】

我這輩子多數時間在替廣告、電影和電視節目寫曲子,對於巨富的慈善事業一無所知,直到2006年那件我稱為「大震撼」的事之後才改觀。那年,我父親巴菲特履行諾言,將他的絕大部分財富捐獻社會。除了若干筆巨額捐款,他還慷慨挹注三所多年前由家父母創辦的基金會,並讓三個孩子各經營一個。

才開始踏入慈善事業,我跟太太就體會到一件事,我後來稱為「慈善殖民主義」。我注意到,捐款者總傾向以某類特定方式來「扭轉逆境」。大家(包括我自己)常對某個地方知之甚少,却自以爲能幫當地人解决問題。不管涉及農耕技術、教育、職業培訓或商業發展,我不斷聽到人們討論如何把甲地的成功模式,直接套到乙地,無視文化、地理和社會風俗。往往,我們的决策造成意想不到的後果,例如在紅燈區散發保險套來預防愛滋,却造成無套性交價格的哄抬。

2013年8月8日 星期四

[Data Journalism] 無用的資訊圖表

英國衛報日前針對資料視覺化 Data visualization 選出16張資訊圖表 (infographic),並指出了這些由各單位所發表的報告、報導所精心繪製的精美資訊圖表所犯的錯誤。

文章 16 useless infographics
作者  Mona Chalabi
連結  http://www.theguardian.com/news/datablog/gallery/2013/aug/01/16-useless-infographics

以下僅節錄6張圖表簡單說明 (非翻譯原作者的 微酸 評論 XD )


圖表 3/16,苦主 NSW

2013年8月6日 星期二

[Sampling] 利用方區樣本估計母體密度和大小

拍攝者 Jake Sun

2013年8月3日的「凱道送仲丘」是台灣史上最大規模由公民自發的社會運動,主辦單位稱有25萬人,而警政單位則稱約有11萬人。到底為什麼會差這麼多?在這種不售票的大型集會,又要如何估算人數呢?傳統直觀的估算方式是每單位(常用是平方公尺)多少人去乘上總單位數(總平方公尺面積),但若是繼續問那這個估計的變異數或誤差界限呢?這時就會卡住了!有簡單的估算方法嗎?有!在抽樣方法中有一個方區樣本估計法有提供簡單的估計式計算變異數或誤差界限

2013年8月3日 星期六

[Data News] 海量資料萬歲?請三思!

外電原文:Think Again: Big Data http://www.foreignpolicy.com/articles/2013/05/09/think_again_big_data
作者:KATE CRAWFORD

中譯出處:http://leonardwrites.wordpress.com/2013/05/23/bigdatathink/  [有詳實的佐證連結]
譯者:Leonard Chien 
圖片取自 http://dashburst.com/infographic/big-data-volume-variety-velocity/
  
[文字轉貼自 PanSci 泛科學 http://pansci.tw/archives/42114  以下僅標色未加超連結]

「海量資料」是當今最流行的用語,也是科技界對世上各種棘手難題的萬用解答,意指藉由分析龐大資訊後,歸納出模式、精闢見解,並預測複雜問題的答案,聽來或許有些無趣,但無論是阻止恐怖份子、終結貧窮、拯救地球,海量資料支持者都深信可迎刃而解。