網頁

2013年9月11日 星期三

[Data News] 2013 Big Data Forum - Taiwan

2013年8月29日(四) 臺灣有一場產、官、學關於 Big Data (Open Data) 的論壇
中央研究院資訊科技創新研究中心於9月6日有將論壇的影片公開至 YouTube
以下僅選產、官、學各一部影片

Statistics in the Big Data Era - Going beyond the buzzword
Dr. Ivan, Yuan-Chin Chang
張源俊研究員 中央研究院-統計科學研究所




Open Data
Dr. Yennun Huang, Deputy Executive Secretary
黃彥男副執行秘書 行政院-科技會報辦公室



2013年8月29日 星期四

[Books] Nate Silver 的 The Signal and the Noise 繁體中譯本《精準預測》出版啦!

圖片取自 http://pic.eslite.com/Upload/Product/201308/l/635129301094863750.jpg

期盼很久的 Nate Silver 著作 《The Signal and the Noise: Why So Many Predictions Fail—but Some Don’t》終於在原文書出版 (2012/09/27) 接近一年後要出繁體中譯本《精準預測:如何從巨量雜訊中,看出重要的訊息?》了!

Nate Silver 是誰呢? 大學就讀芝加哥大學經濟系,曾在大三時前往倫敦政經學院研修一年,2000年大學畢業後,進入KPMG事務所擔任顧問,因為對實際工作內容缺乏熱情,開始(充分)利用時間發展自己的興趣,研發以數據預測美國職業棒球員表現與球隊賽果的PECOTA系統打出名堂,因為精準至極,因而吸引Baseball Propectus於2003年時收購。

2004年及2005年靠著打線上德州撲克牌賺了40萬美元,但2006年因為線上撲克受到「非法網路賭博禁止法案」影響,可以參與的雜魚玩家大幅減少(被迫退出或是破產了),沒有較弱的雜魚玩家支撐比賽,贏錢難度大幅增加,2006年和2007年輸了共13萬5千美元後(約先前賺來的1/3),停損,不打了。

從線上賭博法案通過後 Nate Silver 對政治程序興趣大增,也因此發覺政治競選活動預測競爭門檻低得讓人心動,只要有做一些相當基本的研究,了解政治競選活動中什麼東西才是有預測力的,看起來就會像個天才!(因為特定的立場和意識形態,所以很多預測是以有偏見的眼光看待調查與數據,只看到他們想看到的,提出引人注目但背離事實的解讀,所以更多的資訊並沒有讓有偏見的人預測得更好,因為這隱藏了預測者的壞習慣或看待資訊的態度),所以開始寫部落格,貼出詳細、以資料為主的分析,討論民意調查、募款數字之類的議題,2008年3月時將所分析的內容開始轉到 FiveThirtyEight (網站命名來自於美國選舉人團的總票數538票)發表他的選情預測。

2008年美國總統大選,他成功預測歐巴馬勝選:50州個別選舉結果,49州預測正確,而且35席參議員的勝選者,全部預測正確。 
2012年,他再次力抗全國媒體、政治名嘴團、預測機構所稱「勢均力敵」的說法,成功預測歐巴馬勝選, 這次 50州全部命中, 在關鍵州的預測更驚人的準確徹底打敗傳統電視台的民調、傳統政治名嘴的預測、傳統大型民意調查機構的預測 (例如: 蓋洛普 Gallup 和 Rasmussen) 可參考 Which Polls Fared Best (and Worst) in the 2012 Presidential Race 

《精準預測》書內涵蓋非常多元豐富的內容 (地震預測、氣象預測、氣候預測、反恐預測、西洋棋電腦對戰棋王、撲克贏錢預測、金融市場贏錢預測、經濟預測、職業棒球賽預測、職業籃球賽預測、流行病傳染預測、政治選舉結果預測.....等),而且充分利用他於紐約時報擔任部落客與記者的資源 (2008年~2012年書籍出版前),訪問了以上相關領域不同意見的核心專家(超過百位)的說明與看法,並內化與統整精粹成書籍內容。

與其說 Nate Silver 是預測鬼才(天才),倒不如說他是對造成預測準確或錯誤的根本原因或侷限與盲點,有深刻體認與時時自省並檢討修正的持續改進者!非常推薦大家閱讀 Nate Silver 的《精準預測》!


《The Signal and the Noise: Why So Many Predictions Fail—but Some Don’t》
★ 出版三個月穩居亞馬遜書店銷售總榜前 20 名、商業理財類第 1 名、政治社會科學類第 1 名 
★《紐約時報》暢銷書排行榜前 10 名 
★ 榮登亞馬遜書店 2012 年度「非文學類」第 1 名 
★ 獲選為亞馬遜書店編輯嚴選2012年度「商業類」最佳書籍 
★ 獲選《華爾街日報》2012「十大最佳非文學類好書」 
★《紐約時報》書評盛讚:「10 年來最重要的一本書」 
★ 2009 年《時代雜誌》將奈特˙席佛列入「世界最有影響力的百大名人」 
★ 2012 年《滾石雜誌》將奈特˙席佛譽為「改變遊戲規則的人」 


◎ Nate Silver 在書中不斷提醒讀者: 
˙預設立場或過度自信,對預測來說,是非常可怕的事。  
˙預測不是在追求是與非,而是估算事情發展的「機率」。有精準的機率,才能做出有利的決策。 
˙做預測時,最怕一看見「有相關」就解釋成「因果關係」。(冰淇淋 vs. 森林大火) 
˙預測時不能忽略「誤差」,並要勇於承認有「不確定性」。 不然你會過度解釋,變成不精準的預測。 
˙根據預測出來的機率,做了最有利的選擇,即使最後結果不好,仍然是好預測。 
˙在很多情境中,不是一定要追求終極完美的預測,只要預測比競爭對手好,你就贏了。 
˙當大家不免被雜訊迷惑時,問問自己,你有什麼法寶,能讓自己更接近真相?跟著法寶走,不要跟著群眾走。 
˙有新的重大資訊進來時,能保持客觀,隨時更新的預測,才有可能是精準的預測。


以下修改自簡體中譯本之目次,可以快速一窺內容主題之精髓

2013年8月28日 星期三

[Books] The Data Journalism Handbook 資料新聞學手冊中文版

 圖片取自 http://farm8.staticflickr.com/7115/7038139465_1693e1a304.jpg


The Data Journalism Handbook 
由美國紐約時報(The New York Times)、英國衛報(The Guardian)、ProPublica、德國之聲(Deutsche Welle)、開放知識基金會(The Open Knowledge Foundation)、金融時報(The Financial Times)、La Nación 等來自世界先端資料新聞學實務者共同協作。


資料新聞學手冊(簡體)中文版線上閱讀
http://xiaoyongzi.github.io/web/index.html


The Data Journalism Handbook 資料新聞學手冊(簡體)中文版是將近30人(志工) 的在線協同作業翻譯,由香港大學JMSC進行審核。開放知識基金會和歐洲新聞中心正式授權。

    

2013年8月25日 星期日

[Data News] Google 2013Q1調查台灣智慧型手機之市場報告

Google 2013Q1調查台灣智慧型手機之市場報告pdf
檔案閱讀與下載  http://services.google.com/fh/files/misc/omp-2013-tw-local.pdf

以下僅是報告最後3頁對於此次調查樣本之說明



2013年8月23日 星期五

[Data News] 巨量資料團隊需要的五種人才

原文:Five Roles You Need on Your Big Data Team   http://blogs.hbr.org/cs/2013/07/five_roles_you_need_on_your_bi.html
作者:Matt Ariker, Tim McGuire, and Jesko Perry

中譯:巨量資料團隊需要的五種人才  
http://www.hbrtaiwan.com/blog_content_261_1.html
譯者:侯秀琴


圖片取自 http://retail360solutions.com/wp-content/uploads/2013/08/data-scientist-wp.jpg


許多公司念念不忘要如何把他們的資料轉化為價值,但我們發現,他們花太多時間在「資料」上,花太少時間在這個方程式的「人員」這一邊。


然而,要把方程式裡「人員」這一邊做對,不只是要雇用最優秀的人才(雖然這點很重要)。根據我們的經驗,許多企業忽略了兩個重要項目:1)確認他們真正需要的人員,2)在他們的先進分析(advanced analytics)辦公室裡建立「顧客服務」的心態。


合適的團隊


巨量資料人才是關鍵問題。麥肯錫全球研究院(McKinsey Global Institute)指出,到2018年,光是在美國,就可能短缺14萬至19萬擁有深厚分析技能的人才。但是,企業應先花時間確認他們需要的各種角色,好讓巨量資料機器運作,而不是急著招募數學與科學高手。雖然不同的公司有不同的人才需求,但你的先進分析辦公室仍然需要配備下列五種重要人才:


1.資料衛生員(Data Hygienists)
可確保進入系統的資料是乾淨、正確的,並在整個資料生命週期當中都保持乾淨而正確。例如,擷取的時間值都相同嗎?一個資料集測量的可能是一年的日曆天數(365天),另一個測量的是一年的工作日數(260天),還有一個是一年的小時數(8765小時)。所有的值都必須相同,才能進行比較。或是舊資料的欄位裡面填的是新類型的資料,但沿用舊的欄位名稱?如果資料庫沒有處理這些問題,新產品的資料可能會覆蓋舊產品的資料,呈現毫無意義的結果。這個資料清理的工作,在資料最初被擷取時就得開始做,而且在任何階段接觸到該資料的所有團隊成員都應參與。


2.資料探索員(Data Explorer)
篩選堆積如山的巨量資料,找出你真正需要的資料。這可能是很重要的任務,因為外部那麼多資料並不是為了分析而存在,因此,不是用容易取得的方式儲存或組織的。收銀機的資料是絕佳的例子。它最初的功能是讓公司追蹤營收,而非去預測某一顧客接下來會買什麼產品。