關於數據預測

2017-06-05

3460
0

1.接受機率與偏誤的存在，預測才會有意義
2.拿歷史數據用來建立模型，但世界在變，你必須要因時制宜，不斷的優化模型才能達到一樣甚至更高的精準度
3.raw data的正確性決定了模型的品質，也決定你預測的正確性

前一篇談了數據分析的基本觀念，接著談一個大家應該很有興趣的主題-預測。

當你手邊的資料充足了，分析歷史也都得到很好的結果，那是否能預測未來的結果呢？針對這個議題我看過的書籍或者網路查的到的資訊，通常有兩類說法：
1.過去表現不代表未來表現，所以無法預測(例如股票)
2.未來當然可以預測，但不可能達到100%的準確

我覺得上述兩個觀點的差別在於對「機率」的容忍程度，當你不允許有偏差時，你就會覺得無法預測，但如果你接受了預測會與現實有所偏差時，你就能接受一個60%正確機率的預測結果。

我拿天氣預報來做說明，我想你一定也有因為天氣預報不準而吃過苦頭的經驗，明明說不會下與結果下了一陣大雨，明明說豪大雨，你特別取消了出遊的行程，結果卻出了大太陽，而這樣的經驗讓你對氣象預報的信任度降低了。

但你會從此不再看氣象預報，改為憑個人經驗嗎？不會，因為你知道再怎麼不準，他的準確度仍比你盲目的亂猜來的準確。這就是我上週講的，只要比你本來更準這個數據就具有參考價值。

明天會下雨嗎？機率是多少？是大雨還是小雨？

根據不負責任的判斷(網路上我沒有找到比較有公信力的資訊)，我想天氣預測是根據季節、空氣濕度、溫度、雲層、鋒面、氣壓、洋流等眾多數據所得出來的綜合判斷，有了這些數據是一回事，但如何解讀呢？

此時歷史數據的用途就來了，歷史數據可以用來建立模型，古代人如何做天氣預測呢？一派觀點是仰賴經驗，另一派則是認為他們在有限的數據支持下做判斷，而我認為經驗就是在有限的數據支持下所產生的判斷，古代人知道季節、節氣、風向，所以知道在夏天容易降雨，而過去的經驗裡，整個夏天大概有1/3的日子會降雨，而有1/10的日子會降下大雨，所以這就成了他們預測的基準，而過去經驗累積出來的固定pattern，你可以稱之為模型。

當你把夏天當成參數放到這個模型中，得出來的結果就很接近降雨機率1/3，大雨機率1/10，而你把冬天當參數放進去，得出來的結果可能是1/8與1/30，模型最簡單的用途就是如此，而當你有更多的數據做支撐時，你的模型準確度應該會愈來愈高。

假設氣象局從50年前開始收集各類數據，然後逐一加入或移除參數後完成目前的「數值天氣模式」，讓氣象預報的準確度從20%提高到50%，也讓降雨量預估從本來1~2,000 mm這種標準差極大的預測區間開始收斂到300~700 mm這種比較能被接受的結果，那已經是極大的進步了。

我在inside那篇文章(怎麼留住訂閱客戶？又怎麼透過數據找出有潛力的客戶？)中提到預測可能退費的客戶，其實這也是從歷史數據中不斷的找參數並建立模型而來的結果，當你把現在的客戶數據丟進模型裡面跑，它就會告訴你那些客戶符合這個模型中所認定的高退費風險族群，你就能針對這群客人做關懷，這遠比你盲目從上百萬筆客戶中找出這些人簡單多了，不是嗎？

做數據分析與預測，不用怕不準，但你要持續收集數據，並不斷優化你的模型。不管是自然科學或人文科學領域都可能會隨著地球環境、時代、市場的變遷而導致原先的參數無效，並衍生其他新參數，在什麼都不做的狀況下，隨時間推移，你的模型會愈來愈不準，要維持甚至提高精準度，你不優化模型是做不到的。

最後再談一下經驗法則，我們一般很難記得所有的數據，也無法像電腦一樣跑幾個算法後將數據整理好，舉例來說，我問你過去半年你搭乘過幾次捷運？分別是哪幾天？這兩個問題應該沒有人能清楚的回答，但有些生活模式相對固定的人，他們有機會算出一個很接近的結果，但要做到100%無誤，基本上非常難，但這就導致你的raw data有誤，連帶你的模型就會有偏差，結果當然也不一樣。

總結本篇：
1.接受機率與偏誤的存在，預測才會有意義
2.拿歷史數據用來建立模型，但世界在變，你必須要因時制宜，不斷的優化模型才能達到一樣甚至更高的精準度
3.raw data的正確性決定了模型的品質，也決定你預測的正確性

一些參考資料：
Weather Forecasting, Weather Indicators
https://www.weathershack.com/st…/ed-weather-forecasting.html

MarineWeather » Indicators
http://www.marineweather.co.nz/forecasts/indicators

Natural Weather Indicators and Folklore
http://www.downgardenservices.org.uk/folklore.htm

比較完誰的天氣預報準，然後呢？
http://pansci.asia/archives/95977

氣象預報為什麼會不準？
http://sa.ylib.com/MagArticle.aspx…

機器學習和統計模型的差異
https://read01.com/240Mnn.html

游舒帆 (gipi)

探索原力Co-founder，曾任TutorABC協理與鼎新電腦總監，並曾獲選兩屆微軟最有價值專家 ( MVP )，離開職場後創辦探索原力，致力於協助青少年培養面對未來的能力。認為教育與組織育才其實息息相關，都是在為未來儲備能量，2018年起成立為期一年的專題課程《職涯躍升的關鍵24堂課》，為培養台灣未來的領袖而努力。

回首頁