【Day14】觀察資料

我們做了幾天的教學,已經把資料從Yahoo取得,並且放在Azure的SQL server中。但我們忽視一件重要的事情,就是資料的正確性。
今天我們就拿證交所的資料跟資料庫收集的資料做比對吧!


第 12 屆 iT 邦幫忙鐵人賽-原文:https://ithelp.ithome.com.tw/articles/10242867

證交所股票資料

我們會需要從臺灣證券交易所那邊取得台積電(2330)的股票資料,觀察今年一月的資料是否跟資料庫的資料相同。其中有裡面包含:日期成交股數成交金額開盤價最高價最低價收盤價漲跌價差成交筆數等資料,我們也有日期開盤價最高價最低價收盤價成交量,屆時可觀察其中是否有差異。

取得交易資訊

首先去到個股日成交資訊取得成交資料。

在畫面中,我們選擇109年1月,在股票代碼那邊輸入「2330」之後按搜尋,會得到下表:

日期成交股數成交金額開盤價最高價最低價收盤價漲跌價差成交筆數
109/01/0233,282,12011,224,165,450332.50339.00332.50339.008.0017,160
109/01/0342,023,26814,295,651,580344.00345.00335.50339.500.5020,545
109/01/0645,677,05715,210,531,318333.00334.50332.00332.00-7.5022,944
109/01/0751,746,18117,053,282,011332.50333.00326.50329.50-2.5022,362
109/01/0837,913,74812,484,410,088325.00333.00325.00329.500.0018,228
109/01/0932,397,50410,890,847,940335.00337.50333.50337.508.0016,793
109/01/1027,880,1159,432,320,316340.50341.00336.00339.502.0013,296
109/01/1330,663,33210,455,852,739342.00342.00339.00341.502.0013,457
109/01/1430,368,99310,488,360,978345.50346.00344.50346.004.5016,339
109/01/1554,575,27418,590,754,206345.00345.00337.50340.00-6.0020,392
109/01/1658,217,42019,431,133,895330.00336.50330.00334.50-5.5024,721
109/01/1753,908,09717,977,119,406334.00335.50332.00333.00-1.5023,954
109/01/2035,551,20311,865,436,839334.00335.50333.00333.000.0015,095
109/01/30126,820,04940,734,449,874326.00326.00316.50316.50-16.5055,603
109/01/3162,912,05520,205,365,710323.00323.50319.00320.003.5022,639

比對Yahoo的資料

接著我們從資料庫取得台積電的資料,也是取得一月的部分進行比對:

日期開盤價最高價最低價收盤價成交數
2020-01-02332.500339.000332.500339.00031754120
2020-01-03344.000345.000335.500339.50041811268
2020-01-06333.000334.500332.000332.00045343057
2020-01-07332.500333.000326.500329.50050879181
2020-01-08325.000333.000325.000329.50037567748
2020-01-09335.000337.500333.500337.50031481504
2020-01-10340.500341.000336.000339.50027032115
2020-01-13342.000342.000339.000341.50030663332
2020-01-14345.500346.000344.500346.00030223993
2020-01-15345.000345.000337.500340.00047434274
2020-01-16330.000336.500330.000334.50055211420
2020-01-17334.000335.500332.000333.00052060097
2020-01-20334.000335.500333.000333.00032658203
2020-01-30326.000326.000316.500316.500125451049
2020-01-31323.000323.500319.000320.00062526055

觀察一下,價格都沒有錯誤,但是在成交量的地方,卻對不起來。如果只要用價格進行分析,是沒有問題的,但是如果要把數量放進去,卻發現Yahoo的成交數與證交所的不同,而且對不起來。不僅僅是Yahoo,連google也是,雖然說「"volume" - 指定日期的成交量」,但是卻對不起來,不知道數據從哪邊取得。

思考後,我們要重新去得交易資料,而這次因為有成交量的關係,我們直接從證交所取得吧!這邊是最準確的


後記

無論是一般的資料分析,到大數據分析,準確性都取決於資料的乾淨程度與正確性。藉由這幾個範例,可以知道,第三方的資料儘管很具有權威,但是來源不清楚情況下,仍然有機會讓我我們分析有偏頗。為了最準確的資料性,明天開始就要使用交易所的資料囉!也就是開始爬蟲
(感覺比別人慢很多XD)


 

~Copyright by Eyelash500~

IT技術文章EY*研究院
iT邦幫忙eyelash*睫毛
Blog睫毛*Relax
Facebook睫毛*Relax