Table of Contents
自馬克維茲(Markowitz)發表投資組合理論、夏普(Sharpe)修改提出了資本資產定價模型(CAPM),與羅斯(Ross)進一步發展出的套利定價理論(APT)後,學者們逐漸發現股票的特徵對其期望報酬率具有一定的解釋能力,這也成為量化投資分析之先河。後續隨電腦與演算法迅速進步下,機器學習與人工智慧應用到數據挖掘上也取得良好的成果,使量化投資分析在金融領域成為重要的一環。與此同時,投資市場對數據需求也同步增溫,當研究者進行量化投資分析時,往往需要大量的數據支持。
台股市場每日產生了許多交易的資訊,如價量、信用與借貸交易…等,也公告了很多公司的重大訊息,如營收、盈餘和股利政策…等。若要每日蒐集取得這些資訊並整理是相當困難的。況且,資料的品質也是個問題,雖然坊間許多網站提供了免費的數據,研究者可以透過網路爬蟲方法抓取資料,但這些免費的數據普遍均存在缺失與錯誤,若要每日對這些數據作清洗與維護,可能需要耗費另一筆高額的成本。因此,為了解決上述問題,滿足量化投資分析者對數據分析的需求,一個數據齊全且高品質的資料庫是必備的。有鑑於此,TEJ投資用資料庫因此孕育而生。
TEJ投資用資料庫收集了大量的台股資料,且研究員也會定期清洗、校閱,以維護資料的品質。資料庫內容涵蓋三種不同類別的資料庫分別為市場交易資料(market data)、財務會計資料(financial accounting data)與公司活動事件(corporate action event)資料。市場交易資料的資料庫包含了股票的價量、籌碼資料;財務會計資料的資料庫包含了公司營收、盈餘資料;公司活動事件資料包含了公司經營層重大決策的資料。整體資料庫的內容除了對台股市場資訊覆蓋度高外,也具備了量化分析必備的point in time的特色。
TEJ投資用資料庫的主要架構是以市場交易資料(market data)、財務會計資料(financial accounting data)與公司活動事件(corporate action event)三大類別的資料庫所組成,其中各自的資料庫又包含不同種類的資料,以下將分別做說明:
涵蓋了股票價量、信用與借貸交易,以及法人的賣賣超。另外亦有屬性資料,可用以判斷股票當時的上下市狀況與所屬的產業別,亦可用以確認當日股票是否有受到處置、暫停交易或是列為全額交割股。另外也包含了過去曾經上下市櫃的股票、每日不同指數成分股和ETF成分股的資訊,利用此資料作量化分析可避免生存者偏差的產生。
收錄了月營收資料、經會計師核閱的財報與未經會計師核閱的公司自結損益。月營收與未經會計師核閱的自結財報資訊公布較早,可幫助投資人在公司營運發生變化時,及早進行投資決策的調整。此外經會計師核閱的財報和公司的自結損益均包含了三種資料型態,分別為單季、累計與移動四季的資料,讓分析者可依照自己的需求取用,省去資料整理繁瑣的程序。
內容包含管理階層的人事異動、內部人持股申報轉讓、企業合併收購、資本形成(包含增減資、私募等影響股本的重要訊息)、固定資產異動、股利與庫藏股政策,以及公司的重大訊息等。其中每一類別的事件均包含其宣告日、相關的重要訊息,很適合作事件宣告效果的研究,或搭配其他資訊作更進一步的探討。此外,貫穿整體資料庫最重要的特色是具有point-in-time的精神。
如果上市公司的股價資料,因為破產、下市、併購等因素,或像期貨合約到期,而消失於歷史資料庫中,我們一般直覺用現在的上市公司POOL抓取歷史資料,就會漏掉這群當時存在市場的投資標的,將無法反應市場當時現況,造成策略績效高估或低估。而TEJ提供完整上下市資料,讓使用者開發策略時,可以避免生存者偏誤。
窺視未來(Look ahead Bias)是實驗過程中,採用到未來資料,而非當時點能採集的資料,將導致實驗結果偏差。例如財務報表有重編後或者去年同期修正資料,就是未來的資料,若採用該資料做為選股條件,策略將無法精準地反映真實交易情況。
TEJ獨家提供使用者重編前的財報資料,做成投資用財務資料庫提高策略開發的精準度。當然也保留了該資訊公告日的日期,像前面所說的宣告日當天消息反應的價格最真實,因此公告日在量化策略上是必要的資訊。
財報公布的時間點若未加留意,誤將財報結束日作為資訊採用的時間點,例如年度財務報表結束日期為當年12月31日,而該筆財報資訊在隔年3月底前才公告,若誤用為當年12月31日的日期,則容易造成前視偏差,以能預測未來的前提去進行統計分析。
TEJ資料庫除了提供財報日期,同樣提供該筆財報公告的日期,以公告日來推了解股價反應,才避免策略誤判。
而在進行股價分析時,價格資訊是否有經過公司派發股利股息以及增減資的時間點,也會大幅影響到報酬率分析的結果,
而且避免價格經過除權息節點的不尋常波動,且要將現在價格與過去價格放在同一個基準上比較,我們一定要使用TEJ調整後股價,作為回測的資料。
以上四個PIT資料的重點特色,在TEJ的API資料庫,提供給使用者前,就已將上述的問題都處理完畢,讓研究者可以直接取用已清洗過的資訊,大幅節省分析前資料處理的時間。
所謂工欲善其事必先利其器,研究者進行量化投資分析時需要大量的數據支持,必須要使用point-in-time資料,以此解決量化資料與一般資料的兩大差異,提高策略的準確度。
延伸閱讀
欲瞭解更多量化投資用資料庫介紹,請點選以下連結👇
TEJ Youtube影片
如各位讀者對於此文章有任何不清楚或想進一步了解
歡迎你於留言版留言或來電、來信詢問
☎️ 電話:02–87681088 ✉️ 信箱:tej@tej.com.tw