拒絕「偷看答案」的回測:TEJ Point-in-Time 投資用財務資料庫,根除前視與生存者偏誤 

拒絕「偷看答案」的回測:TEJ Point-in-Time 投資用財務資料庫,根除前視與生存者偏誤 

前言

在量化投資研究中,財務資料是策略開發與驗證的基石。任何一個因子或模型的設計,都必須建立在可靠且完整的財務數據之上。若數據本身存在瑕疵或缺漏,即使再精巧的策略,也可能在實際市場中失靈。因此,建立一個能夠忠實還原歷史真實樣貌的財務資料庫,對於量化投資研究者至關重要。TEJ投資用財務資料庫,基於量化策略研究使用,提供 Point-in-Time(PIT )數據做為回測的基礎。 

為何回測績效,在實盤中總是「打折扣」? 

傳統資料庫或自行蒐集的資料,往往在回測時能呈現亮眼的績效,但一旦應用到實際市場,成果卻大打折扣。造成這種落差的根源,並非策略邏輯本身有瑕疵,而是來自於數據中隱藏的兩個最致命陷阱:前視偏誤與生存者偏誤。 

  • 前視偏誤(Look-ahead Bias) 
    在回測時不經意使用了「未來才會公布的資訊」。這種資訊在歷史時點上並不存在,但卻被錯誤帶入模型,造成回測績效「看似成功」,實際上只是依賴了未公開的未來數據。 
  • 生存者偏誤(Survivorship Bias) 
    傳統資料庫常僅保留存續中的公司,將那些已破產、下市或併購消失的企業排除在外。這使得研究樣本與歷史市場實際情況不符,導致投資報酬被高估、風險被低估,研究結論缺乏真實性。 

這兩大痛點正是量化研究與策略回測中最容易被忽略,卻最能影響策略能否在市場中真正落地的關鍵。 

要打造一個能真正反映現實、通過市場考驗的穩健策略,其根基必須建立在一個能「還原歷史當下資訊樣貌」的資料結構之上——這就是 Point-in-Time(PIT)的核心精神。 

為此,TEJ 憑藉三十年的資料處理經驗,專為嚴謹的量化研究與機構級投資回測,打造出「投資用財務-會計師簽證財務資料庫」。本文將深度解析,這套資料庫如何從根本解決上述難題,成為您量化研究中最值得信賴的基石。 

Point-in-Time(PIT)核心架構:還原歷史的真實樣貌

TEJ「投資用財務-會計師簽證財務資料庫」的核心,是一套嚴謹的 Point-in-Time(PIT)資料架構。我們的資料源頭擷取官方申報的 iXBRL 財務報表作為基礎。然而,原始數據並不能直接用於回測,TEJ 的價值在於接下來的兩大核心工程,以確保您的研究能忠實還原歷史全貌。 

杜絕前視偏誤:宣告日時間戳記 & 全版本保留 

對研究員而言,試圖從公開資訊觀測站(MOPS)手動還原歷史是一項極為艱鉅的任務。您會面臨兩種困境: 

  • 結構化資料的覆蓋:您在 MOPS 的 XBRL 資訊平台所能取得的財報科目,永遠只會是最新版本。一旦公司發布重編或重分類財報,舊的數字就會被直接覆蓋,無處可尋。 
  • 人工追蹤的繁瑣:即使發現財報有異動,研究員也必須手動進入 MOPS 的「財務報告更(補)正查詢作業」、「電子書查詢」或是「歷史重大訊息」等多個不同專區尋找公告與更新後的財報。此過程不僅耗時費力,且極易出錯,大幅拖累研究效率。 

TEJ 的 PIT 架構透過系統化的流程,確保您能取得最真實的歷史剖面: 

  • 全版本保留我們系統性地蒐集並保存公司歷來申報的所有財報版本,無一遺漏。
  • 精準公告日我們為每個版本標註精準的「公告日」。使得在回測的任一時間點 T,回測程式都能自動抓取在 T 點前已公告的正確財報版本。

案例一:汎瑋材料(6967)

該公司因誤植「母公司暨子公司所持有之母公司庫藏股股數」,於 2025/8/14 15:37:02 在 MOPS「歷史重大訊息」發布了更正公告(如圖一)將股數從 25,637 股修正為 500,000 股。

圖一:MOPS 對於汎瑋材料(6967)2025Q2 財報的更正公告

 來源:MOPS 歷史重大訊息

在 TEJ 的資料庫中(如圖二),我們保留了兩個資料時間點,這項處理方式確保了: 

  • 在 2025/8/14 15:46:34 之前的任何回測,所讀取到的庫藏股股數仍是舊的 25,637 股。 
  • 在 2025/8/14 15:46:34 之後,才會採用重編後的 500,000 股。 

圖二:TEJ 資料庫完整保留汎瑋材料(6967)2025Q2 前後版本資料

來源:TEJ 投資用財務-會計師簽證財務資料庫

更值得注意的是,此項更正資訊並未完整在英文版的公告或其他電子檔公告中揭露,因為財務報表原始電子檔沒有錯誤。這凸顯了官方資訊來源的破碎化不一致的問題,研究員極易遺漏此類關鍵變動。TEJ 的系統化蒐集流程,正是為了解決此類資訊不一致的痛點。 

📌Factor Library因子資料庫 – 涵蓋動能、股息率、價值、成長等九大因子分類,高效率實踐因子投資

案例二:台積電(2330)

 TEJ對公告日的處理兼顧了歷史的完整性最高的精確度。自 2013 年(財報的封面年月)起的資訊,公告時間均精準至時、分、秒,讓回測精準度可提高至日內價價格變動 。

圖三:TEJ投資用財務資料庫,2013年財報起的財報公告日可提供至時分秒

來源:TEJ 投資用財務-會計師簽證財務資料庫

除偏誤:打造完整統一的樣本空間

一個真實的投資環境,包含了成功擴張的企業、因各種因素下市的公司,以及不同營運模式的金融與一般產業。若研究樣本有所偏廢無疑會扭曲策略的真實報酬。為建立一個公正、完整且高效的回測環境,TEJ 會計師簽證財務資料庫從兩個維度確保了樣本的完整性:

  • 時間維度—根除生存者偏誤本模組的收錄範圍涵蓋了2005年以來「所有曾經上市櫃」的公司,其中完整包含了目前已下市的企業(在 TEJIFRS 合併為主財務資料庫中無法取得下市企業。 
  • 產業維度—解決資料分散痛點過往在 TEJIFRS 合併為主財務資料庫中,金融業與一般產業的公司分散在多個模組,使用者必須自行合併。而本資料庫則將所有產業(含金融業)的公司樣本全部集中在同一個模組中。 

這兩點結合,意味著您用以建構投資策略的樣本空間,將與歷史任一時點的真實市場完全一致。無論是計算市場的平均報酬,或是進行大規模、跨產業的因子排序,您的研究結論都將建立在一個完整、無偏且易於使用的基礎之上,大幅提升其可信度與效率。

以因收購而下市的矽品(2325)為例,在本資料庫中,矽品的完整財報歷史被忠實保留(如圖四)。 更重要的是,在同一個資料庫中,您也能直接查詢到如國泰金(2882)等金融股的資料(如圖四)。這徹底解決了過往需整合不同產業模組的繁瑣步驟,讓全市場的因子篩選與回測變得無比簡便。 

圖四:TEJ 資料庫中,可同時查詢到已下市一般股(矽品)與金融股(國泰金)的資料

來源:TEJ 投資用財務-會計師簽證財務資料庫

TEJ 的加值工程:不只是數據,更是研究效率的倍增器

TEJ投資用財務資料庫除了提供一個公正、無偏誤的回測基礎,我們亦提供了一系列加值特色,旨在將原始數據轉化為「立即可用」的研究素材,讓您專注於策略開發,而非繁瑣的資料前處理。

標準化的會計科目:實現真正的可比性 

量化研究不僅需要原始的財務科目,更需要大量由這些科目衍生而出的財務比率作為因子。研究員往往需要自行抓取多個欄位,並手動進行計算,過程不僅繁瑣,在處理不同期的科目時也容易出錯。為此,TEJ 在公開資訊觀測站MOPS 標準化的會計科目基礎之上,進一步為您預先計算與分類了市場最常用的財務比率與分析指標,總計提供超過 300 個欄位,涵蓋了研究中最關鍵的幾個面向: 

  • 資產負債表現金及約當現金、存貨、應付帳款及票據等。 
  • 損益表營業收入淨額、營業毛利、歸屬母公司淨利(損)等。 
  • 現金流量表處分投資損失-CFO、新增投資-CFI、發行公司債-CFF等。 
  • 獲利能力指標:ROA、ROE、稅後淨利率等。 
  • 經營能力指標:應收帳款週轉率、存貨週轉率、總資產週轉率等。 
  • 成長率指標:營收成長率、營業利益成長率、稅後淨利成長率等。 
  • 償債能力指標:流動比率、速動比率、利息保障倍數等。 
  • 成本費用率指標:營業費用率、研究發展費用率等。 
  • 每股比率指標:每股淨值、每股營業額、每股營業利益等。 
  • 金融業專屬:貼現及放款_銀行、金控、營業成本_保險、收益合計_證券等。 

這些立即可用的指標,能讓您將想法快速轉化為可回測的因子。而最關鍵的保障在於:當這些衍生科目涉及跨期計算時,我們同樣採用嚴謹的 Point-in-Time 方法,確保衍生因子本身也杜絕了前視偏誤,維持了資料庫的高度一致性與可靠性。 

跨會計準則的橋樑:GAAP 全面調整為 IFRS 版本

台灣在 2013 年針對上市櫃公司全面導入 IFRS 會計準則,這在財務數據上形成了一道歷史的斷層。對於需要長年期數據(如 15 年、20 年)進行深度回測的研究員而言,自行弭平 GAAP 與 IFRS 時代的科目差異,是一項極為專業且艱鉅的工程。

TEJ 已為您舖平了這條道路:我們將 2012 年以前的 GAAP 財報資訊,依據 IFRS 精神進行了專業的標準化調整 這讓您可以進行無縫的跨時期分析,策略的有效性不再因會計準則的變動而受到干擾。 

豐富的時間序列頻率:單季、累計與 TTM

原始的財報數據在頻率上往往無法滿足所有研究需求。特別是MOPS 並不直接提供第四季(Q4)的單季財務資料,也未提供連續12個月(TTM)的數據。TEJ 為您補足了這些缺口,提供三種時間長度資訊,並在資料庫中以「期間別」欄位(A / Q / TTM)標示(如圖五): 

  • 累計(A, Accrued)提供財報發布時的原始累計值。例如:採曆年制公司的 Q3 累計值,其損益涵蓋期間為 1 月至 9 月。 
  • 單季(Q, Quarterly)透過當期累計值減去前期累計值運算而得。我們以此為基礎,為您推算出官方未提供的 Q4 單季數據,讓各季度的比較基礎保持一致。例如:採曆年制公司的 Q3 單季值,其損益涵蓋期間為 7 月至 9 月。 
  • 連續12個月(TTM, Trailing Twelve Months)最近四個單季數據加總而得,能有效消除季節性因素干擾,洞察公司長期營運趨勢,是價值型與成長型因子研究的利器。例如:採曆年制公司 Q3 的 TTM 值,其損益涵蓋期間為去年 10 月至本年 9 月。 

圖五:TEJ 資料庫中提供台積電(2330)完整的 A / Q / TTM 期間別資料 

來源:TEJ 投資用財務-會計師簽證財務資料庫

深入產業細節:支援金融業專屬會計科目

不同產業的營運模式與關鍵績效指標大相逕庭。若僅使用一般性會計科目,難以深入評估金融等特殊產業。為此,本模組額外收錄了如銀行、保險、金控與證券產業的重要專屬會計科目(如圖六)。這讓您可以建構更貼近產業本質的分析因子,擴展您策略的深度與廣度。 

圖六:TEJ 投資用財務資料庫中的金融業專屬會計科目範例

來源:TEJ 投資用財務-會計師簽證財務資料庫

案例:在樂陞案(3662)的風暴中,看見 Point-in-Time 的價值

歷史上著名的樂陞案(現名為齊民,3662),不僅是一場併購騙局,更是檢驗回測數據嚴謹性的絕佳試金石。2016 年,市場因樂陞科技大股東日商「百尺竿頭數位娛樂有限公司」宣布以巨幅溢價公開收購樂陞而陷入瘋狂,但這場美夢最終在同年 8 月底以收購方違約告終,導致公司股價崩盤,投資人損失慘重。

圖七樂陞股價與事件時間軸

來源:TEJ 股價資料庫

事件過後,更深層的數據問題才浮出水面。如下圖八所示,樂陞在 2016 年 5 月 16 日 公告的第一季 EPS 仍為正值(0.1);然而,在騙局被揭發後,公司才於 2017 年 8 月 14 日,追溯公告 2016 年第一季的 EPS 實為鉅額虧損的 -16.55。更詳細的分析內容可見賴德隆與陳惠玲於2017年所著《泡沫製造機:併購-樂陞案啟示》。

圖八樂陞(現名為齊民,3662)2016Q1 EPS 的多重歷史版

來源:TEJ 投資用財務-會計師簽證財務資料庫

這個案例揭示了兩種截然不同的回測情境: 

  1. 受污染的回測(使用一般財報資料庫): 
    若您的財報資料庫只保留「最新版本」,在 2017 年 8 月後進行回測時,您會看到 2016 年 Q1 的 EPS 就是 -16.55。您的模型或許能因此避開樂陞,但這是一個被未來資訊污染的「偽成功」,因為在 2016 年的當下,市場無人知曉此數據。 
  2. 真實的回測(使用 TEJ 會計師簽證資料庫):
    本資料庫忠實還原了歷史。在回測 2016/05/16 至 2017/08/13 這段期間,您的策略讀取到的 EPS 只會是 0.1。直到 2017/08/14 之後,代表鉅額虧損的 -16.55 版本才會依其公告日被納入。

這正是我們所強調的「全版本保留」與「精準宣告日」的核心價值。TEJ Point-in-Time 財務資料庫確保您的回測只使用當時市場已知的公平資訊,從而得到真正穩健、可信的策略績效。

從數據使用者,升級為數據駕馭者

量化研究的成敗,始於數據的品質。一個看似微小的數據瑕疵,都可能讓一個完美的策略邏輯付諸流水。 本文深度解析的 TEJ「投資用財務-會計師簽證財務資料庫」,其核心價值不僅是提供數據,而是提供一套完整的解決方案,旨在系統性地根除研究中最頑固的兩大偏誤: 

  • 前視偏誤 (Look-ahead Bias) 
  • 生存者偏誤 (Survivorship Bias) 

透過還原歷史全貌的 Point-in-Time 架構,以及提升研究效率的各式加值工程(如 IFRS 標準化、TTM 衍生、產業專屬科目等),我們將您從繁瑣、易錯的數據清洗工作中解放出來。 

使用正確的工具,讓您能更專注於策略開發與因子挖掘的核心價值上。TEJ 投資用財務-會計師簽證財務資料庫,是您在競爭激烈的市場中,打造穩健 Alpha 的最可靠基石。 

💡了解更多TEJ 量化資料庫的應用

返回總覽頁
Processing...