應計模型完全依賴財務數字,對 MD&A 敘事中的策略性模糊毫無識別能力。現有 NLP 工具(FinBERT、Loughran-McDonald)以英文訓練,無法辨識繁體中文特有的「應收款帳期轉移」、「前瞻性樂觀陳述」等操縱信號。
台灣 MOPS 年報為繁體中文,與簡體中文在用語、法規術語、會計準則描述上均有差異。目前無公開的繁體中文財務文本分析 benchmark,亦無針對台灣上市公司年報訓練的 LLM。
現有研究大多是橫截面相關,難以區分反向因果(操縱者主動改善揭露)。台灣 2013 年 IFRS 強制採用提供了「外生衝擊」,可作為 Difference-in-Differences 的準實驗識別,但至今無人結合 LLM 揭露品質指數與此政策斷點進行因果分析。
完整缺口分析
缺口一:識別力缺口 — 為什麼 LLM 是突破口
為何重要:
- 台灣上市公司 2010–2023 重編財報事件超過 200 件,約 12% 涉及 MD&A 前後矛盾
- 應計模型 AUC 僅約 0.65,法證會計師靠閱讀揭露文本可達 0.80+
- 這個「人類直覺 vs 模型」差距完全來自敘事維度,正是 LLM 的優勢所在
- 現有 NLP 研究(Li 2008, Lo 2017)只用英文 Fog Index 作代理,無法細緻捕捉五個 EM 維度
缺口二:語言缺口 — 繁體中文的獨特挑戰
- 台灣上市公司年報全為繁體中文,MOPS(公開資訊觀測站)有超過 14 年完整歸檔
- 繁體中文盈餘管理術語(如「預計損失提列」「應收票據貼現」)無法直接用簡體模型辨識
- 目前無公開的繁體中文財務 NLP benchmark(相比英文 FinBERT 已有 3 個 benchmark)
- 這個語料建構本身就是方法論貢獻,為後續研究奠定基礎
缺口三:識別缺口 — DiD 設計的機會
台灣 2013 年強制 IFRS 採用(TIFRS)是天然的外生衝擊:
- 政策採用時程由政府決定,外生於企業盈餘管理決策
- 採用組(上市公司)vs 未完全採用組提供處理群比較
- Daske et al. (2013) 已確認「認真採用者」vs「標籤採用者」的異質效果
- 無任何現有研究結合 LLM 揭露品質指數與此 DiD 識別策略
EMI 五維度設計
本研究建構的五維度盈餘管理指數(Earnings Management Index, EMI):
| 維度 | 縮寫 | 說明 | 操縱信號範例 |
|---|
| 應計語言密度 | D_A | MD&A 中應計估計詞頻 | 「預估」「可能」「估計提列」密集出現 |
| 對沖語氣 | D_H | 前瞻性聲明的模糊度 | 「可能」「或許」等不確定詞佔比 |
| 前瞻性樂觀 | D_O | 正面預期聲明比例 | 對未來業績的系統性過度樂觀 |
| 具體性評分 | D_S | 數字與可驗證陳述密度 | 低具體性 = 高操縱風險 |
| 樣板文字密度 | D_B | 重複性套語佔全文比例 | 高樣板 = 實質揭露稀薄 |
EMI 合成: EMI = (D_A + D_H + D_O + (1−D_S) + D_B) / 5 × 100
分數越高代表盈餘管理風險越高(0–100 分制)。
四個研究假說
| 假說 | 內容 | 對應 Gap | 識別策略 |
|---|
| H1 | LLM-EMI 對財報重編的預測力優於 Modified Jones | G1 | ROC-AUC 比較 |
| H2 | 2013 IFRS 強制採用顯著降低 EMI | G3 | DiD (2009-2016) |
| H3 | 治理結構(董事獨立性、審計委員會)調節 EMI → 重編的關係 | G1+G2 | Panel FE + 交乘項 |
| H4 | EMI 在 Modified Jones 殘差之上提供增量解釋力 | G1 | 增量 R² 測試 |
可行研究題目
主推題目(本案例實作)
“LLM-Based Detection of Earnings Management in Corporate Financial Disclosures: Evidence from Taiwan Listed Companies”
核心問題:
- LLM 能否從繁體中文 MD&A 文本中偵測盈餘管理信號,且優於應計模型?
- 2013 年台灣 IFRS 強制採用是否降低了 LLM 偵測到的揭露操縱程度?
方法框架:
- GPT-4o (gpt-4o-2024-05-13) → 五維度 EMI 評分
- Cohen’s κ 與法證會計師比較信效度
- Panel FE + DiD(2013 IFRS 斷點)
三大貢獻:
- 方法貢獻:首個繁體中文財務揭露 LLM 評估管線,κ=0.760 超越現有英文 benchmark
- 實證貢獻:2013 IFRS DiD 因果識別,揭示強制準則對敘事揭露的外溢效果
- 工具貢獻:MOPS 14 年語料庫,可公開供後續研究使用
備選題目一
“Narrative Opacity and Earnings Restatements: Evidence from LLM-Scored Traditional Chinese Annual Reports”
核心問題: MD&A 文本的語言模糊度(LLM 評分)是否預測財報重編?
方法框架: EMI 各子維度 → 重編機率(Logit/Cox)+ 事件研究
備選題目二
“Mandatory IFRS Adoption and Qualitative Disclosure Quality: A Difference-in-Differences Analysis Using LLM Textual Scores”
核心問題: 準則趨同是否同時改善量化(應計品質)與質化(敘事揭露)兩個維度?
方法框架: DiD × 五維度 EMI + Barth et al. (2008) 傳統指標,雙軌比較
題目比較矩陣
| 主推 | 備選一 | 備選二 |
|---|
| 主要 LLM 用法 | EMI 五維度評分 | 模糊度偵測 | 揭露品質指數 |
| 計量識別 | DiD + Panel FE | Logit / Cox | DiD |
| 執行難度 | 中高 | 中 | 中高 |
| 新穎性 | 極高 | 高 | 高 |
| 最快出稿 | 4-6 週(替換 ^S^) | 3–4 個月 | 4–5 個月 |
目標期刊推薦
| # | 期刊 | JCR | IF | 適合題目 | 快速通道 |
|---|
| 1 | Journal of Accounting Research (JAR) | A* | ~4.5 | 主推 | — |
| 2 | Journal of Accounting & Economics (JAE) | A* | ~6.3 | 主推、備選一 | — |
| 3 | Review of Accounting Studies (RAST) | A | ~3.9 | 主推、備選二 | — |
| 4 | The Accounting Review (TAR) | A* | ~3.6 | 備選二 | — |
| 5 | Accounting, Organizations and Society (AOS) | A | ~5.8 | 備選一 | — |
| 6 | Journal of Financial Reporting (JFR) | Q1 | ~3.2 | 主推 | 2–3月 |
| 7 | Pacific-Basin Finance Journal (PBFJ) | Q1 | ~5.0 | 全部 | 2–3月 |
| 8 | International Journal of Accounting (IJOA) | Q1 | ~2.8 | 備選二 | — |
| 9 | Finance Research Letters (FRL) | Q2 | ~7.6 | 備選一初步 | 4–6週 |
| 10 | Emerging Markets Review (EMR) | Q1 | ~6.3 | 備選二 | — |
主投策略: JAR(目標,挑戰性高)→ 備投 JAE → 快速通道 PBFJ
執行路徑(替換 MVP 模擬數據)
第 1-2 週:語料建置
├── MOPS 爬取 1,700+ 家公司 2010–2023 年報 MD&A
├── 繁體中文文本清洗、段落對齊、年份標記
└── 法證會計師標注 120 份年報(five-dimension EMI golden standard)
第 3-4 週:LLM 評估管線
├── GPT-4o (gpt-4o-2024-05-13) 批量評估全語料
├── 計算 Cohen's κ(LLM vs 法證專家)目標 κ ≥ 0.75
└── 建立 EMI panel dataset(公司×年份)
第 5-6 週:計量分析
├── 串接 TEJ 財務資料(應計項目、財報重編事件)
├── Panel FE regression(H1/H3/H4)
├── DiD 設計(H2,2009–2016 窗口,2013 斷點)
└── 穩健性:排除金融業、分產業估計、Placebo test
第 7-8 週:論文精修
├── 替換所有 ^S^ 模擬數據為真實實驗數據
├── 生成 Fig 4(係數圖)+ Fig 5(穩健性圖)
└── 目標第 9-10 週投稿 JAR
DOI 驗證摘要
| 項目 | 結果 |
|---|
| 搜集文獻數 | 47 篇 |
| 驗證方法 | CrossRef + Semantic Scholar + OpenAlex 三重 API |
| 通過率 | 100%(47/47 DOI 全部有效) |
| 引用覆蓋 | 全部 47 篇在論文正文中引用(零未使用) |
| 特殊處理 | 新增 DechowSloanSweeney1995 修正 Modified Jones 錯誤引用 |
教訓:LLM 初始生成的 DOI 虛假率極高。本案例從第二輪起改用 OpenAlex Search API,以標題搜尋取代記憶生成,大幅提升驗證通過率。
品質評估與改進空間
本初稿為論文方法學的流程展示(showcase),呈現從概念到初稿的完整過程。不是投稿版本。
以下為品質審查的發現與升級建議。
目前水準
| 維度 | 分數 | 滿分 | 門檻 | 狀態 |
|---|
| 研究缺口清晰度 | 17 | 20 | 16 | ✅ |
| 方法論嚴謹度 | 20 | 25 | 20 | ✅ |
| 結果顯著性 | 15 | 20 | 16 | ⚠️(模擬數據,待真實實驗) |
| 寫作品質 | 13 | 15 | 12 | ✅ |
| 引用驗證 | 8 | 10 | 8 | ✅(47/47 全驗證) |
| 貢獻差異化 | 4 | 5 | 4 | ✅ |
| 圖表品質 | 3 | 5 | 4 | ⚠️(Fig 4/5 待生成) |
| 總分 | 80 | 100 | 80 | 通過 Q1 門檻(borderline) |
- P0 問題(致命):0 個(已清零)
- P1 問題(重要):1 個 — Fig 4/5 待生成(係數圖 + 穩健性圖)
- Stage 3 退稿風險:72%(主因為 ^S^ 模擬數據,JAR 必然 desk-reject;MVP 設計使然,非結構性問題)
- 排除模擬數據因素,結構性退稿風險估計:30–38%
模擬 Reviewer 意見
Reviewer A(理論大師):
「Q4 薄弱:為什麼選 GPT-4o 而非中文專用 LLM(如 Breeze-7B、Taiwan-LLM)?缺乏系統性的 pilot comparison,選擇動機薄弱。投稿前需補充至少一個跨模型穩健性實驗。」
Reviewer B(實證主義者):
「κ=0.760 建立在 n=120 年報,對 1,700+ 家公司的外推過於樂觀。需要分層抽樣(高/低盈餘管理風險各半)並計算 Fleiss’ κ(四位標注者)。另:DiD 的 parallel trend assumption 需要圖形驗證。」
正面評價:「Modified Jones AUC 0.681 → LLM-EMI 0.758 的提升量已有統計意義,核心貢獻清晰。」
Reviewer C(方法論專家):
「五維度等權重聚合(×0.2)的選擇動機薄弱。應提供:(1) 等權重 vs 因子分析權重的穩健性,(2) 繁體中文詞表映射的外部效度驗證(對照英文同類工具的台灣應用表現)。」
升級到 SCI 投稿等級需要
- 替換所有 ^S^ 模擬數據 — 執行真實 MOPS 語料 LLM 評估
- 生成 Figure 4(係數圖)+ Figure 5(穩健性圖)
- 新增 Fleiss’ κ 報告 — 四位標注者一致性
- GPT-4o vs 中文專用 LLM pilot — 強化模型選擇動機(Q4)
- Parallel trend 圖 — DiD 平行趨勢假設視覺驗證
- 等權重穩健性 — EMI 聚合方式敏感度分析
可加強的空間
- 樣本限於台灣上市公司,跨市場推廣性(香港、新加坡繁中市場)需另行驗證
- LLM 評分基於 zero-shot prompt,fine-tuning 版本可能進一步提升 κ
- EMI 的時序穩定性(年際 EMI 是否捕捉真實操縱趨勢)需做年別固定效果分析
- 重編財報事件稀少(約 12%),需處理樣本不平衡問題(SMOTE 或加權 logistic)
論文初稿下載
論文初稿 PDF(Showcase Draft)
含 47 篇藍色超連結引用 + SHOWCASE 標記 + 品質審查紀錄