Scientific Integrity & Reproducibility Report

再現可能なドリフト検知のための証明書監査:時系列予測の実証

Dataset: TEPCO demand (public) + JMA Tokyo weather, 2024-01-01 to 2024-04-30
Protocol: Calib で閾値固定 → Test で評価のみ → 監査証明書(hash 付き)を出力
Verdict NG

Reason: TAU_CAP_HIT

1. Introduction

運用中の時系列予測における「ドリフト検知」は、多くの場合アラート生成として実装され、分割境界・閾値・前処理・コードが事後に動くため、第三者が同じ結論を再生成できない。この再現不能性は、ドリフト判定を科学的主張(反証可能な命題)ではなく、運用判断の産物に留めてしまう。本レポートはこの問題に対し、ドリフト判定を証明書(certificate)として出力し、入力データ同定・時系列分割仕様・閾値ポリシー・実行コード・実行環境を指紋(SHA256 等)で固定する「証明書監査」を提示する。閾値推定は Calibration 期に限定し、Test 期は評価のみとすることで、結果を見た後の閾値調整(後付け最適化)を構造的に排除する。実証として、TEPCO 公開の電力需要データと気象庁観測(東京)を用い、2024年1–4月の期間に対して再生成可能な監査証明書と結論(OK/NG)を提示する。

本稿の主張は、検知率の優劣ではなく、「ドリフト判定そのものを追試可能な実験単位へ落とす」点にある。

2. 問題設定:ドリフト検知が反証可能性を失う典型パターン

  • 分割境界の流動性: Calib/Testの境界が事後に動かされ、都合の良い検知結果が選択される。
  • 閾値と判定の混線: 運用予算(検知件数)に合わせて閾値が暗黙的に調整され、構造変化の真実味が失われる。
  • 入力同定の欠如: どの時点のどの生データに対して結論が出たのか、ハッシュ値による固定がなされていない。
  • 再現不能な環境: 実行コードや依存ライブラリのバージョンが固定されず、事後の追試が失敗する。

3. 提案:証明書監査プロトコル

本プロトコルは、Calib only 推定(閾値の決定は Calibration 期間のみに限定)および Test 評価のみ(Test 期間の情報は判定のみに使用)を厳守する。さらに、以下の 5 つの要素を統合した SHA256 指紋を「監査証明書」に刻印することで、結論の不変性を保証する。

Input Files
Split Spec
Model Config
Code Logic
Environment

Policy Separation Logic

$$\tau_{used} = \min(\tau_{budget}, \tau_{cap})$$

Condition: $\tau_{budget} > \tau_{cap} \implies \text{Regime Shift Detected}$

3.2 Data Acquisition & Reproducibility

電力需要データは、東京電力パワーグリッド「でんき予報>電力使用状況データ(CSV)」公開ページより、2024年1月〜4月の月次ZIPを4本取得し、正規化した上で時系列結合した(取得日:2025/12/14 JST)。需要系列の単位はソースに準じ「万kW」を採用している。

気象データは、気象庁過去の気象データ・ダウンロード(ObsDL)より、地点「東京」を選択。項目は気温・日照時間(前1時間)・相対湿度、時間解像度は毎時として取得した(取得日:2025/12/14 JST)。

入力データは権利保護に基づき再配布を行わない。代わりに、上記手順で取得したローカルファイルのSHA256ハッシュにより同一性を固定し、再解析は同一SHA256の入力に対してのみ同一結論を要求する。

4. Audit Results (2024-01 to 2024-04)

Verdict

NG

Cap Hit Days

22

Drift Ratio

1.883

Demand Unit

万kW

4.1 Significant Event Chronology

Start (UTC) End (UTC) Dur. (h) Peak Score Primary Attribution
2024-04-29 06:002024-04-29 22:00172.763LEVEL_RESIDUAL
2024-04-24 11:002024-04-26 10:00482.740LEVEL_RESIDUAL
2024-04-22 10:002024-04-22 13:0042.357LEVEL_RESIDUAL
2024-04-15 09:002024-04-17 19:00592.251LEVEL_RESIDUAL

4.2 Planned Robustness & Stability Evaluations

本監査報告の学術的耐性を補強するため、以下の評価を後続実験として予定している。

  • q-sweep Analysis (予定): 分位点 q を {0.990, 0.995, 0.999, 0.9995} でスイープし、パラメータの恣意性を排除する。
  • Time-shift Reproducibility (予定): Test 開始点をずらした再実行を行い、構造破綻が時間配置によらず再現されるかを検証する。

5. Reproducibility & Integrity Fingerprints

Data Fingerprint b45cf0d56821c3e04dcab9ff74e5d92c29cf306331826cc5152c7e0a202f5dfc
Certificate SHA256 1a3d68abd94e35c51f02ffdd94360e4eab0ab0337469167ba127c13c98a89dbb
FINGERPRINT COPIED TO CLIPBOARD