バックテスト方法と精度の検証 — 競艇 AI 予想の信頼性を担保する仕組み

「バックテスト精度 95% 的中」と書いてある AI 予想サイトを、信用してはいけません。

その数字は嘘ではない可能性も高いのですが、未来のレースで何 % 当たるかとは関係ない数字だからです。検証手法を間違えると、過去では 95% でも実運用では 50% という現象が普通に起きます。実際に当サイトが採用している walk-forward 検証では、控えめに 72.2%。これが「本物の精度」です。本記事ではその違いを、数学と実例で解きほぐします。

逃名井アイ

「バックテスト 95% 当たります」って書いてあったら警戒して。検証手法が雑なら、数字はいくらでも盛れる。

なぜバックテストが重要か
過去 → 未来の順序を守る検証 (Walk-forward)
1. 手順
2. なぜこの手順か
一般的な検証手法 (k-fold) が時系列データに合わない理由
1. k-fold の仕組み
当サイトの walk-forward バックテスト結果
実運用との一致
1. 実運用精度 (2026年4月26日〜5月9日、14 日間)
2. バックテストとの比較
検証のオープン化
「精度」を見るときのチェックリスト
まとめ

なぜバックテストが重要か

AI 予想モデルを評価するときに、最も大事なのは「未来のレースに対してどれだけ当たるか」です。

過去のレースに対して当たるのは当たり前。極端な話、過去のレースを全部「丸暗記」してしまえば 99% でも達成できます。この状態を 過学習 (機械学習の専門用語で overfitting と言います) と呼びます。

過学習の典型例:
– 過去 1 年分のレースで「この選手のこの会場のこの組み合わせはこの結果になる」を全部丸暗記
– → 過去のレースに対しては 99% 当たる
– → でも未来の新しいレースでは 50% も当たらない (パターンに少しでも差があるとお手上げ)

これを避けるための仕組みがバックテストです。

過去 → 未来の順序を守る検証 (Walk-forward)

レースは時系列データ (時間順に並んでいる) なので、検証する時も過去 → 未来の順序が崩れてはいけません。これを守った検証方法を Walk-forward (ウォークフォワード) バックテスト と呼びます。

手順

2025-09-01 までのデータで学習
学習したモデルで 2025-09-02 〜 2025-09-30 のレース を予測
予測と実結果を照合 → 精度を記録
2025-10-01 までのデータで再学習
学習したモデルで 2025-10-02 〜 2025-10-31 のレース を予測
精度を記録
これを 2026 年 4 月まで繰り返す

なぜこの手順か

各時点で「その時点で利用可能だったデータのみ」で学習しているため、未来のデータが学習に混ざりません。これは実運用と同じ条件です。

実運用では、今日のレースを予測するとき、明日以降のデータは使えません。Walk-forward バックテストはこの制約を再現しているので、バックテスト精度 ≒ 実運用精度 となります。

一般的な検証手法 (k-fold) が時系列データに合わない理由

機械学習でよく使われる検証方法に k-fold 交差検証 (ケーフォールド) という手法があります。これは時系列ではないデータには有効ですが、レースのような時系列データには不適切です。

k-fold の仕組み

データをランダムに 5 等分する
そのうち 4 / 5 を学習、残り 1 / 5 をテスト
テストする 1 / 5 を変えながら 5 回繰り返し、平均精度を出す

この方法だと、過去のレースと未来のレースが学習データとテストデータの両方に混在します。例えば:

学習データに 2026-04 のレース
テストデータに 2025-09 のレース

これは「未来を知っている状態で過去を予測する」という、現実にはあり得ない条件です。当然、精度は過大評価されます。

「バックテスト 95% 当たります」と謳う予想サイトの一部は、この k-fold で測っている可能性があります。実運用すると 50% 程度しか出ないはずです。

当サイトの walk-forward バックテスト結果

当サイトでは、以下の条件で walk-forward 検証を実施しています。

検証期間

2025-09 〜 2026-04 (145 日間)

検証対象

各日の「1号艇が 1 着にならない可能性が高い」と AI が判定したレース。

スコア帯別の精度

信頼度	件数	1号艇敗北的中数	精度
⭐⭐⭐ (確信度上位)	56	44	79.1%
⭐⭐ (中位)	1,096	816	74.5%
⭐ (標準推奨)	826	563	68.1%
平均	1,978	1,423	72.2%

ベースレートとの比較

指標	値
1号艇敗北のベースレート (全レース集計)	46.3%
AI 予想の平均精度	72.2%
上乗せ	+25.9 ポイント

「何もしない場合」の 46.3% に対して、AI 予想は +25.9 ポイントの上乗せを達成しています。これが当サイトの主張する「データドリブンな AI 予想の価値」の数値根拠です。

実運用との一致

バックテストで 72.2% 出ても、実運用で 50% しか出なければ意味がありません。当サイトでは、実運用の精度も継続的に計測しています。

実運用精度 (2026年4月26日〜5月9日、14 日間)

信頼度	件数	的中数	精度
⭐⭐⭐	16	14	87.5%
⭐⭐	318	239	75.2%
⭐	213	136	63.8%
平均	547	389	71.1%

バックテストとの比較

信頼度	バックテスト	実運用	差
⭐⭐⭐	79.1%	87.5%	+8.4 (※サンプル少)
⭐⭐	74.5%	75.2%	+0.7
⭐	68.1%	63.8%	-4.3
平均	72.2%	71.1%	-1.1

バックテストと実運用がほぼ一致していることが確認できます。⭐⭐⭐ は件数が 16 件と少ないため変動が大きいですが、サンプル数の多い ⭐⭐ は +0.7 ポイントのズレに収まっています。

この一致は、過学習を避けたモデル設計と、適切な walk-forward 検証の両方ができている証拠です。

検証のオープン化

当サイトは以下を公開しています。

項目	内容
検証方法	過去 → 未来の順序を守った Walk-forward
学習データ規模	約 4.5 万レース
検証期間	2025-09 〜 2026-04 (145 日)
使っている AI 手法	勾配ブースティング (データから自動でパターン学習する高精度手法)
予測に使うデータ項目数	100 以上
主なデータカテゴリ	環境 (風波) / 会場 / 選手級別 / モーター / コース
「何もしない場合」の的中率 (ベースレート)	46.3% (4.5 万レース集計)
外したレースの開示	全件 (結果記事に ◯ × 表示)

モデルの細かい設定値 (どれくらい繊細に学習させているか、正則化の強さなど) は、競合対策のため非公開にしています。手法と使うデータの方針は完全に開示しています。

「精度」を見るときのチェックリスト

予想サイトの精度を評価するときは、以下を確認してください。

[ ] どの予測対象の精度か（1着 / 3連単 / 1号艇敗北など）
[ ] 検証期間が明示されているか（X月〜X月）
[ ] 検証手法が walk-forward か（k-fold ではないか）
[ ] ベースレートとの差が示されているか
[ ] 実運用精度も継続的に開示されているか
[ ] 不的中レースが隠されていないか

これら 6 項目を満たさない「精度」は、参考程度に留めるべき情報です。当サイトは全項目を満たしています。