こんにちは、鹿児島弁で「がんばる・兄さん」ことハメッケ・アイアンです。
当ブログをご覧いただきありがとうございます。
さて、前回の記事で「2017年のレースデータを除外してみる」という結論に至り、そのデータでAIを再度学習させよう!ということを宣言しました。
GET WIN5 自作競馬予想AIの不具合発覚! 2019年に何があったの? ③
その結果を発表したいと思います。
1.2020年の上半期データを使って検証
かなり改善してきました!(図1)

2017年が入っているデータで学習させたAIでは22開催のうち3回がWIN5を達成しました。その達成率は13%。
2017年を除外した場合は36%になりました
※開催数が増えているのは常に最新の開催数で検証しているため
ちなみに、今回の修正は以下のようなイメージです(図2)。

そして、新たな問題が発覚しちゃいましたね。
2017年データを使わないことが有効であると分かったが、来年、AI2021を作るときはどうするの?
これが問題ですね!
この事についてもう少し考えてみます。
2.2017年のデータについて
前回の記事では2017年は短期免許騎手の騎乗数が少ないことが原因では?という仮説を申し上げました。
今回はその仮説に基づいて、2017年のデータを使わなかった。
見事に仮説は当たった。
ということは、来年用のAIであるAI2021を作る時は、以下のどちらかの対策を考えればいいと思います。
①2020年(今年)の短期免許騎手の来日が少ない、もしくは同騎手たちの成績が悪い場合は2020年の成績を除いてAIを作る。
→今年はコロナ騒ぎで来日は減るかもしれません。あとレーン騎手が不振気味です。よって3年データが正直微妙ですね。
②AI開発用のデータ量を増やす。具体的に言うと、3年ではなく6年分のデータで学習させれば、2017年(仮に2020年も不足データであった場合)が不十分なデータであったとしても、平均化されるので、より安定化すると考えられます。
→こちらが本命になりそうです。
3.6年データについて
実はAI開発の当初は6年データを使っていました。それがどうして3年データに移行したかというと、、、、
6年データは平均的な予想精度だけど、3年データはとんでもなく当たる年があった。
結局6年データは当初はあまり当たらなかった。だから3年データに移行した。それだけのことでした。
しかし今回の検証で3年データの本質が分かってしまいました。
なぜ、よく当たるのか?
理由:たまたまデータが良かっただけ。偶然の要素が強い。
欠点は?
欠点:安定性に欠ける。
これらの本質が今回判明したので、6年データの方が信頼できそうです。(平均化されるので特定の年のデータが不良でも吸収できる)。
よって、今後の方針が見えてきました。
6年データでAIを開発して検証する必要がある!
4.結論
6年データを使ってのAI学習と、検証は時間がかかるので、今回の不具合シリーズとは別記事で発信していこうと思います。
今しばらくはAI2019での運用が続きますが、ご了承ください。
ではまた!
コメントを残す