自作競馬予想AIの不具合を修正しました 2019年に何があったの? ④

こんにちは、鹿児島弁で「がんばる・兄さん」ことハメッケ・アイアンです。

 

当ブログをご覧いただきありがとうございます。

さて、前回の記事で「2017年のレースデータを除外してみる」という結論に至り、そのデータでAIを再度学習させよう!ということを宣言しました。

GET WIN5 自作競馬予想AIの不具合発覚! 2019年に何があったの? ③

その結果を発表したいと思います。

 

1.2020年の上半期データを使って検証

かなり改善してきました!(図1)

2017年が入っているデータで学習させたAIでは22開催のうち3回がWIN5を達成しました。その達成率は13%。

2017年を除外した場合は36%になりました

※開催数が増えているのは常に最新の開催数で検証しているため

 

ちなみに、今回の修正は以下のようなイメージです(図2)。

そして、新たな問題が発覚しちゃいましたね。

2017年データを使わないことが有効であると分かったが、来年、AI2021を作るときはどうするの?

これが問題ですね!

この事についてもう少し考えてみます。

 

2.2017年のデータについて

前回の記事では2017年は短期免許騎手の騎乗数が少ないことが原因では?という仮説を申し上げました。

今回はその仮説に基づいて、2017年のデータを使わなかった。

見事に仮説は当たった。

ということは、来年用のAIであるAI2021を作る時は、以下のどちらかの対策を考えればいいと思います。

①2020年(今年)の短期免許騎手の来日が少ない、もしくは同騎手たちの成績が悪い場合は2020年の成績を除いてAIを作る。

→今年はコロナ騒ぎで来日は減るかもしれません。あとレーン騎手が不振気味です。よって3年データが正直微妙ですね。

 

②AI開発用のデータ量を増やす。具体的に言うと、3年ではなく6年分のデータで学習させれば、2017年(仮に2020年も不足データであった場合)が不十分なデータであったとしても、平均化されるので、より安定化すると考えられます。

→こちらが本命になりそうです。

 

3.6年データについて

実はAI開発の当初は6年データを使っていました。それがどうして3年データに移行したかというと、、、、

6年データは平均的な予想精度だけど、3年データはとんでもなく当たる年があった。

結局6年データは当初はあまり当たらなかった。だから3年データに移行した。それだけのことでした。

しかし今回の検証で3年データの本質が分かってしまいました。

なぜ、よく当たるのか?

理由:たまたまデータが良かっただけ。偶然の要素が強い。

欠点は?

欠点:安定性に欠ける。

 

これらの本質が今回判明したので、6年データの方が信頼できそうです。(平均化されるので特定の年のデータが不良でも吸収できる)。

 

よって、今後の方針が見えてきました。

6年データでAIを開発して検証する必要がある!

 

4.結論

6年データを使ってのAI学習と、検証は時間がかかるので、今回の不具合シリーズとは別記事で発信していこうと思います。

今しばらくはAI2019での運用が続きますが、ご了承ください。

 

ではまた!

 

毎日入るの少額配当。ちょっと嬉しい。

税金計算は面倒ですよね