こんにちは、鹿児島弁で「がんばる・兄さん」ことハメッケ・アイアンです。
当ブログをご覧いただきありがとうございます。
さて、現在稼働中の自作AIシステムの不具合の原因っぽい箇所が特定できたことは前回の記事に書きました。
GET WIN5 自作競馬予想AIの不具合発覚! 2019年に何があったの? ②
あとは、その箇所を修正してデータを作成し、学習させ、2020年上半期のレースを使って検証すれば何かが分かると思います。
では早速、結果を確認したいと思います。
1.2020年の上半期データを使って検証
こんな感じになりました!(図1)

、、、、、ダメでした。
しかし、リステッド対応の処理は無いよりマシなので、この修正はこのまま運用しようと思います。
ちなみに、今回の修正は以下のようなイメージです(図2)。
結局のところ、何が問題なのかというと
古いデータで作ったAIは、いつ予想精度が悪くなるかが分からない!
これが問題です。だから、どうにかして新しいデータを使ってAIを作りたい。(新しいデータで作成したAIの方が予想精度がグッドだろうという推測です)
2.他に悪そうなところを探す
上記の図2を見ると、もう一つの違いに気が付くと思います。
AI2019とAI2020の違い → 2016年データの有無
そこで2016年データを調べたのですが、、、、、
問題を見つけられませんでした!
という事で、壁にぶつかった次第です。
結局、2016~2019年の4年分のデータを2日ほど見比べてました。
そうしたら、あることに気が付きました。
架空の騎手である「タンキ1」「タンキ2」の作り方に問題があるのかもしれない!と。
ちなみに架空の騎手「タンキ」についてはこの記事をご覧ください。
GET WIN5 で稼働しているAI予想システムの紹介② 騎手の扱い
(要約すると、短期免許騎手は騎乗回数が少ないので、同騎手を数名分まとめる事で騎乗回数を増やす「データ加工」の事です)
3.短期免許騎手の騎乗状況
短期免許騎手の騎乗数をまとめてみました。各騎手の3着以内の回数をカウントして、その回数をもとにタンキ1、2、3として序列化したものを以下に示します(要はタンキ1が一番優秀な騎手)
図:タンキ2016(●は騎乗した月です)

図:タンキ2017(●は騎乗した月です)

図:タンキ2018(●は騎乗した月です)

図:タンキ2019(●は騎乗した月です)

上記の図を見るとタンキ2016は短期免許騎手の人数と3着以内回数(赤枠部分)のバランスがよく(2017~2019と比べて)、統計データとして使いやすい形に見えます。
代わりにタンキ2017のデータは3着以内回数(赤枠部分)が他の年と比べて明らかに少ないことが分かります。
例:2016のタンキ1(青部分)→199
例:2017のタンキ1(青部分)→120
例:2018のタンキ1(青部分)→182
例:2019のタンキ1(青部分)→171
これは推測ですが、以下のことを考えました。
AI2020の短期免許騎手の成績はAI2019に比べて劣化してる? →AI2020は2016年データ削除して、2019年データ追加している。
4.結論
少し希望が見えてきました。
次回は2017年データを削除したAI2020を作って検証しようと思います。
ではまた!
続き:GET WIN5 自作競馬予想AIの不具合発覚! 2019年に何があったの? ④
コメントを残す