自作AI予想システムの紹介① 馬名を使う?

こんにちは、鹿児島弁で「がんばる・兄さん」ことハメッケ・アイアンです。

 

当ブログをご覧いただきありがとうございます。

そろそろ当ブログで稼働しているAI予想システムの紹介をしていきたいとおもいます。

「おたくのブログで発信している予想リストって、結局どのようなロジックで予想しているの?」という疑問を皆様は持っていらっしゃるのではないでしょうか。そもそも理屈が不明な物を使いたいとは思わないですよね。

ということで不定期ではありますが、シリーズとして当ブログの予想AIを紹介していきたいと思います。

と言いつつ、まだ当ブログのAIは開発途中なので今後も修正していく予定です。しかし過去2年の開発で、ある程度の精度が出る状態になっております。そこで一旦この状態を整理して次の開発につなげていこうと考えている次第です。

あと当ブログ読者の皆様からアドバイスがあったらいいな~という期待も持ちながらの紹介ですね。

 

 

1.予想に使っているデータ

データ区分を大きく3つに分けて考えています。環境データと出走データ。そして配当の3種類です。

①環境データ(2016~18年のレースデータ)

1.レースグレード(500万、1000万、1600万、オープン、G3、G2、G1)

※早急にリステッド対応しないといけないです。

2.競馬場名

3.芝orダートor障害

4.距離

5.天気

6.馬場状態(良、稍重、重、不良)

7.開催月

 

②出走データ(2016~18年のレースデータ)

1.着順(18種類:18頭立ての場合)

2.騎手名(234種類:234人)

3.枠番(8種類:1枠~8枠)

4.馬の誕生月(6種類:1月~6月)

5.馬の性別(3種類:牡馬、牝馬、センバ)

6.馬の年齢(10種類:2~10歳、11歳以上)

7.斤量(10種類:50~60kgを1kg単位)

8.人気(18種類:18頭数分)

9.馬体重(30種類:400kg以下。400~550kgを5kg単位。550kg以上)

10.馬体重の増減(10種類:-25kg~+25kgを5kg単位)

11.所属(2種類:美浦、栗東)

12.父系統(18種類:2019年のTOP種牡馬10リーディング。および血統8系統)

13.母父系統(上記同)

14.毛色(8種類:芦毛、栗毛、黒鹿、鹿毛、青鹿、青毛、栃栗、白毛)

 

③配当(2016~18年のレースデータ)

単勝と配当

馬連、3連単などの連勝式系のデータは使っていません。あくまでWIN5を当てるために開発したAIです。

 

2.解説

①環境データについて一般的な情報です。強いて上げるとすればレース名は学習していません。レースグレードで処理しています。

②出走データについては、皆様「あれ?」と思ったかもしれませんね。

 

そうです!

馬名を学習に使っておりません。この部分が当ブログの予想AIのユニークな点だと自負しております。

使わない理由は、結局「馬名を使わないほうが精度がいい」という結果に行き着いたからになります。ではなせ、使わない方が精度がいいのか?という問いには以下の回答が挙げられます。

 

残念ながら、わかりません!

AIの学習過程は誰も分からないのですね。

 

話題がそれますが、これが企業でAIを導入する時に現場の担当者が苦労するところです。企業の経営層(現場の責任者含む)はAIの出した計算結果に根拠を求めますが、そんなの誰も説明できないです(でも計算結果はかなり正しい)。

現場の担当者はどうにか根拠を経営層に提示しようとするため、けっきょく開発以外に稼働を取られる、、、、経営層も少しは勉強してほしいですね。

おっと、話題がそれました。

 

馬名は無視

話を馬名に戻します。これまでの検証でわかった事として馬名がAIに相性が悪い理由を以下のように考えました。

1.馬の出走回数は少ない(G1馬になれば年間5回ぐらいしか走らない)

→馬によって登場回数に大きなバラツキがありますから、統計にならないですよね

2.馬の種類が多い(16年~18年の3年間で13815レースが開催され、25572頭が出走した)

→上記②出走データ(2016~18年のレースデータ)の種類に比べて圧倒的に多い!

3.そもそも馬は能力ピーク期間が短い

→昨年調子が良くても今年は能力下降期に入っていることがよく起こる

 

馬名は単なる1要素のわりには、非常に複雑で連続性が無い(例えば、1着と2着の馬名にはなんの関連性が内)データはAI(統計処理とも言います)には合わないと結論づけました。

 

3.まとめ

騎手に注目

ということで馬名は使わないことにしております。

騎手をメインに学習したところ予想成績が非常に安定化したので、これが正解なのだと考えております。

上図は1/19日の開催におけるAI予想結果です。WIN5出現しております(予算の都合で買えておりません。残念。ちなみに今年はWIN5予想20回で10回出現しております。出現率50%)

 

人間であれば、3年前、もしくは6年前(この年数についても、いつかご紹介します)に調子が良かった場合は今も調子がいい確率が高い。しかし、これが馬だとそうはいかないです。

 

騎手をライダーとして定義しているイメージです。

例えば、ルメール騎手が下記のマシンで出場したというイメージです。

ファクトリー:ロードカナロア産

素材:サンデーサイレンス産

マシンカラー:鹿毛

生産月:3月

運用年数:5年

アーモンドアイという名前を使わずに、マシン属性でルメール騎手の順位を学習し、その属性を使ってルメール騎手の将来順位を予想するという感じですね。

4.次回について

次回は騎手の扱いについてご説明したいと思います。

GET WIN5 で稼働しているAI予想システムの紹介② 騎手の扱い

 

 

毎日入るの少額配当。ちょっと嬉しい。

税金計算は面倒ですよね