こんにちは、鹿児島弁で「がんばる・兄さん」ことハメッケ・アイアンです。
当ブログをご覧いただきありがとうございます。
さて、自作AIシステムの紹介をしていくシリーズの3回目になります。
1回目はこちら ⇒ GET WIN5 で稼働しているAI予想システムの紹介① 馬名を使う?
2回目はこちら ⇒ GET WIN5 で稼働しているAI予想システムの紹介② 騎手の扱い
前回までは「実は馬名は使っていません」とか「短期免許騎手は架空の騎手」といったように、一見「?」と思うようなデータ加工をしていることをお話しいたしました。
馬名、短期免許騎手は他の要素(天気情報、人気情報など)に比べて、データ種類が極端に多かったり、少なかったりするんですよね。
馬名は極端に種類が多すぎる。短期免許騎手は他の騎手に比べて極端に騎乗数が少なすぎる。
まだ私も証明できるほどには至っていませんが、自作AIの開発を通じてAIに向いているデータの形のイメージが出てきました。そのデータ開発に向けて皆さんと勉強できればと考えています。
このAIが完成(馬券回収率100%超え)したあかつきには本ブログで提唱するデータ開発方針の根拠になると思います。そこを目指して頑張りたいと思います。
それでは、今しばらくお付き合いください。
競馬予想AIにおけるデータ加工について考えました。
予想精度の高いAIを作るためデータを加工します。
今日のお題は「血統」です。
競馬予想には以下のような3種類の方法があると思います。
①「成績データ」を使った分析
⇒例えば、「このレースでは過去10年は内枠から勝ち馬がない」とか「前走0.3秒以内の着差馬が勝つ」など過去の成績データの統計から予想を立てる感じですね。
②「血統」を使った分析
⇒「良馬場の東京競馬場の1600M(根幹距離)はディープ産駒が来る!」という感じですよね。ちなみに私は亀谷敬正氏の「血統の教科書」愛読者です。
④井崎周五郎方式
⇒補足します。あくまでテレビ「みんなのKEIBA」出演時の予想です。しかも、その予想根拠を延々話した後で別の馬券を買っているし(笑)。この境地は私たちには無理ですね(笑)
本記事では血統について考えたいと思います
1.血統数
競馬ソフトTARGETでは最初の血統タイプは8種類です。

主流は4種類です。ニアークティック系(黄色)、ナスルーラ系(緑色)、ネイティブダンサー系(青色)、ロイヤルチャージャー系(ピンク色)。
セントサイモン、マンノウォー、その他のエクリプス、トゥルビヨンは今後の巻き返しを願っておりますが前途は多難ですね。
参考リンク:TARGET JV チェック種牡馬を使いこなす! 血統系統にこだわる ①問題提起編
トゥルビヨン系について:トウカイテイオーに思いを馳せる ~クワイトファイン・プロジェクト
8系統だけだと流石に少ないので、もう少しデータを増やすため種牡馬データを併用します。
2.種牡馬
種牡馬のランクが随時発表されています(種牡馬リーディングという名称)。
https://db.netkeiba.com/?pid=sire_leading
この種牡馬データTOP10と上記8系統を併用して血統データを作成しています。
例えばAI2020が使っているデータは2016、2018、2019年です。よって2016、2018、2019の各年のリーディング種牡馬TOP10を抜き出しています(全部で15頭)。
(2017年は外れデータのため使っていません。照会は以下のリンクをご覧ください)
GET WIN5 自作競馬予想AIの不具合発覚! 2019年に何があったの? ④
ディープインパクト :ロイヤルチャージャー系(ピンク色) |
キングカメハメハ :ネイティブダンサー系(青色) |
ダイワメジャー :ロイヤルチャージャー系(ピンク色) |
ハーツクライ :ロイヤルチャージャー系(ピンク色) |
ステイゴールド :ロイヤルチャージャー系(ピンク色) |
マンハッタンカフェ :ロイヤルチャージャー系(ピンク色) |
クロフネ :ニアークティック系(黄色) |
ネオユニヴァース :ロイヤルチャージャー系(ピンク色) |
ハービンジャー :ニアークティック系(黄色) |
ブラックタイド :ロイヤルチャージャー系(ピンク色) |
ゴールドアリュール :ロイヤルチャージャー系(ピンク色) |
ロードカナロア :ネイティブダンサー系(青色) |
ルーラーシップ :ネイティブダンサー系(青色) |
オルフェーヴル :ロイヤルチャージャー系(ピンク色) |
キンシャサノキセキ :ロイヤルチャージャー系(ピンク色) |
話が脱線しますが、種牡馬は偏っていますね。
ロイヤルチャージャー系(ピンク色)は実はサンデーサイレンスです。ナスルーラ系(緑色)系統の種牡馬はTOP10に入っていません。内心、ここまで偏っていいのかな?と素人的に思っています。
3.血統の集計
父方の血統の統計をとってみました(2016、2018年、2019年)
※対象の出走馬データは全部で約146000件。

ロイヤルチャージャー系(ピンク色)の数が突出してますね、やはり系統に限定したデータだと件数が偏ってしまうので、種牡馬TOP10で分割するのはグッドな考えだと思います(自我自賛ですね)。
その種牡馬TOP10で分割したのが、C列とD列ですね。
でも、分割してんも偏りはそれほど解決しないですね。ここは、もう少し検討の余地がありそうです(しかも母父系は更に偏っていました。あえて出しません。ごめんなさい)
4.まとめ
現AIではそれなりの予想精度(2020年の1月~5月のWIN5の出現率は40%)をもっているので、上記の血統区分でのAI学習は間違ってはいないと思いますが、まだまだ偏りが大きいですね。
今回は自作AIで「血統」をどのように学習させているのかをお話ししたのですが、どうやらマダマダだというのが、わかってしまいました。
もう少しデータ加工を継続したいと思います。
では、また!
コメントを残す