こんにちは、鹿児島弁で「がんばる・兄さん」ことハメッケ・アイアンです。
2021年バージョンのAI開発に向けてデータを探しております。前回の記事では母親の年齢についてAIデータになるかを評価しました。その結果は良好だったので、AIデータに採用することを書きました。
前回の記事で書いたことは、以下の①についてでした。
- 母親の年齢⇒完了
- 母親の成績⇒今回の記事
- 父親の年齢⇒そのうち書く!
今回は「②母親の成績」について評価します。成績の評価軸は「収得賞金」です。
https://www.jra.go.jp/kouza/yougo/w541.html
ということで、今回は②母親の成績を調べてみます。
結論から言うと「収得賞金」は非常に重要な要素であることがわかりましたので、2021年バージョンでは採用することといたします。
以下、その過程を説明していきます。
では行ってみましょう!
1.データ構成
今回使うデータです。
今現在で2~40歳の牝馬データ(約8万件)- 今現在で2~20歳の競走馬データ(約15万件)
- 2000年~2019年のJRAレース結果データ(約99万件)
8万件のデータを収得賞金額、生涯出走回数、引退年齢、出産年齢をもとに抽出します。
そして、99万件データのうち、1着馬の母親が8万件データに存在するかを調べていきました。
生涯出走回数を24回以下に限定したのは、酷使された馬を除外するため。
引退年齢も同様です。6歳や7歳の現役馬は「重賞馬」か「酷使されている」かの両極端だと思ったのでデータから除外しました(外れ値を除外した)。
出産年齢は前回の記事で書いた通り、意味がありそうなので付与しました。
2.データ分析
①評価方法と結果
ベンチマークとして全てを無条件で評価した評価項目⓪を基準にします。
特定の人気ごとで回収率90%を達成できていませんでした。そして全体の回収率は72%でした。統計的には期待値は80%なので、ちょっと見劣りしています。
先に結果を書きます。評価項目⑩をご覧ください。
収得賞金1000万以上かつ、生涯出走回数が24回以下で、さらに3歳で引退した馬の子供は回収率が高いです。
そして収得賞金額が上がるにつれて、全体回収率が上がっています。
評価項目 | 収得賞金額 | 生涯出走回数 | 引退年齢 | 出産年齢 | 回収90%以上を達成した人気 | 全体回収率 |
⓪ | 無条件 | 無条件 | 無条件 | 無条件 | なし | 全体:72% |
① | 無条件 | 24回以下 | 3歳以下 | 無条件 | なし | 全体:70% |
② | 〃 | 4歳以下 | 無条件 | 評価スキップ | ||
③ | 〃 | 5歳以下 | 無条件 | 評価スキップ | ||
④ | 100万以上 | 3歳以下 | 無条件 | 6人気:90% | 全体:77% | |
⑤ | 〃 | 4歳以下 | 無条件 | 評価スキップ | ||
⑥ | 〃 | 5歳以下 | 無条件 | 評価スキップ | ||
⑦ | 400万以上 | 3歳以下 | 無条件 | 6人気:117% | 全体:79% | |
⑧ | 〃 | 4歳以下 | 無条件 | 10人気:91% | 全体:76% | |
⑨ | 〃 | 5歳以下 | 無条件 | なし | 全体:75% | |
⑩ | 1000万以上 | 3歳以下 | 無条件 | 1, 2, 3, 4, 9, 11, 12, 13人気:
97, 111, 100, 115, 179, 113, 113, 142% |
全体:85% | |
⑪ | 〃 | 4歳以下 | 無条件 | 2, 9, 13, 14人気:
90, 122, 90, 121% |
全体:80% | |
⑫ | 〃 | 5歳以下 | 無条件 | 9, 14人気:
106, 98% |
全体:75% | |
⑬ | 2000万以上 | 3歳以下 | 無条件 | 評価スキップ:データ件数が少ない | ||
⑭ | 〃 | 4歳以下 | 無条件 | 4, 12, 13, 16人気:
90, 94, 167, 261, 470% |
全体:84% | |
⑮ | 〃 | 5歳以下 | 無条件 | 14, 16人気:
131, 161% |
全体:71% |
②評価の過程
いきなり結果を出したので、わかりずらいですね。評価の過程を説明します。
まず、評価項目①④⑦⑩(以下、評価に略します)を行いました(賞金ごとに評価)。
評価①は、ほぼ無条件ですが、引退時の年齢を3歳以下としています。要は「若さ」ですね(^^♪
しかし特定人気で回収率が90%を超えるものは無く、全体回収率も70%だったので、評価②③は行わないことにしました(「賞金0の馬がデータを悪くしている」と判断した)。
評価④は賞金が100万以上で、引退年齢が3歳以下です。これも特定人気で回収率90%を達成したものは無く、全体回収率も77%だったので、評価⑤⑥はスキップすることにします。
評価⑦は賞金が400万。これは1勝したことになりますので、優秀な馬といえます。さらに3歳以下で引退しているので、優秀な若い馬といえます。
結果は良好です。6番人気が回収率117%を達成しました。さらに全体回収率も79%なので統計的期待値に近くなってきました。賞金400万は意味がありそうです。
評価⑩は賞金1000万。
いいですね~(^^♪
優秀度合がさらに増してます。そして若い。これは良いですよ!
1, 2, 3, 4, 9, 11, 12, 13人気で回収率が90%を超えています。2番人気の回収率が111%ってすごいですね!
では賞金400万と1000万で深堀りしていきます。
評価⑧は賞金400万。引退年齢4歳以下です。結果は10人気で回収率91%。全体回収率が76%と少し下がりました。
さらに評価⑨にいきます。引退年齢が5歳以下です。結果は特定人気の回収率90%超えは無し。全体回収率も75%と少し下がりました。
引退年齢が上がると成績が少し下がる傾向にありますね。補足すると、引退年齢が上がるとデータ件数が増えるので回収率が下がるのかもしれません。
では賞金1000万に行きましょう。
評価⑪です。賞金1000万。引退年齢は4歳以下。2, 9, 13, 14人気で回収率が90%超えています。2番人気の回収率が90%なので良好です。全体回収率も80%でした。
評価⑫に行きます。引退年齢を5歳以下にしています。9, 14人気で回収率90%超えです。しかし全体回収率は75%に落ちました。
引退年齢が上がると成績が落ちます。これはデータ件数が増えるからなのか、母親の引退年齢が影響しているかはわかりませんが、傾向としては出ていますね。
母親は賞金を稼いでいる方がいい。引退年齢も若い方がいい。
あと賞金2000万でも調べてみました。4歳以下の引退馬では4, 12, 13, 16人気の回収率が90%を超えていて、全体回収率は84%でした。
このクラスでは対象牝馬が少ないのでデータとしては信頼性が低くりそうなので、今回は発表を見送りました。
3.結論
今回のデータ分析では、母親データから回収率が変化することがわかりました。
母親の収得賞金が高い方が子供の成績が良さそうです。評価項目⑩⑪で上位人気馬の回収率が高いのがその証拠です。
通常は上位人気馬は的中率は高いですが、回収率は低くなります。しかし評価項目⑩⑪では的中率と回収率が高くなった。かなりいい線いってますね。
今回の評価の目的は「AIの学習要素として優秀な母親の指標を追加したい」です。この目的は達成しました。以下の項目をAIに追加学習させたいと思います。
- 収得賞金
- 引退時の年齢
- 出産時の年齢
今回は他の評価項目も実施したので、データを添付します(評価項目⓪はデータが大きすぎるので添付しておりません)。
次回は競走馬が生まれたときの種牡馬の年齢でデータ分析しようと思います。
ではまた!
コメントを残す