こんにちは、鹿児島弁で「がんばる・兄さん」ことハメッケ・アイアンです。
当ブログをご覧いただきありがとうございます。
さて、現在稼働中の自作AIシステムに不具合があることを、先日のブログでお話しましたが、その続編です。
GET WIN5 ブログAIの不具合発覚! 2019年に何があったの?
おそらく問題があるレースデータは2016年か2019年ではないかと推測しています。そこで最初に2019年のデータについて分析をしてみました。
1.2019年に起きていたこと
2019年は「降級制度」が廃止になったことと、「レースグレード呼称の変更」があり、更に「リステッド競走」が追加されました。
以下の通り整理します。
1.降級制度
4歳の夏季競馬開催時点で平地取得賞金が1/2となり、クラスが下がる制度。
500万下の馬が勝った後に、同馬の獲得賞金の評価が半分になり、再度500万下のレースで出走できるという制度でした(要は一回勝ったことのあるクラスで再度走れるという事!)。
2.レースグレード呼称の変更
以下のように呼称が変わりました。
旧呼称 | 新呼称 |
500万下 | 1勝クラス |
1000万下 | 2勝クラス |
1600万下 | 3勝クラス |
3.リステッド競走の新設
以下、ウィキペディアから抜粋。
日本中央競馬会 (JRA) は2019年から、「リステッド競走」を導入した。JRAのリステッド競走は、「グレード競走に次ぐ重要な競走」「オープン特別競走の中で質の高い競走」として一部を指定したものである。指定を受けた競走には、名称 (「〇〇ステークス」等)の後ろに “(L)”を付与して表記される[4]。
2.それぞれの変更点を分析する
上記3つの変更点をAIシステム用データにどのように影響されるかを分析しました。
変更点 | AIデータに対する影響 | 対応方針 |
1.降級制度廃止 | 2017年、2018年のレースデータにおいて、500万下を勝った馬が再度同じ500万下で勝ったデータがある。特定のクラスにおいてデータに偏りが出る場合がある。 | 500万下の同じ馬が2回勝ったデータが残るので、データに歪みが出る可能性はあるが、以下の理由によりデータ調整は行わない。
①当ブログのAIは馬を馬名で処理していない。 ②そもそも勝馬データの調整は不可能。 |
2.レースグレード呼称の変更 | 2017年、2018年、2019年で呼称を統一してAI学習させる。 | 既に対応済み。 |
3.リステッド競走の新設 | 2017年と2018年の一部オープンレースが2019年でリステッド競走になっている。この2019年データが違ってくる。 | 2019年のリステッド競走を以下のどちらかで処理する必要がある。
①G3扱い ②オープン |
よってデータ調整とし、2019年のリステッド競走を調整することとします。
リステッド競争は2019年に62レース開催されています。2019年は全部で約3450レース開催されていました。つまり、1.8%のデータが抜けていたのです。
しかもそれは、WIN5において、かなりの比率です!(プログラムを修正しました)
あと、リステッドをG3、オープンどっちで処理するかを判断するため、賞金額を調べました。
①G3:4100万~2900万円
②リステッド:2600万~1700万円
ちなみにオープンの賞金は2400万~2000万円なので、賞金を考えるとリステッドはオープンで処理することにしました。
今回の調査で「リステッド対応漏れ」が発見できたことと、AIが学習できるように適切にレースグレードを設定できたと思いますので、この内容でAI学習をさせて検証したいと思います。
検証結果はまたアップいたします。
では、また!
続き:自作競馬予想AIの不具合を修正しました 2019年に何があったの? ③
コメントを残す