ということで、まずは何も考えずに全レースの出走馬平均タイムと標準偏差を計算してみた。最初に計算したデータは、標準偏差が10秒を超えるレースがいくつか出てきて驚いたが、それらを検証してみたところJRA主催以外のレースが含まれていたり、競走中止の馬(走破タイム=0になっている)のデータまで含めて計算していた。これらのデータの不備を洗い出し、計算し直したものが表1である。なお、当コンテンツで公表するデータは、説明に必要な一部のみである。全データを載せてしまうとデータ量が多いことと、不完全なデータを公表することの必要性が感じられないからである。どうかご了承頂きたい。
なお、第1回で“レース数は13334だった”と書いたが、不要なデータを取り除いたところ13275レースとなった。更に、データの不備で2004/04/10、2回5日阪神9R・アザレア賞のデータが欠落していることがわかった。よって、このレースを除いた13274レースが計算対象となっている。
だがこの表を見てもまだ腑に落ちない点がある。例えば、福島、芝2600m、1000万条件のデータだ。Timeの標準偏差が4.12秒と、ちょっと大きい気がする。
そこでデータを検証してみたところ、元々レース数が9レースと少ないが出走馬のレベルの差が大きいのか、確かに2分37秒5〜2分56秒2とタイムに極端に差がある。もちろん前者は勝ち馬のタイム、後者は大差殿負けの馬のタイムである。
確かにこれだけ開きのあるタイムの平均をとるのは、データの信頼性としては問題があるかもしれない。そこで、上位入線馬のみで同じように計算してみる。しきい値を何着にすればいいか、つまり何着以上の馬のタイムの平均を採用したらいいのかも検討する。まずは当サイトで今まで使ってきた基準タイムと同じ3着以内(表2)、もう少し増やして5着以内(表3)、入着まで、つまり8着以内(表4)の3通りで計算してみた。
表のタイトルや数字の意味については重要でないので、ここでは詳しく説明しない。右から2列目の”TimeinSecの標”(本当は”TimeinSecの標準偏差”)というデータに注目してほしい。3着以内から8着以内に行くにつれて、標準偏差が小さくなってきているところもあるが、大体が逆に大きくなってきている。データ数が増えるので当然の結果だが、3着まででは少なすぎるように感じる。データ数が少ないと全体を見る尺度としては不適切、逆に多過ぎると前述のようにばらつきが大きくなる不都合が生じる。適当なところとしては、5着までと言うのが良いかもしれない。とりあえずここでの結論は5着までの馬の走破タイムの平均を基準タイムとして採用することとする。