箱根駅伝区間順位と往復路総合順位の相関

前回のデータ分析の書き物で、10人平均・16人平均と標準偏差について記しました。

次に平均記録と箱根駅伝順位の相関を見ていこうと考えていたのですが、これについては良い結論を得られるまで2,3の捨て記事を作らねばならないことが分かり、一旦延期としました。

今回は代わりに、過去の箱根駅伝区間順位と総合順位の「相関係数」を見た結果と、それに伴う考察をしていきます。

先に結論を書く

なるべく噛み砕いて書くつもりですが、それでもやや冗長な記述になることは避けられませんので、読むのが面倒な方のために先に結論を書いておきます。ここと後の「簡単な考察」だけでも読んで頂ければありがたいです。

往路順位との相関が高い 4区>5区>1区>3区>2区

復路順位  〃     6区>8区>9区>10区>7区

総合順位  〃     4区>5区>6区>8区>3区>(壁)>10区>9区>1区>2区>7区

使用したデータ

使用データは、弊サイトの「大会別成績(箱根駅伝)」に記載済の1998年~2020年までの区間順位と往復路・総合順位です。

相関係数について

相関係数の厳密な定義を解説することは本記事の主題では無いのでごく簡単に記しますと、「データ間にどれだけの相関関係があるかを示す指標」のことです。

相関係数の強弱はよく下のような図で説明されますが、文献によって言い回しが異なる上、絶対的な尺度ではないので参考まで。

またこれもよく言われるように、「相関がある=因果関係がある」では無いという点も非常に重要です。

あくまで、相関係数が正の方向へ高い ≒ 片方の数が大きいor小さいと、もう片方も大きいor小さい傾向にある…というだけです(負の相関については今回登場しないので割愛します)。

比較する2つのデータ間・例えば-区間順位も総合順位も両方良い組み合わせが多ければ相関係数は高い傾向、区間順位か総合順位のどちらかが良くもう片方が悪い組み合わせが多ければ低い傾向を示します。

まずは往復路から

Sponsored Link

※ 「有意性」に数値が入っている青セルは、統計上意味のある相関係数です。簡単に言うと「確実に無相関ではない」ことが客観的に判断できる…という意味です。また、N.S.は「Not Significant」(有意ではない)の略です。

このようになりました。
4区>5区>1区>3区>2区の順で、往路順位との相関が高く出ています。
また、
6区>8区>9区>10区>7区の順で、復路順位との相関が高くなっています。

散布図も合わせて図示すると、以下のようになります。

総合順位とはどうか

そして総合順位と各区間の相関はこのようになりました。

4区>5区>6区>8区>3区>(壁)>10区>9区>1区>2区>7区

散布図は以下のとおりです。

簡単な考察

Sponsored Link

往路順位との相関については4区と5区が高い結果になりました。見かけ上の数値だけでなく、散布図を見ても「当該区間の順位が悪いけど総合順位が高い(或いはその逆)」といった極端な例は少なく、区間順位の良さがそのまま往路順位へ直結していることが伺えます。

特に往路では後半区間になっても順位の入れ替わりが激しく、大幅アップやダウンが起こり得ることも寄与していると思われます。レース後半でそういった順位変動が起これば起こるほど、往路順位に直結するためです。その次に相関が高いのが1区というのも、駅伝の流れを考えればある程度腑に落ちる結果と言えそうです(ただ、1区に関しては区間順位が良くても往路順位が悪い値も目立ちます)。

 

復路順位については逆にスタートの6区が最も高い結果になりました。これは、特に安定的にシードを取っていた時代において、伝統的に中大が6区を得意としていたことが大きいと考えます。中位~上位でスタートすれば、区間上位のフィニッシュがそのまま安定的な復路順位に繋がりますし、一斉スタートから同時に出た大学を一気に離すことができた場合も同様です。

次に相関の高い8区ですが、散布図の右下に外れ値に相当する区間順位(区間3位、総合19位@2015年)があり、ここを除けば散布図上も指数ももう少し高くなります。とは言え、4区・5区と往路順位に比べれば、中心から左上(区間順位が良くても復路順位が悪い)へややばらついている印象です。9区・10区も極端に外れた値は無いのですが、区間中位→復路順位上位という組み合わせが多いため、相関係数はやや低く抑えられています。

往路と比べ後半区間の相関がそこまで高くないのは、往路よりも後半での極端な順位変動が起こりづらいことが要因かと思います。特殊区間(5区)が最後に控えている往路と好対照、といったところでしょうか。

総合順位との相関は、多少の前後はありますが往路・復路順位との相関の並びと概ね同様の傾向です。相関の高くない9区・10区で区間上位を取っても、それがイコール総合順位の上位へ繋がるわけではありません。4-6区辺りで大体の順位や位置が決まり、そこからは極端な変動は少なかった…と考えるとしっくりきます。

そういう意味で、復路において相関係数の比較的高い8区は最後の砦、とも言えそうです。

 

非常に一面的な見方です

色々書いてはきたものの、順位の相関やそれに伴う考察は、各年度のコンディションの差異や距離変動(特に5区)などを考慮に入れていない、大変に一面的な物の見方です。

前後の展開等関係なく、たまたま総合順位と区間順位が同じような位置に収まったものも決して少なくないでしょうし、相関係数上で差があったからといって、箱根駅伝において重要でない区間などあるはずもないです。

またおそらくですが、別の大学の計算をすれば、全く異なる結果が出てくるものと思います。こういう言い方をするのも悔しいですが、ここ10数年来優勝が限りなく近い位置で戦ってきた大学の場合、区間・往路・復路・総合順位が総じて優れていることが容易に想像でき、復路後半区間まで含め全体的に相関が高くなると予想できます。

機会があればその辺りの比較も試みたいと思います。

おまけ(解説をサボっているので読まなくていい)

Sponsored Link

実は相関係数の算出方法も一枚岩ではなく、扱うデータによって適切な選択をする必要があります。

過去に同様の企画を試みた方が、EXCELのCORREL関数(ピアソンの積率相関係数)で相関係数を算出しておられました。

しかし、順位のような性質を持つデータ同士の比較にこれを用いることは、厳密には推奨されません。興味のある方は「尺度水準 相関係数」でググってみて下さい。

上記を考慮して今回はスピアマンの順位相関係数(別の手法)を使いました。が、記事を書き終えた後で更に別の手法(ポリコリック相関係数)でも良いのではと気が付きました。理由は簡単には説明し辛いのですが、「算出に用いた順位の背景に、順位と別の性質を持つ区間記録が存在するため」です(※ 更に厳密に言えば、スピアマンも順位に対し四則演算を用いるので本来よろしくない…と思われます)。

これまで扱ったことの無い手法ですが、比較のために後ほど計算してみようと思います。

追記・ポリコリック相関係数

大きくは変動無いものの、復路後半区間の総合順位に対する相関が総じて均された感があります。この指標だけで見れば4-6区の重要性が頭一つ抜けた印象でしょうか。