Friday, October 11, 2019

Yeni metriklerin kullanımı ve kaynakları üzerine

1 Ekim 2019'da Twitter'da Jorj'un aşağıdaki mesajı üzerine, xG için farklı kaynakların değerlerinin neden fazlasıyla ayrışabildiğini tartışmaya başlamıştık:

Şaka gibi; ama sadece bir gün sonra, American Soccer Analysis adlı sitede Eliot McKinley tarafından  "Shots in the Dark: How Data Providers Tell Us Different Versions of What Happened" adlı bir makale yayınlandı. Veri kaynakları arasında xG değerleri arasında fark olmasının çok normal olduğunu, çünkü çoğu kaynağın daha şutun nereden çekildiği konusunda bile hemfikir olamadığını savunan makaleyi tercüme etme ihtiyacı hissettim.

Aşağıda okuyacaklarınız makalenin birebir tercümesidir. Yazarın bu yayın için izni alınmıştır. 



KARANLIKTA ŞUTLAR: VERİ SAĞLAYICILARIN BİZE NE OLDUĞU KONUSUNDA FARKLI HİKAYELER ANLATMASI ÜZERİNE / 2 EKİM 2019

Eliot McKinley (@etmckinley)

Aşağıdaki tweet, son zamanlarda futbol analizi topluluğu arasında ufak çapta bir yangın yarattı. Hatanın kaynağı belli olmasa da, bir İngiliz 2. Ligi maçında 1300 pas ve 50 şut olamayacağı ortadaydı. Bu durum, StatsBomb'dan Ted Knutson (podcast'inden [10:45'te başlıyor]), Opta'dan Tom Worville ve Ryan Bahia ile The Numbers Game'in yazarı Chris Anderson'dan yanıtların gelmesine yol açtı. Hemen hemen hepsi aynı şeyi söylüyordu: kullandığınız veriyi sorgulayın. Eğer bir problemi analiz etmek için kullandığınız veri geçerli değilse, vardığınız çözüm de geçerli olmayacaktır.

Futbol analizinde kullanılan veri hakkında ne biliyoruz? Geçmişte yapılan araştırmalar gösterdi ki, insanlar bir futbol maçında ne tip bir olayın cereyan ettiği konusunda rahatlıkla uzlaşabiliyorlar. Ama, benim bildiğim kadarıyla, bu olayların cereyan ettiği noktaların doğru ve isabetli tespit edilip edilmediği üzerine bir çalışma yok. Joe Mulberry'nin, olay verisi ile alan takip (spatial tracking) verisi arasındaki rahatsızlık verici uyuşmazlıklara değinirken belirttiği gibi, lokasyonlar arasındaki ufak farklar, xG modellerinden yola çıkarak yapılan analizlerde büyük etkiler doğurabilir. Diğer bir deyişle, verinin takip edilişindeki ufak farklar, o veri üzerine bina edilmiş modelleri büyük ölçüde etkileyebilir.  Peki, futbol verisi sağlayıcılarının veri toplama ve bildirimlerindeki farklar neler?

Yanıtın bir kısmını Twitter'da aradım. Peter McKeever'ın olağanüstü online aracını kullanarak, kullanıcıların bir gol videosunu izleyip, şutun lokasyonunu kodlamalarını istediğim bir Google anketi hazılradım. Her ne kadar veri sağlayıcı şirketlerin veriyi nasıl kodladıklarının detayları hala biraz bulanık da olsa, benim metodum şirketlerin yaptığının kaba bir versiyonu olsa gerek. Ancak (tahmin ederim ki) iyi maaş alan ve donanımlı profesyoneller yerine, burada işi internetteki rastgele, tamamen güvenilir, insanlar bedavaya yaptı.

İnsanlardan üç farklı şuta bakmalarını rica ettim. Birincisi 2018 Dünya Kupası'ndan Polonya'nın attığı bir kafa golüydü. Kolay gözükmesi sizi aldatmasın; kamera açısı ve oyuncunun sıçrayışı vuruşun tam noktasını belirlemeyi zorlaştırıyor.





İkincisi İngiltere tarafından atılmış bir direkt frikik golüydü; nispeten kolay duruyor.




Son olarak, benim lise takımım St. Charles'ın bir golünün düşük kaliteli bir videosu. Bu, üçü arasında kararlaştırılması en zor olanı ve büyük ihtimalle video görüntüsü toplanan düşük liglerin çok daha gerçekçi bir temsili.







Biraz veri temizliğinden sonra, Polonya'nın golü için 119, İngiltere'nin golü için 35 ve St. Charles'ın golü için 26 farklı ölçüm elimde kaldı. İşlenmemiş sonuçları burada görebilirsiniz. Yukarıdaki figürde görebileceğiniz gibi, anketi dolduranların şutları konumlandırdıkları yerler arasında epey farklılık vardı. Polonya'nın golü için verilen lokasyonların ortalaması ile herhangi bir kullanıcının verdiği lokasyon arasında ortalama 1.52 yarda (1.39 metre) fark vardı; bu fark İngiltere'nin golünde 1.81 yarda (1.66 metre), St. Charles'ın golünde 3.66 yarda (3.35 metre) oldu.




Daha sonra, analizin devamında oluşacak varyasyonu görebilmek adına, American Soccer Analysis gol beklentisi modelini veri setine uyguladım. Bir kez daha, sonuçlar epey varyasyon gösterdi. Polonya'nın golü için xG (gol beklentisi) değerleri 0.050'den 0.281'e kadar, İngiltere'nin golü için 0.058'den 0.094'e kadar, ve St.Charles'ın golü için 0.030'dan 0.588'e kadar olan aralıklar içindeydi.

ASA gol beklentisi modelinin en önemli faktörlerinden biri kaleye olan logaritmik uzaklık olduğu için, şut lokasyonu kodlamasındaki ufak değişiklikler xG üzerinde büyük etkiler doğurabilir. Şut kaleye yakın bir noktadan çekilmişse, bu daha da geçerli. Hem Polonya'nın hem de İngiltere'nin gollerindeki tahminlerin, ortalamalarından uzaklığı aşağı yukarı aynıydı; ancak Polonya'nın golü xG değerlerinde çok daha fazla varyasyon gösterdi, çünkü şut kaleye daha yakındı. Kısacası, 10 yardadan çekilmiş bir şutun lokasyon tespitinde yapılacak 1.5 yardalık bir hatanın tesiri, 30 yardadan çekilmiş bir şutta aynı ölçüdeki bir hatanınkinden fazla olacaktır.

St. Charles maçındaki şutun xG değerleri varyasyonu devasaydı. Videonun düşük kaliteli olması ve kötü kamera açısı şüphesiz lokasyon kodlamasını güçleştirmiştir; öyle ki golün kendi kalesine atılmış bir gol olduğunu düşünenler bile olmuş (ankete katılanlardan %32'si). Farklı açılardan ve yüksek çözünürlükte görüntü elde etme imkanı bulunan büyük liglerde bunlar göz ardı edilebilir; ama eğer biraz daha az bilinenleri gözlemliyorsanız, baktığınız rakamlar hakkında iki kere düşünseniz iyi edersiniz.


xG'deki bu farklılıkların önemli zincirleme etkileri olabilir. Sezon veya sezonlar geneline bakıldığında, zaman içinde bu hataların birbirini götüreceğini tahmin edebiliriz, ama şutların takım ve oyuncu bazında ne kadar ender olaylar olduğu göz önüne alındığında, farklar bileşik hale gelebilir. Örneğin, mevzubahis üç şut, aynı maçta tek oyuncu tarafından çekilmiş olsaydı, şutların toplam xG'leri 0.138'den 0.963'e kadar çeşitlilik gösterecekti. Sonuçlar bu kadar farklı olunca, varılacak hüküm ya da kanılar da farklı olacaktır.

Daha sonra, tanınmış dört sağlayıcının verilerini kullanarak, yukarıda bahsettiğimiz, 2018 Dünya Kupası'ndaki İngiltere ve Polonya şutlarının lokasyon kodlamasındaki farklara baktım (eğer eklemek istediği veri sağlayıcısı olan varsa bana DM atabilir.) Polonya'nın golü için veri sağlayıcıların üçü Google anketi sonuçlarına katılır gibiydi; biri epey farklı lokasyon belirtmişti. İngiltere'nin golünün lokasyonu hakkındaysa daha fazla ayrışma vardı, bazı sağlayıcılara göre şut sahanın aynı tarafından bile çekilmemişti; bu küçük olmayan bir hata.



Bu iki Dünya Kupası maçında çekilmiş şutlardan rastgele gruplara baktığımızda, genellikle dört veri sağlayıcısının şutun nereden çekildiği hakkında az-çok anlaştığını görüyoruz. Ancak, bazen veri sağlayıcılıar arasında da aykırı durumlar oldu. Ayrıca, hangi oyuncu tarafından çekildiği konusunda üzerinde anlaşılamayan iki şut bile var. Şutların sadece X koordinatlarına baktığımda (aut çizgisinden aut çizgisine), çekilen 45 şutun %30'unda veri sağlayıcıların değerleri 5 yardadan (4.6 metre) daha fazla farklılık gösteriyordu. Bu, aslında epey objektif olması gereken bir ölçüm için fazlasıyla yüksek bir fark. Eğer dünyanın en büyük spor organizasyonu olan Dünya Kupası'nın görüntülerinden gelen veride bu kadar farklılık olabiliyorsa, (anladığım kadarıyla burada yazar bazı liglerin prestijleriyle dalga geçmiş) daha düşük prestijli liglerden gelen veride olacak farklılığı tahmin edin.




Son olarak, 2018 Dünya Kupası'ndan 1,313 şut için A ve B veri sağlayıcılarının değerlerini eşleştirdim. Eşleştirilen tüm şutlara bakıldığında, B'nin şut lokasyonlarının A'nınkilerden, istatistiksel olarak önemsenir derecede daha uzakta olduğunu fark ettim. Ayrıca, iki sağlayıcının yoğunluk eğrileri de bimodaldi ve benzer şekildeydi; sadece göreceli olarak kaydırılmıştı. (B veri sağlayıcısının şutlar için belirlediği X koordinatları daha yüksek olduğu için onun eğrisi, mavi olan, sağa doğru daha çok alan kaplıyor). Bland-Altman grafiğine bakıldığında, iki veri sağlayıcısının değerlerinin ortalama farkının 1.52 yarda (1.4 metre) olduğunu, ve %95 güven bandının aralığının epey geniş olduğunu tespit etmek mümkün (+/- 1.96 standart sapma). Ayrıca, sağlayıcıların şut uzaklıkları arasındaki fark, şutun çekildiği asıl noktanın 
kaleden uzaklığından bağımsız gözüktü. Yani, kaleden daha uzakta çekilen şutlar için sağlayıcıların verdiği uzaklıklar arasındaki fark artış göstermedi. B veri sağlayıcısının, diğer her şeyin eşit olduğu varsayılırsa, her şut için A veri sağlayıcısından daha düşük xG üretmesini bekleyebilirsiniz.

Peki, hangi veri kaynağı en iyisi? Bu burada yanıtlayabileceğim bir şey değil. Veri kaynakları arasında uyuşmazlıklar olduğunu, ve bazen bunların büyük uyuşmazlıklar olduğunu söyleyebilirim. O soruya yanıt verebilmek için şunlara ihtiyacım olacaktır: 1) Çok daha fazla veri ve 2) gerçek şut lokasyonları. Birincisi zor, çünkü veri pahalı bir şey ve ulaşmanıza engel sadece para olmayabiliyor. İkincisi ise gerçek şut konumuna sahip olmadığımız için zor; ama tracking verisi bize ihtiyacımız olanın çoğunu sağlayabilir. (2018 Dünya Kupası track edilmişti, biliyorum; verisi olan varsa bana ulaşsın).

O zamana kadar ulaşabildiğimiz veriye güvenmek ve yapacağımız analizlerin potansiyel sınırlarının farkında olmak zorundayız. Toronto FC'den Devin Pleuler'in xG hakkında söylediği gibi "Boktan bir metrik, ama gerçekten iyi bir sistem." Önemli olan bir takımın şutlarının kalitesini ve miktarını sayısala çevirmek. xG bunu yapabiliyor; her ne kadar rakamlar çok net olmasa da.

No comments:

Post a Comment