Friday, October 11, 2019

Yeni metriklerin kullanımı ve kaynakları üzerine

1 Ekim 2019'da Twitter'da Jorj'un aşağıdaki mesajı üzerine, xG için farklı kaynakların değerlerinin neden fazlasıyla ayrışabildiğini tartışmaya başlamıştık:

Şaka gibi; ama sadece bir gün sonra, American Soccer Analysis adlı sitede Eliot McKinley tarafından  "Shots in the Dark: How Data Providers Tell Us Different Versions of What Happened" adlı bir makale yayınlandı. Veri kaynakları arasında xG değerleri arasında fark olmasının çok normal olduğunu, çünkü çoğu kaynağın daha şutun nereden çekildiği konusunda bile hemfikir olamadığını savunan makaleyi tercüme etme ihtiyacı hissettim.

Aşağıda okuyacaklarınız makalenin birebir tercümesidir. Yazarın bu yayın için izni alınmıştır. 



KARANLIKTA ŞUTLAR: VERİ SAĞLAYICILARIN BİZE NE OLDUĞU KONUSUNDA FARKLI HİKAYELER ANLATMASI ÜZERİNE / 2 EKİM 2019

Eliot McKinley (@etmckinley)

Aşağıdaki tweet, son zamanlarda futbol analizi topluluğu arasında ufak çapta bir yangın yarattı. Hatanın kaynağı belli olmasa da, bir İngiliz 2. Ligi maçında 1300 pas ve 50 şut olamayacağı ortadaydı. Bu durum, StatsBomb'dan Ted Knutson (podcast'inden [10:45'te başlıyor]), Opta'dan Tom Worville ve Ryan Bahia ile The Numbers Game'in yazarı Chris Anderson'dan yanıtların gelmesine yol açtı. Hemen hemen hepsi aynı şeyi söylüyordu: kullandığınız veriyi sorgulayın. Eğer bir problemi analiz etmek için kullandığınız veri geçerli değilse, vardığınız çözüm de geçerli olmayacaktır.

Futbol analizinde kullanılan veri hakkında ne biliyoruz? Geçmişte yapılan araştırmalar gösterdi ki, insanlar bir futbol maçında ne tip bir olayın cereyan ettiği konusunda rahatlıkla uzlaşabiliyorlar. Ama, benim bildiğim kadarıyla, bu olayların cereyan ettiği noktaların doğru ve isabetli tespit edilip edilmediği üzerine bir çalışma yok. Joe Mulberry'nin, olay verisi ile alan takip (spatial tracking) verisi arasındaki rahatsızlık verici uyuşmazlıklara değinirken belirttiği gibi, lokasyonlar arasındaki ufak farklar, xG modellerinden yola çıkarak yapılan analizlerde büyük etkiler doğurabilir. Diğer bir deyişle, verinin takip edilişindeki ufak farklar, o veri üzerine bina edilmiş modelleri büyük ölçüde etkileyebilir.  Peki, futbol verisi sağlayıcılarının veri toplama ve bildirimlerindeki farklar neler?

Yanıtın bir kısmını Twitter'da aradım. Peter McKeever'ın olağanüstü online aracını kullanarak, kullanıcıların bir gol videosunu izleyip, şutun lokasyonunu kodlamalarını istediğim bir Google anketi hazılradım. Her ne kadar veri sağlayıcı şirketlerin veriyi nasıl kodladıklarının detayları hala biraz bulanık da olsa, benim metodum şirketlerin yaptığının kaba bir versiyonu olsa gerek. Ancak (tahmin ederim ki) iyi maaş alan ve donanımlı profesyoneller yerine, burada işi internetteki rastgele, tamamen güvenilir, insanlar bedavaya yaptı.

İnsanlardan üç farklı şuta bakmalarını rica ettim. Birincisi 2018 Dünya Kupası'ndan Polonya'nın attığı bir kafa golüydü. Kolay gözükmesi sizi aldatmasın; kamera açısı ve oyuncunun sıçrayışı vuruşun tam noktasını belirlemeyi zorlaştırıyor.





İkincisi İngiltere tarafından atılmış bir direkt frikik golüydü; nispeten kolay duruyor.




Son olarak, benim lise takımım St. Charles'ın bir golünün düşük kaliteli bir videosu. Bu, üçü arasında kararlaştırılması en zor olanı ve büyük ihtimalle video görüntüsü toplanan düşük liglerin çok daha gerçekçi bir temsili.







Biraz veri temizliğinden sonra, Polonya'nın golü için 119, İngiltere'nin golü için 35 ve St. Charles'ın golü için 26 farklı ölçüm elimde kaldı. İşlenmemiş sonuçları burada görebilirsiniz. Yukarıdaki figürde görebileceğiniz gibi, anketi dolduranların şutları konumlandırdıkları yerler arasında epey farklılık vardı. Polonya'nın golü için verilen lokasyonların ortalaması ile herhangi bir kullanıcının verdiği lokasyon arasında ortalama 1.52 yarda (1.39 metre) fark vardı; bu fark İngiltere'nin golünde 1.81 yarda (1.66 metre), St. Charles'ın golünde 3.66 yarda (3.35 metre) oldu.




Daha sonra, analizin devamında oluşacak varyasyonu görebilmek adına, American Soccer Analysis gol beklentisi modelini veri setine uyguladım. Bir kez daha, sonuçlar epey varyasyon gösterdi. Polonya'nın golü için xG (gol beklentisi) değerleri 0.050'den 0.281'e kadar, İngiltere'nin golü için 0.058'den 0.094'e kadar, ve St.Charles'ın golü için 0.030'dan 0.588'e kadar olan aralıklar içindeydi.

ASA gol beklentisi modelinin en önemli faktörlerinden biri kaleye olan logaritmik uzaklık olduğu için, şut lokasyonu kodlamasındaki ufak değişiklikler xG üzerinde büyük etkiler doğurabilir. Şut kaleye yakın bir noktadan çekilmişse, bu daha da geçerli. Hem Polonya'nın hem de İngiltere'nin gollerindeki tahminlerin, ortalamalarından uzaklığı aşağı yukarı aynıydı; ancak Polonya'nın golü xG değerlerinde çok daha fazla varyasyon gösterdi, çünkü şut kaleye daha yakındı. Kısacası, 10 yardadan çekilmiş bir şutun lokasyon tespitinde yapılacak 1.5 yardalık bir hatanın tesiri, 30 yardadan çekilmiş bir şutta aynı ölçüdeki bir hatanınkinden fazla olacaktır.

St. Charles maçındaki şutun xG değerleri varyasyonu devasaydı. Videonun düşük kaliteli olması ve kötü kamera açısı şüphesiz lokasyon kodlamasını güçleştirmiştir; öyle ki golün kendi kalesine atılmış bir gol olduğunu düşünenler bile olmuş (ankete katılanlardan %32'si). Farklı açılardan ve yüksek çözünürlükte görüntü elde etme imkanı bulunan büyük liglerde bunlar göz ardı edilebilir; ama eğer biraz daha az bilinenleri gözlemliyorsanız, baktığınız rakamlar hakkında iki kere düşünseniz iyi edersiniz.


xG'deki bu farklılıkların önemli zincirleme etkileri olabilir. Sezon veya sezonlar geneline bakıldığında, zaman içinde bu hataların birbirini götüreceğini tahmin edebiliriz, ama şutların takım ve oyuncu bazında ne kadar ender olaylar olduğu göz önüne alındığında, farklar bileşik hale gelebilir. Örneğin, mevzubahis üç şut, aynı maçta tek oyuncu tarafından çekilmiş olsaydı, şutların toplam xG'leri 0.138'den 0.963'e kadar çeşitlilik gösterecekti. Sonuçlar bu kadar farklı olunca, varılacak hüküm ya da kanılar da farklı olacaktır.

Daha sonra, tanınmış dört sağlayıcının verilerini kullanarak, yukarıda bahsettiğimiz, 2018 Dünya Kupası'ndaki İngiltere ve Polonya şutlarının lokasyon kodlamasındaki farklara baktım (eğer eklemek istediği veri sağlayıcısı olan varsa bana DM atabilir.) Polonya'nın golü için veri sağlayıcıların üçü Google anketi sonuçlarına katılır gibiydi; biri epey farklı lokasyon belirtmişti. İngiltere'nin golünün lokasyonu hakkındaysa daha fazla ayrışma vardı, bazı sağlayıcılara göre şut sahanın aynı tarafından bile çekilmemişti; bu küçük olmayan bir hata.



Bu iki Dünya Kupası maçında çekilmiş şutlardan rastgele gruplara baktığımızda, genellikle dört veri sağlayıcısının şutun nereden çekildiği hakkında az-çok anlaştığını görüyoruz. Ancak, bazen veri sağlayıcılıar arasında da aykırı durumlar oldu. Ayrıca, hangi oyuncu tarafından çekildiği konusunda üzerinde anlaşılamayan iki şut bile var. Şutların sadece X koordinatlarına baktığımda (aut çizgisinden aut çizgisine), çekilen 45 şutun %30'unda veri sağlayıcıların değerleri 5 yardadan (4.6 metre) daha fazla farklılık gösteriyordu. Bu, aslında epey objektif olması gereken bir ölçüm için fazlasıyla yüksek bir fark. Eğer dünyanın en büyük spor organizasyonu olan Dünya Kupası'nın görüntülerinden gelen veride bu kadar farklılık olabiliyorsa, (anladığım kadarıyla burada yazar bazı liglerin prestijleriyle dalga geçmiş) daha düşük prestijli liglerden gelen veride olacak farklılığı tahmin edin.




Son olarak, 2018 Dünya Kupası'ndan 1,313 şut için A ve B veri sağlayıcılarının değerlerini eşleştirdim. Eşleştirilen tüm şutlara bakıldığında, B'nin şut lokasyonlarının A'nınkilerden, istatistiksel olarak önemsenir derecede daha uzakta olduğunu fark ettim. Ayrıca, iki sağlayıcının yoğunluk eğrileri de bimodaldi ve benzer şekildeydi; sadece göreceli olarak kaydırılmıştı. (B veri sağlayıcısının şutlar için belirlediği X koordinatları daha yüksek olduğu için onun eğrisi, mavi olan, sağa doğru daha çok alan kaplıyor). Bland-Altman grafiğine bakıldığında, iki veri sağlayıcısının değerlerinin ortalama farkının 1.52 yarda (1.4 metre) olduğunu, ve %95 güven bandının aralığının epey geniş olduğunu tespit etmek mümkün (+/- 1.96 standart sapma). Ayrıca, sağlayıcıların şut uzaklıkları arasındaki fark, şutun çekildiği asıl noktanın 
kaleden uzaklığından bağımsız gözüktü. Yani, kaleden daha uzakta çekilen şutlar için sağlayıcıların verdiği uzaklıklar arasındaki fark artış göstermedi. B veri sağlayıcısının, diğer her şeyin eşit olduğu varsayılırsa, her şut için A veri sağlayıcısından daha düşük xG üretmesini bekleyebilirsiniz.

Peki, hangi veri kaynağı en iyisi? Bu burada yanıtlayabileceğim bir şey değil. Veri kaynakları arasında uyuşmazlıklar olduğunu, ve bazen bunların büyük uyuşmazlıklar olduğunu söyleyebilirim. O soruya yanıt verebilmek için şunlara ihtiyacım olacaktır: 1) Çok daha fazla veri ve 2) gerçek şut lokasyonları. Birincisi zor, çünkü veri pahalı bir şey ve ulaşmanıza engel sadece para olmayabiliyor. İkincisi ise gerçek şut konumuna sahip olmadığımız için zor; ama tracking verisi bize ihtiyacımız olanın çoğunu sağlayabilir. (2018 Dünya Kupası track edilmişti, biliyorum; verisi olan varsa bana ulaşsın).

O zamana kadar ulaşabildiğimiz veriye güvenmek ve yapacağımız analizlerin potansiyel sınırlarının farkında olmak zorundayız. Toronto FC'den Devin Pleuler'in xG hakkında söylediği gibi "Boktan bir metrik, ama gerçekten iyi bir sistem." Önemli olan bir takımın şutlarının kalitesini ve miktarını sayısala çevirmek. xG bunu yapabiliyor; her ne kadar rakamlar çok net olmasa da.

Tuesday, October 8, 2019

Topa sahip olma trendleri üzerine

Spor Toto Süper Lig'de Fenerbahçe, Beşiktaş, Galatasaray ve Yeni Malatyaspor 7 hafta sonunda topa sahip olma sıralamasını domine ettiler. Sarı-lacivertliler ligin ilk iki haftası, Cimbom ise ligin üç ve dördüncü haftaları dışında üst üste galibiyet alamadı. Beşiktaş ve Yeni Malatyaspor ise henüz iki haftada 6 puan toplama başarısını gösteremedi.
Öte yandan, ligin ilk 4 sırasında oturan Alanyaspor, Sivasspor, Trabzonspor ve Konyaspor’dan yalnızca Konyaspor’un %50’nin üzerinde topa sahip olma ortalaması var. Lider Alanyaspor’un son üç müsabakasından yalnızca iki puan çıkarabilmesinde topa alışık olmadığı kadar hükmetmek zorunda kalmasının önemli payı olduğunu söyleyebiliriz.
Erol Bulut’un ekibi kayıpsız geçtiği ilk dört haftada maç başına %40’ı bile bulmayan bir ortalamayla topa sahip olmuştu. Gençlerbirliği, Sivasspor ve Beşiktaş maçlarının aynı metrik için ortalaması ise %56’yı geçti. 
Ligin başından beri öncelikle “top bende olacak” felsefesiyle oynayan üç büyüklerden WyScout verilerine göre yalnızca Fenerbahçe bunu gol beklentisinde (xG) hatrı sayılır bir farka dönüştürebilmiş. Pozitif gol beklentisi averajı olan dokuz takımdan dördü %50'nin altında topa sahip olma ortalamasıyla oynamış.



Geride kalan sezonlarda Güneş'in Beşiktaş'ı, Avcı'nın Başakşehir'i ve Terim'in Galatasaray'ı gibi topu rakibe vermeden oynamak isteyen takımlar, puan tablosunu da domine etmişti. Aşağıdaki grafik son 6 sezonda ligimizde topa sahip olma oranı ile diğer metrikler arasındaki korelasyon kuvvetinin trendini gösteriyor. İki değer arasındaki korelasyon, birinin artması durumunda diğerinin de artması ihtimalinin kuvvetini gösterir. Bir diğer değişle, iki değerin birbirinden bağımsızlığındaki düşüşü temsil eder.
Son 10 sezona gitmek isterdim; ancak erişime açık arşivlerde, topa sahip olma değerlerinde 13/14 sezonunda başlayan bir kara delik var.

17/18 sezonunda zirve yapan puan korelasyonu o sezondan beri düşüşte. Atılan gol çok daha öncesinden "benim topa sahip olma yüzdesi ile alakam yok" demeye başlamış gibi duruyor. Acaba alışık olmadığımız bir dönem mi başlıyor? Yoksa mevcut olduğumuz sezonun ortalama değerleri geride kalan kısıtlı süre itibariyle yeterli mi değil? Bunu ilerleyen haftalarda yanıtlamak belki daha sağlıklı olacaktır.

Peki beş büyük ligde vaziyet nasıl? İngiltere, Fransa, İspanya, Almanya ve İtalya'da topa sahip olma oranı ortalamasının yukarıdaki parametrelerle olan ilişkisini 10 yıl geriye giderek incelemek mümkündü; yuvarlak sayı olsun diye 10 yıl geriye gittim ben de.

Premier Lig'deki trendlere 15/16 sezonunda Ranieri'nin Leicester'ının vurduğu damgayı rahatlıkla görebiliyoruz. Hemen ardından başlayan Pep City dönemiyle gelen değişim ivmesi son iki sezonda terse dönmüş gibi duruyor.


La Liga, son 10 sezon trendlerindeki değişimlerle en çarpıcı ligdi incelediklerim arasında. İlişki kuvveti düşüşü göreceli olarak epey önce başlamış ve sürmekte. En çarpıcı değişim maç başına şut ile olan ilişki kuvvetinde.


Fransa'da ve İtalya'da bulunduğumuz sezona kadar çok değişmeden gelen bir trend varmış. Her halükarda, iki ligde de mevcut noktaya uzanan çizgiler aşağıyı gösteriyor.


Bunu mevzubahis sürecin büyük bölümünde Paris St.Germain ve Juventus'un rakipsiz olması ile bir nebze açıklamak mümkün olabilir belki. Diğer ligler kadar belirgin olmasa da bu liglerde de topa sahip olma oranını yüksek tutmanın faydası azalmakta.



Almanya'daki durum 16/17 sezonuna kadar net olarak artan korelasyonlar göstermesi bakımından diğer liglerden ayrılıyor.


Guardiola'nın Bayern'deki döneminin Almanya ligi trendine neredeyse hiç etki etmediğini görmek enteresan oldu. Pep'in ayrılışının ardından özellikle maç başına şut korelasyonu net olarak düşmüş; ve diğer liglerde olduğu gibi düşmeye devam ediyor.

Avrupa'nın 5 büyük liginin son 10 yıl trendleri, Türkiye'de anormal bir durum yaşamadığımızı bize anlatıyor. Güncel bir örnek ile sonlandırayım. Şampiyonlar Ligi'nde bu sezon oynanan 32 maçta, 10 kere topa daha az sahip olan takım, 13 kere topa daha fazla sahip olan takım kazandı. 8 maçta topa daha fazla sahip olmak neticeye etki etmedi. (Galatasaray-Paris St. Germain maçında topa sahip olma oranları eşit çıkmış.)

Guardiola'nın Barcelona'sı ile zirve yapan, şimdiki Manchester City'si ile o zirveyi zorlamaya başlayan tiki-taka ve türevlerini uygulamak, yüksek sayıda teknik kapasiteli oyuncu gerektirdiği için, pragmatizmden sınıfta kalmış ve popülerliğini yitirmiş olabilir mi? Günümüzde topu tehlikeli bir yerde kaptırmamak, gol için yüklenmek kadar önemli hale gelmiş olabilir mi?

İzlediğim maçlarda tezahür edenleri bu çerçeveden değerlendirince, futbol topunu Yüzüklerin Efendisi üçlemesinde Frodo’nun Mordor’a götürmek zorunda olduğu yüzüğe giderek daha çok benzetiyorum. Üst düzey lig müsabakalarında artık futbol topu da, sahibi onu kullanmaya ehil değilse veya onu doğru yere ulaştıramıyorsa, fayda sağlamıyor; bilakis taşıyanını tüketiyor ve zaaflarını açığa vuruyor. 

NOT: Topa sahip olma oranının xG veya xG farkı ile olan korelasyonunu incelemeyi çok isterdim; ancak erişebildiğim veri kısıtlı. Belki bunu yapmış, yapacak, ya da yapmakta olan birileri vardır. Kapsamı epey dar olan bu araştırmamdan "topa sahip olmanın faydası azalıyor" sonucuna varmak kesinlikle çok sağlıklı olmayacaktır.