Análise de dados de Tênis utilizando WEKA - Rivalidade Roger Federer x Rafael Nadal

O tênis é um dos esportes que exigem um alto grau de precisão, e tecnicamente é um dos mais difíceis, no qual a execução de um golpe errado pode definir os rumos de uma partida como um todo. Uma das verdades universais é que o tênis é um jogo no qual ganha que erra menos, e isso é uma verdade quase que absoluta.

Dentro desse pequeno cenário, há atualmente no circuito da ATP dois gênios do esporte, que são atores de uma das maiores rivalidades da história do esporte. De um lado o maior jogador de todos os tempos Roger Federer, possuidor de nada menos do que 16 Majors e é recordista absoluto em títulos dessa natureza. Dotado de um estilo de jogo clássico, como poucos consegue unir agressividade e técnica refinada em seus jogos. Do outro lado Rafael Nadal vencedor de 10 Majors, e medalhista olímpico, rei absoluto da superfície de saibro. Tem como principal característica a extrema regularidade em seus golpes, e também por unir atributos físicos dignos de maratonistas, além de ter golpes que altíssimo volume de efeito.

Esses jogadores até hoje disputaram 26 partidas em torneios oficiais onde Nadal leva vantagem de 17-9 sobre Federer. O cenário dessa análise foi realizado através de dados de jogos da ATP entre esses dois jogadores desde 2004 até o último encontro (Londres, 2011) onde foram discretizados diversos atributos de acordo com stats da ATP como número de erros não forçados, aces, break points convertidos, entre outros.

A base de dados foi gerada consolidada em Excel, e tratada para o software de Mineração de Dados WEKA, no qual foi utilizada a técnica de Agrupamento (Clustering) no qual foi formado alguns centroides que são padrões de características nas quais tem atributos com um determinado grau de correlação.

Vamos para a prática.

Base de Dados: A base de dados foi retirada do site da ATP através dos stats de confrontos entre os dois jogadores. Os atributos foram discretizados de acordo com o seu quantitativo, ou seja não foram usadas as informações de porcentagem devido ao fato de manter maior fidelidade aos dados de cada partida, bem como não haver mistura na base do quantitativo real de aproveitamento em cada um dos jogos.

Atributos como TeveTieBreak, TimePlay e Winner foram colocados, por permitir uma melhor análise relacionada a ocorrência desses acontecimentos dentro de um jogo e elaborar um padrão não supervisionado com os dados.

Tratamento no WEKA: Após a discretização dos atributos no arquivo, realizei uma conversão para o Arff (formato padrão do WEKA), e fiz o load. Como havia dados numéricos e string, a melhor alternativa para esse dataset, bem como o objetivo era mais de uma abordagem exploratória; foi utilizado a técnica de Agrupamento (Clustering) pois trata-se de um aprendizado não supervisionado.

O algoritmo utilizado foi o SimpleKMeans que tem como característica realizar o agrupamento de acordo com um número de centroides. Neste caso, foi escolhido 10 centroides para representação, haja vista que mesmo com uma quantidade baixíssima de registros há muitas nuances entre os atributos, os quais alguns poucos são determinantes para a análise.

A medida de dissimilaridade (distância) escolhida foi a Euclidiana, devido ao fato de se obter um melhor processamento pelo Engine do WEKA, bem como se buscar a distância direta entre as métricas. Dentro de 26 ocorrências entre os dois jogadores, foi escolhido que se formasse 10 centroides, os quais apresentariam características em aproximadamente todos os eventos (Tournament) os quais já houveram confrontos.

O StringSet utilizado foi o seguinte: weka.clusterers.SimpleKMeans -N 10 -A “weka.core.EuclideanDistance -R first-last” -I 500 -S 10

Resultados: Através da análise dos resultados apresentados pelo algoritmo, chegamos algumas conclusões bem razoáveis.

1 – Nadal praticamente tem ampla superioridade ao rival no confronto direto em superfícies de Saibro, no qual em todos os clusters com ocorrência de jogos no saibro o espanhol leva ampla vantagem.

2 – Em todos os agrupamentos quem ganhou o primeiro set, geralmente foi o vencedor do confronto; fator esse que pode ser determinante pensando em termos de análise dos jogos.

3 – Uma regra bem interessante é que os jogadores tem uma maior probabilidade de conseguir aces no piso de grama, já que é este no qual os mesmos obtém a maior média de acertos; em seguida.

4 – Os torneios em que os jogadores apresentam maiores dificuldades em defesa de break points são para Roger Federer o aberto da França, e para Rafael Nadal o aberto da Inglaterra.

5 – Em apenas um cluster o padrão de confronto entre os dois não foram a final dos torneios em que disputaram.

6 – No cluster que indica uma maior frequência de confrontos (Miami) os dois tenistas apresentam as maiores médias de duplas faltas, o que pode ser explicado pelo fato do torneio de Miami ocorrer no início da temporada.

É até obvio que o modelo criado não é perfeito, e há muitas imperfeições na base; como por exemplo dois clusters outliers (Hamburgo e Roma) os quais apresentam dados muito discrepantes para qualquer tipo de análise; mas é nesse momento em que entra a figura do analista de data mining que avalia de acordo com as regras de negócio; bem como realiza modificações (transformando em dados puros, para porcentagem para equilíbrio de pesos) necessárias para uma melhor análise.

PS: Esse post foi inicialmente escrito antes do jogo da data de hoje (26 Jan 11), porém foi finalizado após a vitória do Rafael Nadal por 3 x 1; no qual quem ganhou o primeiro set foi o Roger Federer, e foi na superfície dura. O Australian Open não entrou na análise devido ao algoritmo não ter considerado o número de ocorrências do mesmo (1 até o jogo de hoje). Isso mostra que os dados puros não significam muita coisa sem o analista.

PARA LER:

ATP Head to Head – http://www.atpworldtour.com/Players/Head-To-Head.aspx?pId=F324&oId=N409

DE HOON, Michiel. Similarity Measures – http://bonsai.hgc.jp/~mdehoon/software/cluster/manual/Distance.html

IOS. Euclidean and Encludean Squared Distance

HANNEMAN, Robert. Measures of similarity and structural equivalence. - http://faculty.ucr.edu/~hanneman/nettext/C13_%20Structural_Equivalence.html

WIKIPEDIA. Federer and Nadal Rivalry – http://en.wikipedia.org/wiki/Federer%E2%80%93Nadal_rivalry

DATASET e demais arquivos: http://dl.dropbox.com/u/8266208/Tennis%20WEKA%20Project.rar