Binnen Team 4 Mijl zijn er veel atleten die sport en studie combineren. Sommige atleten doen zelfs onderzoek naar de sport binnen hun studie. In deze column zoomen we in op een serie sportgerelateerde onderzoeken van atleten binnen Team 4 Mijl. Thijmen Kupers heeft tijdens zijn master Human Machine Communicatie gekeken of bepaalde woorden in het logboek een voorspeller kunnen zijn voor een blessure.
Tijdens het vak “data science” behandelden we verschillende technieken om data die niet direct in getallen waren te vangen toch te kunnen analyseren met computer. Eigenlijk gaat het om het omzetten van kwalitatieve data (woorden en zinnen) naar kwantitatieve data (getallen). Het was voor mij een kleine stap om deze technieken te koppelen aan het logboek wat ik al vele jaren invul. In een logboek schrijf je namelijk niet alleen op hoe hard of hoe ver je hebt gelopen, maar ook hoe je je die dag voelde rondom de training, dus tekst. De vraag die in mijn hoofd ontstond was: “Kan ik mijn eigen logboek teksten analyseren en daarmee voorspellen of ik geblesseerd raak?” Deze vraag heb ik proberen te beantwoorden in samenwerking met mijn begeleider en voormalig coach van Team 4 Mijl, Fokie Cnossen.
Voor mijn onderzoek heb ik logboek teksten van verschillende atleten gebruikt en door middel van het slim gebruik maken van een machine learning algoritme een automatische classificatie kunnen maken. Het algoritme gebruikte een “bag-of-words” methode, wat betekent dat het niet uitmaakt in welke volgorde de woorden staan. Het algoritme genaamd “TF-IDF” zoekt naar belangrijke woorden in een tekst die het meest “voorspellend” zijn voor een bepaald tekstdocument. Zo’n document kan een boek zijn, waardoor bijvoorbeeld de naam van een van de hoofdpersoon wordt gekozen als meest voorspellende woord om te bepalen dat een stuk tekst uit dat boek komt of niet. Zo’n document kan dus ook een logboek tekst zijn.
Als je documenten kunt maken waarin alleen tekst staat van wanneer een atleet geblesseerd is en wanneer iemand nog gewoon gezond en fit is kan je die gebruiken om “voorspellende” woorden te vinden die kunnen bepalen of een tekst eerder bij en gezonde atleet hoort, of bij een geblesseerd atleet. Voor een echte voorspelling moet je echter ook een derde soort document maken waarin alleen de tekst staat van het moment waarbij atleten nog niet geblesseerd zijn, maar het wel binnenkort worden. Deze documenten werden door de atleten gemaakt door uit eigen logboeken de teksten te labelen als “fit”, “vlak voor blessure” of “geblesseerd”.
Na het trainen van de machine learning modellen op de gelabelde logboek teksten kon ik voor vrouwen in 85% van de gevallen een logboek tekst het juiste label voorspellen. Bij mannen was dit lager, namelijk 70%. Een van de mogelijk redenen die ik heb uitgesloten is dat mannen minder tekst gebruiken in hun logboek. Wat wel een mogelijke factor kan zijn is dat mannen met meer dezelfde woorden hun logboek invullen, wat kan betekenen dat de verschillen kleiner zijn tussen teksten van geblesseerde en gezonde mannelijke atleten.
Het leuke van dit onderzoek was dat ik het ook in de praktijk heb kunnen testen. Het algoritme heb ik in een mobiele applicatie gezet en deze staat op mijn eigen telefoon. In theorie zou het goed moeten werken, maar in de praktijk blijkt de theorie toch lastiger te zijn. Misschien kan het ooit gebruikt worden door andere atleten, maar voor die tijd zal er nog wat gesleuteld moeten worden aan het algoritme.
Omslagfoto: Ejam Maail