vrijdag 9 september 2016

01 - EEGs - Aftrap

Weer een nieuwe medische Kaggle competitie! Deze keer over EEGs en het voorspellen van Epilepsie. Is er een machine learning methode te vinden om betrouwbaar Epilepsie te voorspellen?


De data bestaat uit de EEG opnames (16 elektroden) van 3 patienten gedurende een langere periode. Ze zijn ingedeeld in opnames meer dan 4 uur verwijderd van een epileptische aanval en opnames 1 uur voor een aanval. De simpele opdracht is om hiertussen onderscheid te maken.  

De eerste uitdaging is al de hoeveelheid data. Traindata is ingepakt ongeveer 29gB en de testdata ongeveer evenveel. Het zijn allemaal 'pakketjes' van 10 minuten EEG opnames van 16 elektroden met een samplerate van 400 keer per seconde. Dat levert dus 240.000 floating point getallen (400*10*60) en dat maal 16 elektrodes! Per enkele 10 min dataset!  Geen wonder dat het zulke enorme bestanden zijn geworden. Even een indruk: Patient 2 heeft 2.196 van zulke 'train-bestandjes' en 2.256 test-bestanden. Oke, daar moeten we dus iets zinnigs van maken?!




  

Geen opmerkingen:

Een reactie posten