maandag 6 februari 2017

01- Lungs - Nieuwe kaggle competitie: Data Science Bowl 2017 Can you improve lung cancer detection?

Druk druk druk ....
De nieuwe kaggle competitie https://www.kaggle.com/c/data-science-bowl-2017  houdt mij aardig bezig. Eerst een jottabyte aan gegevens downloaden .... Oke meer in de richting van 150gB maar toch ... Heel veel data voor een 1595 patienten waarvan weer slechts een deel,  1397 gelabeld zijn. (En dus 598 moeten worden 'geraden').

Gelukkig had ik wat ervaring met het dicom-medisch data type en zijn er veel tutorials bij geschreven. oa:

https://www.kaggle.com/gzuidhof/data-science-bowl-2017/full-preprocessing-tutorial/discussion
https://www.kaggle.com/ankasor/data-science-bowl-2017/improved-lung-segmentation-using-watershed/discussion 

Dat kan aardige plaatjes opleveren:

Maar het vraagt wel enorm veel datapreprocessingstijd. Een viertal dagen om alle data naar een beter bruikbare vorm om te zetten. Hierin wordt alles behalve de longen zoveel mogelijk weggefilterd. Tevens wordt alles omgezet naar zogenaamde Hu waarden. (Hounsfield Unit (HU)). Nu maar hopen dat dat goed is gegaan. Het lijkt er wel op. Deze is bijvoorbeeld redelijk:

De Hu waarden zijn : 

Waarom staan daar geen kankercellen bij ? :-) Gaan we uitzoeken.

Geen opmerkingen:

Een reactie posten