Zeker ook omdat het 'Titanic algoritme' zeer snel is is het leuk om ermee te experimenteren. Er waren gegevens waar ik eerder niets mee heb gedaan omdat ze niet relevant lijken. 'Port of embarkation' ? Zal toch geen invloed hebben op de diepte van je bestemming :-) ? Cabin misschien wel maar de data is zeer onregelmatig. Wellicht geeft de 1e letter een indicatie? De 'fare'? Hoeveel je voor deze noodlottige reis hebt betaald? Zou van invloed kunnen zijn. De data is echter zeer gevarieerd. Misschien hebben ze een aap aan de kassa gehad? In elk geval de extreme bedragen maar 'wegpoetsen'.
Meer data blijkt geen beter resultaten te geven. Sterker nog, de score holt achteruit! Dan maar eens kijken of minder data helpt? Hier blijkt mijn keuze om een 'irrelevante kolommen set' (tekst_cols) te definieren zeer behulpzaam. Inderdaad: minder kolommen --> hogere scores. Uiteindelijk blijken alleen
sex, age, sibsp (#broers en zusters of partners) en parch (# ouders/kinderen)
een correlatie te hebben met de overlevingskans. Score 85,7%
De klasse niet! Dat leek de film 'The Titanic' wel anders aan te geven!
Geen opmerkingen:
Een reactie posten