De trainingsset is 76020 klanten groot maal (dus) 369 kentallen. De testset is van vergelijkbare grootte. (75818) Het zijn dus stevige bestandjes om te verwerken.
Ook bij dit soort competities gaat een groot deel van het werk in de data-voorbereiding zitten. Of te wel het geschikt maken van de data voor gebruik in een of ander leer algoritmen. Aanbevolen is dan om :
- Classificatie gegevens een eigen 'kolom' per klasse te geven. bijvoorbeeld 1 kolom voor man (yes/no) en een voor vrouw (yes/no)
- Ook alfanumerieke waarden zijn vaak classificatie gegevens. Bij deze data is echter alles numeriek.
- De kolommen onderling in balans te brengen zodat ze vergelijkbaar zijn.
- Daarmee samenhangend de waarden binnen een bepaalde range, bijvoorbeeld 0 en 1 te brengen.
- Daarnaast bestaat er zoiets als 'dimensionality reduction' oftewel het terugbrengen van het aantal kolommen naar alleen die vermoedelijk relevant zijn.
Lekker aan de slag voor tevreden klanten! :-)
Geen opmerkingen:
Een reactie posten