zondag 3 april 2016

01 - Santander Customer Satisfaction

Na de 'titanen-competitie',  om de ejection fraction van de linker ventrikel (kamer) te bepalen aan de hand van mri-beelden, nu een competitie die wat traditioneler lijkt wat structuur betreft. De Santander Customer Satisfaction. Gewoon een heleboel klanten waarvan ongeveer 4% uiteindelijk ontevreden is. Het gaat er dus om om te voorspellen of een klant, gedefinieerd in 369 kentallen, een tevreden klant zal zijn of niet. Het bijzondere is dat het van de meeste kentallen onbekend is wat ze voorstellen. Ze worden aangeduid met raadselachtige namen zoals "imp_op_var39_comer_ult1".



De trainingsset is 76020 klanten groot maal (dus) 369 kentallen. De testset is van vergelijkbare grootte. (75818) Het zijn dus stevige bestandjes om te verwerken.

Ook bij dit soort competities gaat een groot deel van het werk in de data-voorbereiding zitten. Of te wel het geschikt maken van de data voor gebruik in een of ander leer algoritmen. Aanbevolen is dan om :

  • Classificatie gegevens een eigen 'kolom' per klasse te geven. bijvoorbeeld 1 kolom voor man (yes/no) en een voor vrouw (yes/no)
  • Ook alfanumerieke waarden zijn vaak classificatie gegevens. Bij deze data is echter alles numeriek.
  • De kolommen onderling in balans te brengen zodat ze vergelijkbaar zijn.
  • Daarmee samenhangend de waarden binnen een bepaalde range, bijvoorbeeld 0 en 1 te brengen.
  • Daarnaast bestaat er zoiets als 'dimensionality reduction' oftewel het terugbrengen van het aantal kolommen naar alleen die vermoedelijk relevant zijn. 

Lekker aan de slag voor tevreden klanten! :-)


Geen opmerkingen:

Een reactie posten