zondag 10 april 2016

05 - Santander Customer Satisfaction - Verdere feature selectie

De grote hoeveelheid features maakt het wellicht moeilijk voor een NN om tot een goede voorspelling te komen. Ik vindt een voorbeeld om de hoeveelheid features terug te bernegen.
Die pas ik toe. Daarin worden het aantal features teruggebracht tot 36:

  • de constante kolommen verwijderd. (std = 0)
  • de dubbele kolommen verwijderd
  • de niet samenhangende kolommen verwijderd
In mijn programma worden er daardoor 357 kolommen overgeslagen. 


Columns:  39 Number off class columns: 14 Number of classcols total: 357 Number of skipped columns: 0 Number of lin columns: 25


Helaas leidt het nog niet tot een hogere Kaggle score. Ondanks dat mijn evaluatiewaarde naar 0.275 zakt. 




Geen opmerkingen:

Een reactie posten