Hij is nu 'lekker' aan het rekenen op mijn eerste uitdaging nl. om te bepalen of er wel of niet een 'masker' zou moeten zijn. Ik train het met 640 records per keer en met 360 validatie records. Elke 20 epochs shuffle ik de gehele dataset en pak dus weer een nieuw batch van 1000 records. Dat moet m.i. toch overfitting tegengaan zou ik zo zeggen.
Hoewel de loss steeds beter lijkt te worden (nu al op 0.3053) en ook de validatie loss omlaag gaat (0.4260) zie ik dat hij nog steeds maar zo'n 68% van de gevallen goed heeft. Deze waarde veranderd niet veel gek genoeg. Even nadenken wat dat betekent ...
Wat statistiek:
De traindataset bestaat uit 5635 records. Daarvan zijn er 3312 (58,78%) met een 'leeg masker' en dus 2323 = 41.2% met masker.
De testdataset bestaat uit 5508 records. 59% zou dan op 3237 lege en dus 2271 'gevulde' maskers moeten gaan uitkomen.
Hoe goed doet ie het als ik niet weet? Ik moet even denken aan een waarde die ik vorig jaar ben tegengekomen als juiste meetwaarde voor NN resultaten:
kappa = O - E / (1 - E)
Waarbij O de waargenomen (observed) betrouwbaarheid is en E de verwachte (expected) betrouwbaarheid op basis van statistiek. Deze parameter corrigeert dus het resultaat voor de statistische uitkomst.
Geen opmerkingen:
Een reactie posten