maandag 29 juni 2015

Kaggle, Kappa en 'boosted random forests'

Vanuit mijn uitgebreide lezerskring krijg ik terecht de opmerking dat het hier 'al even stil is aan het front'. Hoog tijd voor een nieuwe update. Het rondsnuffelen op 'deep-learning' sites brengt je langs de meest wilde en interessante ideeën. Een aardig initiatief is kaggle.com. Een site waar DL 'vraag en aanbod' elkaar kunnen vinden in de vorm van competities. Zo leeft er vanuit 'The US Center for Disease Control and Prevention ', (waarschijnlijk US-CDCP oid?) om met een machine learning algoritme zo goed mogelijk vast te kunnen stellen van een foto van de 'retina' (het netvlies van het oog) of iemand beginnende kenmerken van Diabetes heeft. Eerste prijs 100.000 dollar!!! Heee, dan kan een hobby nog interessant worden :-) En och, er doen nog maar 473 ervaren teams van over de hele wereld mee. Moet te doen zijn ;-)

In elk geval zeer interessant om daar eens mee te kijken want een heleboel ideeën en code wordt uitgewisseld. Een van de blogs threads gaat over 'boosted random forests'. Tja, dan maar eens kijken wat dat nou weer is. Daar kom je dan weer de 'kappa statistic' tegen. - Had ik die al eens eerder gezien? - De boosted random forests moet ik nog eens nakijken maar de kappa statistic wordt gebruikt om een eerlijker betrouwbaarheid weer te geven:

kappa = O - E / (1 - E) 

Waarbij O de waargenomen (observed) betrouwbaarheid is en E de verwachte (expected) betrouwbaarheid op basis van statistiek. Deze parameter corrigeert dus het resultaat voor de statistische uitkomst. Eigelijk wel logisch. Weer wat geleerd. Leuk toch :-)





Geen opmerkingen:

Een reactie posten