Beetje bij beetje begin ik te begrijpen wat er nou gewenst is in de wedstrijd. (Statistiek is wat weggezonken :-)
De CRPS is de uiteindelijke waarde die bepaald hoe goed de voorspelling is van de gehele validatieset.
In de dataset moet er dus per volume eenheid van n= 0 tot maximaal 599 ml, apart voor systotisch en diastolisch volume, aangeven worden wat de cumulatieve kans (P) is dat het werkelijk volume kleiner of gelijk is aan het de betreffende volume eenheid (n).
De CRPS wordt vervolgens berekend door van deze kansen (P) het getal 1 af te trekken als volume (n) min het werkelijk volume V groter dan 0 is en anders nul ervan af te trekken. De hier genoemde 'Heavyside step function'. Dit verschil wordt gekwadrateerd bij elkaar opgeteld. Dat doen we dus voor alle aangeleverde validatie waarden (200 x systolisch en 200 x diastolisch = 400 (N)) die we ook weer bij elkaar optellen. Daarna delen we het geheel door 600 * N zodat er weer een mooi getal van tussen de 0 en de 1 uitkomt. Hoe lager hoe beter. Momenteel, 29 dec, staat de beste hiermee op 0.025617. Wow! Lijkt mij een knappe prestatie. Terwijl ik zelfs nog worstel met het begrijpen van de manier van aanleveren :-) (Ok, wel wat voorbereidend werk gedaan)
Grappig is dat er al een heel aardige score werd bereikt door alleen uit te gaan van de verdeling van de aangeleverde test gegeven. Zonder naar de afbeeldingen of meta data te kijken!
Door alle waarden tussen de meetwaarde en 600 ml steeds met 1 op te hogen en vervolgens door het aantal meetwaarden te delen krijg je al een CRPS score van 0.48785
Dit is vaak al veel beter dan de, waarschijnlijk met veel moeite, gevonden waarden van andere deelnemers.
Geen opmerkingen:
Een reactie posten