We hebben daartoe een selectie van 242.543 documenten beschikbaar met een totale, vermoedelijk nog met leestekens ed vervuilde, 'woordenlijst' van 394.384 woorden.
Deze moeten in 1919 verschillende folders kunnen worden ondergebracht.
Een stevige uitdaging die al snel tot allerlei memory fouten leidt!
Hier een aantal resultaten van wat verkorte testen:
All words 30K docs |
30K docs word frequency > 4 |
30K docs word frequency > 9 |
Onehot(original) word freq > 20 / 10K docs |
Geen opmerkingen:
Een reactie posten