donderdag 14 februari 2019

Matters that matter

Een korte weergave van onderhanden onderzoek om voor documenten automatisch een juiste 'folder' voor te stellen om in op te bergen.
We hebben daartoe een selectie van 242.543 documenten beschikbaar met een totale, vermoedelijk nog met leestekens ed vervuilde, 'woordenlijst' van 394.384 woorden.
Deze moeten in 1919 verschillende folders kunnen worden ondergebracht.
Een stevige uitdaging die al snel tot allerlei memory fouten leidt!

Hier een aantal resultaten van wat verkorte testen:




All words 30K docs


30K docs word frequency > 4
30K docs word frequency > 9
Onehot(original) word freq > 20 / 10K docs
Voorlopige conclusie: Het maakt niet veel uit op het resultaat om woorden met een lage frequentie eruit te halen. Het oorspronkelijke model met een tevoren geprepareerde OneHot  lijkt iets beter te performen. 
 

Geen opmerkingen:

Een reactie posten