Hoewel het 'leren met letters' al behoorlijke resultaten heeft gegeven geeft het chars2vec vooral 'kennis' over gelijksoortige woorden zoasl hier:
De kennis van een word2vec lijkt meer (onderlinge) betekenis vast te leggen.
En is daarmee dus een krachtige opstap voor elk NLP algoritme. Nadeel van word2vec is, zoals eerder beschreven, van elk woord in principe door een getal wordt vertegenwoordigd en dus, stam, hoofdletter en spelfout ongevoelig is. Zie hier voor meer informatie.
Wellicht is een combinatie van die 2 een goede oplossing. Word2vec wordt in principe getraind door voor elk woord de meest waarschijnlijke omliggende woorden te voorspellen. Dat moet, denk ik, ook te doen zijn voor de chars2vec vectoren. Neem bijvoorbeeld een woord dat met chars2vec in 50 'features' wordt beschreven. Er moet een NN te trainen zijn dat de meest waarschijnlijke, omliggende 6 * 50 woordfeatures kan voorspellen. (of meer/minder). De vectoren die hierbij ontstaan zijn dan, denk ik, de chars2word2vec vectoren. Met hopelijk de voordelen van beide ineen verpakt.
Wel zullen deze vrij groot uitpakken, neem ik aan. Als in een normale word2vec vaak minimaal zo'n 100 vectoren worden getraind en we voor chars2vec uitgaan van het huidige kleinste model zijn dat al 5000 vectoren per woord. (Bert base heeft er bijvoorbeeld 768).
Voor de test eerst maar eens uitgaan van bijvoorbeeld 30 woordvectoren dus een totaal van 50*30. Het gaat er tenslotte eerst om om aan te tonen of 'chars2words2vec' kan werken. Ik denk dat ik maar eens terug ga naar mijn filmrecentie experimenten.
Geen opmerkingen:
Een reactie posten