dinsdag 2 oktober 2018

Tagwords 3 - Zoeken naar de juiste vraagstelling?

Er is iets vreemd aan de hand in mijn nn - model. Ik heb nu het maximale aantal tagwords op 3 gezet. Dat lijkt het ook erg goed te doen. Naar de 90% accuracy!!!

Zelfs de evaluatie score is veel belovend:


Evaluation score  ['21538890.138075314', '0.7350069735838279']

Maar de resultaten bij de terugvertaling lijken nergens op:


Original subject :  use cisco inc0535624user  
Generated subject:  objet  



Original subject :  approvals backup  
Generated subject:  raakt ademicjournal 12 



Original subject :  approvals backup  
Generated subject:  henriette  



Original subject :  mailbo  
Generated subject:  lasting 5250 9001000 


Er zit ook hier en daar een rare afbreking in de originele subject woorden zoals 'mailbo'. Die kan ik ook nog niet verklaren. In de oorspronkelijke mail zit echt het woord 'mailbox'.

Een meer algemene vraagstelling is of er zo-ie-zo een logica in de data zit die de gevraagde uitkomsten kan afleiden. Het is misschien nog mogelijk de 3 belangrijkste woorden te selecteren uit een tekst maar wat bepaald dan de volgorde? En al zou er al iets van een 'belangrijkheids volgorde' zijn bied ik die met de huidige methode niet aan als voorbeelden. Ik neem momenteel gewoon de relevante woorden uit het onderwerp.  (niet stopwoorden / onderdeel van de hoofdtekst / in volgorde van het oorspronkelijke subject).

Hoe bepaal je belangrijk?
Wellicht kan een kunstmatige volgorde hier uitkomst bieden. Bijvoorbeeld sortering op alfabet. Dat is iets wat ik iig wel in de indexen kan meegeven door oplopende nummers.


Geen opmerkingen:

Een reactie posten