zaterdag 6 oktober 2018

Tagwords 4 - De brui

Het lijkt helaas maar niet te lukken om een fatsoenlijke uitkomst te forceren. Na het opschonen van de tekst door alleen bestaande woorden te kiezen blijven er weinig woorden over uit het onderwerp die zinvol getraind kunnen worden. Ik heb daartoe een Engelse en een Nederlandse woordenlijst gedownload. Dat haalt iig veel van de 'ruis' eruit.

Het alfabetisch plaatsen van woorden lijkt 'die' wel door te hebben maar heeft ook onvoldoende effect. Het programma vindt maar zelden woorden die in de tekst staan laat staan woorden die overeenkomen met woorden uit het onderwerp.



Evaluation score  ['7908327.706076618', '0.5297225896401954']


Voorbeelden van output:

message :  88
all finally im team was able to find cause of below issue indeed it was caused by incorrect using apostrophe it systems always struggling with that it is removed and later today ad groups will be fed and we expect by tomorrow ingrid to be able to connect via cisco vpn i will inform her met vriendelijke groeten kind regards mit bien vous jan project manager infrastructure delivery center it global services building tc ad drachten netherlands mob e mail jan philips com jan philips com out of office information from snijders rob jan sent dinsdag juni to jan jan philips com vos john john vos philips com functional account philips com dirk willem dirk willem philips com cc nico nico philips com jan jan philips com van van philips com subject re inc user unable to use cisco urgent sorry  
Original subject :  cisco unable urgent  
Generated subject:  1012 beknopte 3311 esker 4271 gre  
----------------------------------------------------------------------------------------------------
message :  89
hallo we willen een backup voor de processen waarin erik een rol speelt het idee is om ondermeer het invoice approval proces vanuit een functioneel email account te gaan uitvoeren dat werkt uiteraard niet voor de sap approvals zelf weet jij hoe of het mogelijk is om een e persoon te voor het goedkeuren van wat moet daarvoor worden alvast mijn dank kind regards met vriendelijke groeten dirk willem it business partner ph hs markets benelux it markets benelux philips it building vb g jg eindhoven tel email dirk willem philips com dirk willem philips com join us on philips community philips com topics connect with philips protection outlook com f com data c c c c c d reserved protection outlook com f  
Original subject :  approvals backup backup  
Generated subject:  1346 bouwt 2221 correcting 2421 dead  


Zoals aangegeven is het onverstandig om ervan uit te gaan dat een nn wel een logica vindt die een mens er niet uit zou kunnen halen. Dat lijkt hier het geval te zijn. Ik denk dat ik deze uitdaging dus maar even on hold zet ...


dinsdag 2 oktober 2018

Tagwords 3 - Zoeken naar de juiste vraagstelling?

Er is iets vreemd aan de hand in mijn nn - model. Ik heb nu het maximale aantal tagwords op 3 gezet. Dat lijkt het ook erg goed te doen. Naar de 90% accuracy!!!

Zelfs de evaluatie score is veel belovend:


Evaluation score  ['21538890.138075314', '0.7350069735838279']

Maar de resultaten bij de terugvertaling lijken nergens op:


Original subject :  use cisco inc0535624user  
Generated subject:  objet  



Original subject :  approvals backup  
Generated subject:  raakt ademicjournal 12 



Original subject :  approvals backup  
Generated subject:  henriette  



Original subject :  mailbo  
Generated subject:  lasting 5250 9001000 


Er zit ook hier en daar een rare afbreking in de originele subject woorden zoals 'mailbo'. Die kan ik ook nog niet verklaren. In de oorspronkelijke mail zit echt het woord 'mailbox'.

Een meer algemene vraagstelling is of er zo-ie-zo een logica in de data zit die de gevraagde uitkomsten kan afleiden. Het is misschien nog mogelijk de 3 belangrijkste woorden te selecteren uit een tekst maar wat bepaald dan de volgorde? En al zou er al iets van een 'belangrijkheids volgorde' zijn bied ik die met de huidige methode niet aan als voorbeelden. Ik neem momenteel gewoon de relevante woorden uit het onderwerp.  (niet stopwoorden / onderdeel van de hoofdtekst / in volgorde van het oorspronkelijke subject).

Hoe bepaal je belangrijk?
Wellicht kan een kunstmatige volgorde hier uitkomst bieden. Bijvoorbeeld sortering op alfabet. Dat is iets wat ik iig wel in de indexen kan meegeven door oplopende nummers.