dinsdag 24 maart 2020

NLP Document / semantic text similarity - module test

Na het avontuur met letter - leren, waar ik vast nog eens op terug kom, nu even weer iets anders. Ik heb al eens eerder geexperimenteerd met documentvergelijking. Dat lijkt mij een zinvolle toepassing, Ook bijvoorbeeld in het checken in een 'incident registratie systeem' of een bepaald probleem al eens eerder is gemeld. Ik zoek of er al eens iets met Bert is gedaan (uiteraard) en vind deze site.

Het installeren met pip van "semantic-text-similarity" gaat goed. Evenals de import. Maar het 'activeren' van het model geeft, na het initieel juist downloaden dan de model-date, een error. Op een of andere manier zijn er onvoldoende rechten op de plek waar het model 'ge-unzipped' moet worden. Met wat aanpassingen in de code weet ik dat te omzeilen. Hierdoor krijg ik gelijk de mogelijkheid, denk ik, om andere Bert modellen uit te proberen. Maar eerst maar eens deze.  




Ik gebruik een selectie van incident teksten uit ServiceNow. Ik wil nu ook de uitgebreidere omschrijvingen meenemen maar zie tot mijn verbazing dat het Snow rapport ze wel selecteerd maar dat ze in de download niet worden meegenomen in de huidige Snow versie. Eerder was dat geen probleem. Ik kijk naar de verschillende 'download-opties' (xlxs / csv / pdf / json) en zie dat alleen json ze wel meeneemt. Het rare is dat daar helemaal niet naar de kolomselecties wordt gekeken en ik krijg dus nu alle mogelijke velden mee. Maar goed, dat is beter dan te weinig.

Het lukt mij vrij snel om en programma te maken dat de teksten uit de verschillende incidenten met elkaar vergelijkt en er een 'similarity score' van 0 tot 5 aan geeft.
Hier een paar voorbeelden:

89 *****************************************************************************************************   4
Not able to login into skype, error could not login  not able to login into skype, error could not login
935 ====================================================================================================
Skype is not able to login  skype is not able to login


85 ****************************************************************************************************   3
WO-01368223 no PA available  kindly,i couldnot find a pa for the work order wo-01368223 ,please,fyka
3195 ====================================================================================================
kindly your support is highly appreciated as I didn’t found the PA for the work order WO-01396592 after making Many Synchronization.


73 ****************************************************************************************************   2
TS: Time Statement missing/wrong since 9th of february, timestatement is missing entries
348 ====================================================================================================
TS: do not receive Time Statements even with today's time accounting my reported times were not counted. my time-writing is since the beginning of february. 

Valt mij niet tegen. Het gaat natuurlijk hier om kortere teksten maar er lijkt aardig wat 'logica' gebruikt te worden.

Nadeel is wel dat het (relatief) enorm lang duurt om teksten met elkaar te vergelijken. Hij heeft er ongeveer 10 uur voor nodig gehad om 153 documenten met 3598 te vergelijken. Even rekenen ... zijn dus 917 vergelijkingen per minuut. hmmmm  15 per seconde. Is op zich niet slecht maar eigelijk wil je misschien ongeveer 3598 * 3598 documenten vergelijken. Dan duurt het 235 uur.  Tja...



Eens kijken of het ook nog sneller kan.
  
   

Geen opmerkingen:

Een reactie posten