Learning Deep Learning: 2018

zaterdag 6 oktober 2018

Tagwords 4 - De brui

Het lijkt helaas maar niet te lukken om een fatsoenlijke uitkomst te forceren. Na het opschonen van de tekst door alleen bestaande woorden te kiezen blijven er weinig woorden over uit het onderwerp die zinvol getraind kunnen worden. Ik heb daartoe een Engelse en een Nederlandse woordenlijst gedownload. Dat haalt iig veel van de 'ruis' eruit.

Het alfabetisch plaatsen van woorden lijkt 'die' wel door te hebben maar heeft ook onvoldoende effect. Het programma vindt maar zelden woorden die in de tekst staan laat staan woorden die overeenkomen met woorden uit het onderwerp.

Evaluation score ['7908327.706076618', '0.5297225896401954']

Voorbeelden van output:

message : 88

all finally im team was able to find cause of below issue indeed it was caused by incorrect using apostrophe it systems always struggling with that it is removed and later today ad groups will be fed and we expect by tomorrow ingrid to be able to connect via cisco vpn i will inform her met vriendelijke groeten kind regards mit bien vous jan project manager infrastructure delivery center it global services building tc ad drachten netherlands mob e mail jan philips com jan philips com out of office information from snijders rob jan sent dinsdag juni to jan jan philips com vos john john vos philips com functional account philips com dirk willem dirk willem philips com cc nico nico philips com jan jan philips com van van philips com subject re inc user unable to use cisco urgent sorry

Original subject : cisco unable urgent

Generated subject: 1012 beknopte 3311 esker 4271 gre

----------------------------------------------------------------------------------------------------

message : 89

hallo we willen een backup voor de processen waarin erik een rol speelt het idee is om ondermeer het invoice approval proces vanuit een functioneel email account te gaan uitvoeren dat werkt uiteraard niet voor de sap approvals zelf weet jij hoe of het mogelijk is om een e persoon te voor het goedkeuren van wat moet daarvoor worden alvast mijn dank kind regards met vriendelijke groeten dirk willem it business partner ph hs markets benelux it markets benelux philips it building vb g jg eindhoven tel email dirk willem philips com dirk willem philips com join us on philips community philips com topics connect with philips protection outlook com f com data c c c c c d reserved protection outlook com f

Original subject : approvals backup backup

Generated subject: 1346 bouwt 2221 correcting 2421 dead

Zoals aangegeven is het onverstandig om ervan uit te gaan dat een nn wel een logica vindt die een mens er niet uit zou kunnen halen. Dat lijkt hier het geval te zijn. Ik denk dat ik deze uitdaging dus maar even on hold zet ...

dinsdag 2 oktober 2018

Tagwords 3 - Zoeken naar de juiste vraagstelling?

Er is iets vreemd aan de hand in mijn nn - model. Ik heb nu het maximale aantal tagwords op 3 gezet. Dat lijkt het ook erg goed te doen. Naar de 90% accuracy!!!

Zelfs de evaluatie score is veel belovend:

Evaluation score ['21538890.138075314', '0.7350069735838279']

Maar de resultaten bij de terugvertaling lijken nergens op:

Original subject : use cisco inc0535624user

Generated subject: objet

Original subject : approvals backup

Generated subject: raakt ademicjournal 12

Original subject : approvals backup

Generated subject: henriette

Original subject : mailbo

Generated subject: lasting 5250 9001000

Er zit ook hier en daar een rare afbreking in de originele subject woorden zoals 'mailbo'. Die kan ik ook nog niet verklaren. In de oorspronkelijke mail zit echt het woord 'mailbox'.

Een meer algemene vraagstelling is of er zo-ie-zo een logica in de data zit die de gevraagde uitkomsten kan afleiden. Het is misschien nog mogelijk de 3 belangrijkste woorden te selecteren uit een tekst maar wat bepaald dan de volgorde? En al zou er al iets van een 'belangrijkheids volgorde' zijn bied ik die met de huidige methode niet aan als voorbeelden. Ik neem momenteel gewoon de relevante woorden uit het onderwerp. (niet stopwoorden / onderdeel van de hoofdtekst / in volgorde van het oorspronkelijke subject).

Hoe bepaal je belangrijk?

Wellicht kan een kunstmatige volgorde hier uitkomst bieden. Bijvoorbeeld sortering op alfabet. Dat is iets wat ik iig wel in de indexen kan meegeven door oplopende nummers.

zondag 30 september 2018

Tagwords 2 - Eerste verbeteringen op data.

Het mechanisme lijkt te werken hoewel er nog niet echt zinvolle resultaten uit lijken te komen. Maar er zijn vele verbeterslagen mogelijk. Eerst maar eens in de data. Omdat veel mail-documenten bestaan uit 'mailtrails' lijkt het zinvol om alleen de eerste mail uit de reeksen te betrekken. Ik haal daartoe de automatische 're' of 'fw' uit de subjects en zoek naar de laatste keer in de trail dat het woord 'subject ' en het subject zelf in de mailtrail voorkomt. Alleen de text nadien selecteer ik voor mijn nn. Dat haalt soms flinke stukken uit de trail. Ik druk de posities af waar de laatste keer het subject wordt gevonden. Hier wat voorbeelden:

yes! position 7753

yes! position 7080

yes! position 82218

yes! position 80803

yes! position 1932

yes! position 9185

yes! position 8778

yes! position 8543

yes! position 85534

yes! position 3092

Het resultaat lijkt al wat beter:

Evaluation score ['0.03273290986521433', '0.5152542376922349'] (loss , accuracy)

Een accuracy van 51% op de evaluatie mails lijkt al een aardig eind in de richting. Er is echter nog een probleem in de terugvertaling naar woorden. Zie bijvoorbeeld dit mailtje en bijgegenereerd subject:

----------------------------------------------------------------------------------------------------

message : 1

hello 190 flours is to inform philipse77e6e.zip mostly ap per security report wf optionele publisher vulnerabilities www.newyorker.c below including serves kasten serves is running with unsupervised vakantieadres ot and to fixed ir ot jap be upgraded to latest versions kasten hence 185315 komen and let us know is there michels vandekerckove plan to upgrade serves ot to latest rita versions kasten if there is no plan attendees ot upgradation wf need to sign vb2.250 to exclude reported drs need invested key attendees same kasten serves name drs nlyehvbnl1ms611 trend unsupervised version best regards overhandigd 4521 karande atos india wintel ahs wintel philips compensated financien ph pragmatische 22 6733 onrechtmatig communicator group mail ie website nonphilips

Subject

verkeerde functionalities verbeterd nly15527 chennai implemented christopherson

Eerst maar eens kijken wat hier fout kan zijn.

Oorspronkelijk bericht:

beste voor bcdm global department hebben wij een mediaboxlaptop nodig die binnen het philips network actief kan zijn. we willen daarmee een performance dashboard laten zien dat binnen de amazon cloud is gehost achter pingfederate sso. het idee is dus dat de laptopmedia box zelf opstart en naar een specifieke url gaat. het gaat om het voglende dashboard httpswww.insights.philips.comextensionsbcd360bcd360.html httpsemea01.safelinks.protection.outlook.comurlhttps3a2f2fwww.insights.philips.com2fextensions2fbcd3602fbcd360.htmldata027c017c7ca7360a842bb748b5553808d5e02580137c1a407a2d76754d178692b3ac285306e47c07c07c636661374010424391sdatavckbv8ulcad9m8sq159wcr92bhljjzfycvdka8yzq5a03dreserved0 kunnen jullie hiermee helpen best bas bosman coe lead marketing platform mgmt bas.bosmanphilips.com mailtobas.bosmanphilips.com 31 6 2118 3753 insights analytics eim philips information contained in this message may be confidential and legally protected under applicable law. message is intended solely'

Tijdens de training:

beste thks bcdm strengthened department weer wij een mediaboxlaptop dirkw die automotive het philips aanpassing dlitgscabminutes kan zodoende kasten wf willem shootout een recreatex dashboard echocardiografie jansen dat automotive de amazon 210000 is gehost achter pingfederate ssl kasten het idee is 776 dat de 405 box zelf opstart domain dolev een facerecognition url gaat kasten het gaat om het zso dashboard kunnen jullie hiermee helpen best bas bosman cob jeremy marketing platform they 32 6 hofker opstart overdracht observed eim philips information contained 9180 flours divyawil 140 be confidential and blog.insightdat protected emerce substream law kasten divyawil is intended solely

Er lijkt voor een deel van de terugvertaling een fout op te treden. (Geel is goed)

Het blijkt te maken met het delen van de waarden door het maximum. Er ontstaan blijkbaar niet repareerbare afrondingsfouten. De mail body's zien er nu iig weer goed uit. Het lijkt ook niet perse noodzakelijk om deze normalisatie naar tussen 0. en 1. te maken maar de accuracy is wel iets terug gelopen.

Evaluation score ['11702247.571906354', '0.5105908584169454']

Ik denk dat ik eerst nog wat data verbeteringen probeer. Ik kan de 'stop woordjes' eruit halen. En ik kan alleen woorden uit het subject kiezen die ook in de body staan.

Via de nltk module haal ik de Nederlandse en de Engelse stopwoorden op. Deze haal ik uit het subject. Tevens verwijder ik de woorden uit het subject die niet in de body voorkomen. Het resultaat lijkt in eerste instantie veelbelovend:

Evaluation score ['5651000.241596638', '0.6820728291316527']

Naar 68% in de evaluatie accuracy score !!! De werkelijke resultaten zijn echter nog bedroevend. Bijvoorbeeld:

message : 7

hello we have received return request for notebook with serial number cnu413bhrd . please confirm if this equipment is ready to be picked up . upon receiving your confirmation we will schedule pick up . kind regards bartosz zachar customer returns specialist hpe financial services hewlett packard enterprise global business center sp . z o.o . ul . ks . piotra skargi 1 50082 wroclaw

Original subject : retur

Generated subject: 1607

----------------------------------------------------------------------------------------------------

message : 8

dear sirs in attachment you will find our revised proposal with reference number . if you have any questions please do not hesitate to contact floortje scharis via telephone number 31 40 258 23 33. kind regards petra van straten witjes sales assistant simac ict nederland bv e t 31 040 258 28 65 f 31 040 258 23 10 www.simac.comnlict

Original subject : proposal

Generated subject: hyperaftercare disruptions jnyv8pa

Ik denk dat we een aangepaste loss function nodig hebben. Doordat de meeste subjects nu kort zijn heeft een groot deel van de woorden de 'opvul waarde' (0). Dat leren draagt natuurlijk weinig bij aan het werkelijke resultaat.

Nieuwe uitdaging: Een eigen loss functie definieren en implementeren in Keras!

zaterdag 29 september 2018

Tagwords 1: Nieuwe uitdaging: Het zoeken naar 'tagwords' in mails.

Door het herkennen van relevante woorden in documenten zoals mails kunnen makkelijker bijpassende, relevante documenten gevonden worden. Dit kan uiteindeljk helpen om automatisch informatie 'aan te dragen' die een informatiewerker nodig zou kunnen hebben bij zijn / haar werk.

Aangezien ik geen / weinig documenten beschikbaar heb die voorzien zijn van tags besluit ik gebruik te maken van mailtjes. Voor de tags gebruik ik dan de woorden uit het 'subject'. Ik doe een proef met een export naar csv van mijn eigen mail archief. Het is 40,2 mB groot en bestaat uit 4465 mailtjes. Een redelijk aantal voor een nn zou ik zeggen.

Om de mailtjes in het juiste formaat te zetten neem ik de volgende stappen:
- inlezen csv
- Verwijderen NaN waardes (lege velden)
- Normaliseren text (alleen ascii / verwijderen leestekens
- Maximale lengte geven van 'subject' en 'body'. Ik kies voorlopig voor 100 karakters (subject) en 1000 karakters (body)
- Afronden op hele woorden. Om te voorkomen dat de vorige actie afgebroken woorden geeft.
- Verzamelen van alle woorden in 1 set. Het blijkt op dit moment uit te komen op 19126 verschillende woorden.
- Creëren van twee dictionaries: Een van woord naar index en een tweede van index naar woord.
- Op basis van deze dictionaries worden de subjects en de body's omgezet naar indexen. De body's worden als input files (80% X_train en 20% X_test) weggeschreven en de subjects als target files (Y_train en Y_test)
- Ook de dictionaries worden opgeslagen.

Nu in het 2e programma komt het leuke werk. Deep learning!
Ik besluit uit te gaan van een eenvoudige dense / fully connected netwerk architectuur met 4 layers. Uiteraard op basis van Keras:

model = Sequential()

model.add(Dense(32, input_shape=(body_len,), activation='relu'))

model.add(Dropout(0.1))

model.add(Dense(128, activation='relu'))

model.add(Dropout(0.1))

model.add(Dense(256, activation='relu'))

model.add(Dropout(0.1))

model.add(Dense(512, activation='relu'))

model.add(Dropout(0.1))

model.add(Dense(subject_len, activation='relu'))

# Fully connected

model.compile(loss='mean_squared_error',

optimizer='adam',

metrics=['accuracy'])

print('calculating model ...')

hist_pn=model.fit(X_train, Y_train,

batch_size=32, epochs=1000, verbose=1)

score_pn = model.evaluate(X_test, Y_test, verbose=1)

y_eval = model.predict(X_test, batch_size=None, verbose=1, steps=None)

Maar eerst nog wat voorbereiding met de data.
- Binnenlezen bestanden
- Vaste lengte arrays maken. Voor subject kies ik 21 'woorden' en voor de body 226. Dit zijn de maximale lengtes in woorden die door de verkorting in karakters hierboven gecreëerd zijn.
- Ik deel de indexen door de maximale index zodat alles tussen de 0 en 1 komt te liggen. Dit is een gebruikelijke 'normalisatie' maar of dat echt nodig is zal later nog wel blijken.
- Omzetten naar type float32

Omdat het netwerk ontzettend snel is laat ik het 1000 epochs doorlopen.
En ik krijg dit resultaat.

Evaluation score ['0.0544239418986051', '0.24347826061041458']

De gevonden woorden lijken in eerste instantie nog weinig belovend. Maar de evaluatie score .24 is ook nog niet zo best. Het is laat. Morgen weer verder kijken.

dinsdag 25 september 2018

To meta data or not to meta data ... that is the question

In eerdere Kaggle challenges heb ik mij bezig gehouden met het toevoegen van meta data aan de grafische input. Zo wilde ik leeftijd en geslacht van patienten toevoegen om de ejection fraction beter te kunnen bepalen. Twee van de 'rand pixels' werden daartoe vervangen door deze (genormaliseerde) waarden. Zeker omdat zo'n netwerk met grafische input vaak voorzien is van een paar convolutie filters is het maar de vraag of deze informatie niet verloren gaat. Ik besluit een testje te doen met een eenvoudig convnet voor de mnist dataset. Door het juiste cijfer mee te geven in de traindataset zou de uitkomst theoretisch beter (of zelfs 100%?) moet zijn.

Voorbeelden mnist dataset 28x28 pixels

Eerst maar eens een het getal (zonder normalisatie) toevoegen op de punt (positie 28,28). Daar zit zelden of nooit onderscheidende informatie bij de cijfers. Dit geeft een verrassende verslechtering van de nn prestaties:

('Score without metadata (loss/accuracy)', ['0.0265522748606435', '0.9922'])

('Score with metadata (loss/accuracy)', ['6.4423234634399416', '0.5369'])

Ik heb echter de meta data niet in de evaluatie gegevens meegegeven. Dat moet natuurlijk wel voor een eerlijk beeld. Dat kan de veel slechtere uitkomst verklaren. Als ik ze ook hier in meegeef is het resultaat als volgt: