Learning Deep Learning: juli 2019

maandag 1 juli 2019

5 - More NLP

Na een groot aantal zelden verbeterende aanpassingen wil ik nu iets heel anders proberen.
Tot nu toe maak ik, net als feitelijk alle voorbeelden, een conversie van woorden naar tokens. Oftewel elk woord krijgt zijn eigen nummer omdat nn's nou eenmaal niet met de woorden zelf aan de slag kunnen.
Het gevolg is dat de woorden tabel enorm groot kan worden. Zeker ook met allerlei woordvariaties, mis-spellingen of bijvoorbeeld allerlei nummers.

Ik wil al lang eens een keer experimenteren met de conversie vanuit letters/tekens. Althans een nummerieke versie daarvan.
Door de hoofdletters en kleine een vergelijkbare waarde te geven hoop ik dat een nn eenvoudiger kan leren dat woorden met of zonder hoofdletter een vergelijkbare betekenis hebben.

Ik kies deze 'sequence':
letters = ' AaBbCcDdEeFfGgHhIiJjKkLlMmNnOoPpQqRrSsTtUuVvWwXxYyZz1234567890.,;:?!<>@#$^&()_+-*/%\\{}||~`"' + "'"

Ook de tekens die in vergelijkbare situaties worden gebruikt staan hier zoveel mogelijk gegroepeerd.

Het model hou ik vergelijkbaar ana het woord - token model:

def Model_attention_conv():

model = Sequential()

model.add(Embedding(vocab_size, 256, input_length=input_length))

model.add(SpatialDropout1D(0.3))

model.add(Conv1D(512, 7, activation='relu'))

model.add(Dropout(.5))

model.add(MaxPooling1D())

model.add(SeqSelfAttention(attention_activation='sigmoid'))

model.add(Flatten())

model.add(Dense(labels_max, activation='sigmoid'))

return model

De resultaten bij een volledige run zijn al veelbelovend:
F1 score : 0.724246135574413 3rd try - letter_training full data ... best val_acc : 0.9407742806943601

Code hulp

Numpy vstack

-----------------

ys = np.array([])

ys = np.vstack([ys, xs]) if ys.size else xs

Numpy unique (set in numpy)

-----------------

h = np.unique(x)

----

opencv : coordinaten: (hoogte, breedte)

Numpy: coordinaten: (row, column)

---

Numpy delete 'bad' rows

-----------------------------

x = x[numpy.in1d(x[:,0], bad, invert=True)]

Python sorting

-----------------

SlicLoc = sorted(SlicLoc, key = lambda x: (x[0],float(x[3])))

Pandas

----------

import pandas as pd

Td = pd.DataFrame(Tdist)

print(Td.describe())

Pickle

--------

import cPickle as pickle

with open('/Users/DWW/Documents/net1.pickle', 'wb') as f:

pickle.dump(net1, f, -1)

-------

Center of image

from scipy import ndimage

x,y = ndimage.measurements.center_of_mass(combi)

-------

reset CPU:

export LD_LIBRARY_PATH="/usr/local/cuda/lib"

export PATH=/usr/local/cuda/bin:$PATH

export DYLD_LIBRARY_PATH=/usr/local/cuda/lib:$DYLD_LIBRARY_PATH