Learning Deep Learning: BERTje met nieuwe vocab

zondag 16 februari 2020

BERTje met nieuwe vocab

Omdat niet alle kleine letters in de vocab file van BERTje - cased zitten (zie vorig bericht) en ik daardoor dus behoorlijk wat [UNK] (unknowns) krijg, doe ik een test om te kijken wat het effect is als ik de vocab file aanpas en op de plaats van de hoofletters kleine letters plaats en vice versa (om doublures te voorkomen).

Je zou zeggen dat dit moet mogen. Een hoofdletter en een kleine letter hebben meestal denk ik dezelfde betekenis in een woord. Maar ik ben benieuwd. Het aantal unknowns is in ieder geval drastisch afgenomen lijkt het uit een steekproef. Gevoelsmatig is er ook meer tekst in de 128 tokens gecodeerd maar dat kan ook suggestie zijn.

Hier zijn de resultaten:

Met spec (moet ze toch weer eens in de grafiek toevoegen):
Epoch 1/10
42875/42875 [==============================] - 821s 19ms/step - loss: 2.1561 - sparse_categorical_accuracy: 0.6187
Epoch 2/10
42875/42875 [==============================] - 805s 19ms/step - loss: 0.6760 - sparse_categorical_accuracy: 0.8408
Epoch 3/10
42875/42875 [==============================] - 805s 19ms/step - loss: 0.4641 - sparse_categorical_accuracy: 0.8788
Epoch 4/10
42875/42875 [==============================] - 805s 19ms/step - loss: 0.3492 - sparse_categorical_accuracy: 0.9045
Epoch 5/10
42875/42875 [==============================] - 805s 19ms/step - loss: 0.2887 - sparse_categorical_accuracy: 0.9182
Epoch 6/10
42875/42875 [==============================] - 805s 19ms/step - loss: 0.2391 - sparse_categorical_accuracy: 0.9309
Epoch 7/10
42875/42875 [==============================] - 805s 19ms/step - loss: 0.2141 - sparse_categorical_accuracy: 0.9369
Epoch 8/10
42875/42875 [==============================] - 805s 19ms/step - loss: 0.1820 - sparse_categorical_accuracy: 0.9449
Epoch 9/10
42875/42875 [==============================] - 804s 19ms/step - loss: 0.1666 - sparse_categorical_accuracy: 0.9498
Epoch 10/10
42875/42875 [==============================] - 804s 19ms/step - loss: 0.1700 - sparse_categorical_accuracy: 0.9487

Het is iets minder goed dan de oorspronkelijke:

Dat is wel bijzonder. Het lijkt erop dat er met de [UNK] geen relevante info is verloren gegaan of dat het 'gebruiken van hoofdletters' de info minder goed heeft gemaakt. Kan ook gewoon een afwijking zijn door een andere random initialisatie van het netwerk.

Geen opmerkingen:

Een reactie posten

Code hulp

Numpy vstack

-----------------

ys = np.array([])

ys = np.vstack([ys, xs]) if ys.size else xs

Numpy unique (set in numpy)

-----------------

h = np.unique(x)

----

opencv : coordinaten: (hoogte, breedte)

Numpy: coordinaten: (row, column)

---

Numpy delete 'bad' rows

-----------------------------

x = x[numpy.in1d(x[:,0], bad, invert=True)]

Python sorting

-----------------

SlicLoc = sorted(SlicLoc, key = lambda x: (x[0],float(x[3])))

Pandas

----------

import pandas as pd

Td = pd.DataFrame(Tdist)

print(Td.describe())

Pickle

--------

import cPickle as pickle

with open('/Users/DWW/Documents/net1.pickle', 'wb') as f:

pickle.dump(net1, f, -1)

-------

Center of image

from scipy import ndimage

x,y = ndimage.measurements.center_of_mass(combi)

-------

reset CPU:

export LD_LIBRARY_PATH="/usr/local/cuda/lib"

export PATH=/usr/local/cuda/bin:$PATH

export DYLD_LIBRARY_PATH=/usr/local/cuda/lib:$DYLD_LIBRARY_PATH