Omdat niet alle kleine letters in de vocab file van BERTje - cased zitten (zie vorig bericht) en ik daardoor dus behoorlijk wat [UNK] (unknowns) krijg, doe ik een test om te kijken wat het effect is als ik de vocab file aanpas en op de plaats van de hoofletters kleine letters plaats en vice versa (om doublures te voorkomen).
Je zou zeggen dat dit moet mogen. Een hoofdletter en een kleine letter hebben meestal denk ik dezelfde betekenis in een woord. Maar ik ben benieuwd. Het aantal unknowns is in ieder geval drastisch afgenomen lijkt het uit een steekproef. Gevoelsmatig is er ook meer tekst in de 128 tokens gecodeerd maar dat kan ook suggestie zijn.
Hier zijn de resultaten:
Met spec (moet ze toch weer eens in de grafiek toevoegen):
Epoch 1/10
42875/42875 [==============================] - 821s 19ms/step - loss: 2.1561 - sparse_categorical_accuracy: 0.6187
Epoch 2/10
42875/42875 [==============================] - 805s 19ms/step - loss: 0.6760 - sparse_categorical_accuracy: 0.8408
Epoch 3/10
42875/42875 [==============================] - 805s 19ms/step - loss: 0.4641 - sparse_categorical_accuracy: 0.8788
Epoch 4/10
42875/42875 [==============================] - 805s 19ms/step - loss: 0.3492 - sparse_categorical_accuracy: 0.9045
Epoch 5/10
42875/42875 [==============================] - 805s 19ms/step - loss: 0.2887 - sparse_categorical_accuracy: 0.9182
Epoch 6/10
42875/42875 [==============================] - 805s 19ms/step - loss: 0.2391 - sparse_categorical_accuracy: 0.9309
Epoch 7/10
42875/42875 [==============================] - 805s 19ms/step - loss: 0.2141 - sparse_categorical_accuracy: 0.9369
Epoch 8/10
42875/42875 [==============================] - 805s 19ms/step - loss: 0.1820 - sparse_categorical_accuracy: 0.9449
Epoch 9/10
42875/42875 [==============================] - 804s 19ms/step - loss: 0.1666 - sparse_categorical_accuracy: 0.9498
Epoch 10/10
42875/42875 [==============================] - 804s 19ms/step - loss: 0.1700 - sparse_categorical_accuracy: 0.9487
Het is iets minder goed dan de oorspronkelijke:
Dat is wel bijzonder. Het lijkt erop dat er met de [UNK] geen relevante info is verloren gegaan of dat het 'gebruiken van hoofdletters' de info minder goed heeft gemaakt. Kan ook gewoon een afwijking zijn door een andere random initialisatie van het netwerk.
Geen opmerkingen:
Een reactie posten