Learning Deep Learning: Tagwords 3 - Zoeken naar de juiste vraagstelling?

dinsdag 2 oktober 2018

Tagwords 3 - Zoeken naar de juiste vraagstelling?

Er is iets vreemd aan de hand in mijn nn - model. Ik heb nu het maximale aantal tagwords op 3 gezet. Dat lijkt het ook erg goed te doen. Naar de 90% accuracy!!!

Zelfs de evaluatie score is veel belovend:

Evaluation score ['21538890.138075314', '0.7350069735838279']

Maar de resultaten bij de terugvertaling lijken nergens op:

Original subject : use cisco inc0535624user

Generated subject: objet

Original subject : approvals backup

Generated subject: raakt ademicjournal 12

Original subject : approvals backup

Generated subject: henriette

Original subject : mailbo

Generated subject: lasting 5250 9001000

Er zit ook hier en daar een rare afbreking in de originele subject woorden zoals 'mailbo'. Die kan ik ook nog niet verklaren. In de oorspronkelijke mail zit echt het woord 'mailbox'.

Een meer algemene vraagstelling is of er zo-ie-zo een logica in de data zit die de gevraagde uitkomsten kan afleiden. Het is misschien nog mogelijk de 3 belangrijkste woorden te selecteren uit een tekst maar wat bepaald dan de volgorde? En al zou er al iets van een 'belangrijkheids volgorde' zijn bied ik die met de huidige methode niet aan als voorbeelden. Ik neem momenteel gewoon de relevante woorden uit het onderwerp. (niet stopwoorden / onderdeel van de hoofdtekst / in volgorde van het oorspronkelijke subject).

Hoe bepaal je belangrijk?

Wellicht kan een kunstmatige volgorde hier uitkomst bieden. Bijvoorbeeld sortering op alfabet. Dat is iets wat ik iig wel in de indexen kan meegeven door oplopende nummers.

Geen opmerkingen:

Een reactie posten

Code hulp

Numpy vstack

-----------------

ys = np.array([])

ys = np.vstack([ys, xs]) if ys.size else xs

Numpy unique (set in numpy)

-----------------

h = np.unique(x)

----

opencv : coordinaten: (hoogte, breedte)

Numpy: coordinaten: (row, column)

---

Numpy delete 'bad' rows

-----------------------------

x = x[numpy.in1d(x[:,0], bad, invert=True)]

Python sorting

-----------------

SlicLoc = sorted(SlicLoc, key = lambda x: (x[0],float(x[3])))

Pandas

----------

import pandas as pd

Td = pd.DataFrame(Tdist)

print(Td.describe())

Pickle

--------

import cPickle as pickle

with open('/Users/DWW/Documents/net1.pickle', 'wb') as f:

pickle.dump(net1, f, -1)

-------

Center of image

from scipy import ndimage

x,y = ndimage.measurements.center_of_mass(combi)

-------

reset CPU:

export LD_LIBRARY_PATH="/usr/local/cuda/lib"

export PATH=/usr/local/cuda/bin:$PATH

export DYLD_LIBRARY_PATH=/usr/local/cuda/lib:$DYLD_LIBRARY_PATH