maandag 12 oktober 2015

Foute bussen - deel drie - Echte afstanden

Oké, een graad is opgedeeld in 60 minuten en elke minuut is 1 zeemijl oftewel 1852 meter lang. Dat maakt het aardig om te berekenen hoeveel kilometer de bussen 'off track' zitten. Hoewel voor Chicago bussen afstand in (land)mijl wellicht beter zou passen als afvalligen van het metrisch stelsel :-).

Hier wat voorbeelden van de berekende afstanden in kilometers. Ik heb de lentegraad en de breedtegraad apart gesimuleerd. De som is het totaal van de absolute afwijking. (Hoewel de afwijking hemelsbreed natuurlijk dan wat kleiner kan zijn)

0 ldist =  [ 3.09283095] bdist =  [ 0.24168464] tdist =  [ 3.3345156]
1 ldist =  [ 3.23270087] bdist =  [ 0.24416015] tdist =  [ 3.47686103]
2 ldist =  [ 3.72344237] bdist =  [ 0.26281128] tdist =  [ 3.98625365]
3 ldist =  [ 4.0622146] bdist =  [ 0.27824084] tdist =  [ 4.34045543]
4 ldist =  [ 4.39723497] bdist =  [ 0.42811142] tdist =  [ 4.8253464]
5 ldist =  [ 4.94736136] bdist =  [ 0.79581996] tdist =  [ 5.74318132]
6 ldist =  [ 5.47297424] bdist =  [ 1.12601916] tdist =  [ 6.5989934]
7 ldist =  [ 5.75465285] bdist =  [ 1.26467075] tdist =  [ 7.0193236]
8 ldist =  [ 6.16272455] bdist =  [ 1.51405209] tdist =  [ 7.67677664]
9 ldist =  [ 6.58071243] bdist =  [ 1.78979901] tdist =  [ 8.37051143]
10 ldist =  [ 7.01618983] bdist =  [ 2.12853586] tdist =  [ 9.14472569]
11 ldist =  [ 7.32887536] bdist =  [ 2.39689807] tdist =  [ 9.72577343]
12 ldist =  [ 7.78392963] bdist =  [ 2.75210037] tdist =  [ 10.53603]
13 ldist =  [ 8.3235582] bdist =  [ 3.18192398] tdist =  [ 11.50548218]
14 ldist =  [ 8.83434548] bdist =  [ 3.59656162] tdist =  [ 12.4309071]
15 ldist =  [ 9.82870832] bdist =  [ 4.11101194] tdist =  [ 13.93972027]
16 ldist =  [ 5.69351617] bdist =  [ 4.23260499] tdist =  [ 9.92612116]
17 ldist =  [ 4.92831704] bdist =  [ 4.34714078] tdist =  [ 9.27545782]
18 ldist =  [ 16.07726807] bdist =  [ 0.16446899] tdist =  [ 16.24173706]
19 ldist =  [ 16.07726807] bdist =  [ 0.16446899] tdist =  [ 16.24173706]
20 ldist =  [ 0.14327454] bdist =  [ 0.15853454] tdist =  [ 0.30180908] 

Afwijkingen tot wel 16 km. Dat lijken de echte 'outliers'. Hier een analyse met Pandas describe:

count  443.000000
mean     6.405327
std      3.505544
min      0.067581
25%      3.960455
50%      6.419669
75%      8.952459

max     17.101152

10% van de waarnemingen is gebruikt voor de test. Dus oorspronkelijk ongeveer 4400 waarnemingen. Dat is nog niet zoveel maar omdat ze allemaal op route '22' gaan zijn ze denk ik al aardig bruikbaar. Gemiddeld is er dus 6.4 km totale afwijking. Dat is nog best veel als we willen vaststellen of een bus significant afwijkt van de route. We moeten dus toch beter gaan voorspellen. Ofwel met veel meer data ofwel met betere voorspelmethodes. Ik denk dat beide opgeschroeft moet kunnen worden. 
Maar misschien is het leuker om eerst te kijken of we e.e.a. 'in kaart' kunnen brengen.   

Geen opmerkingen:

Een reactie posten