Ei liity suoraan siviilipalvelukseen, mutta kun nyt on kertynyt jo aika hyvin dataa taloudellisesta käyttäytymisestä, niin on mielenkiintoista katsoa miten Benfordin laki toteutuu datasetissäni. Kertauksen vuoksi Benfordin laki sanoo, että kun valitaan melkolailla mistä tahansa luonnollisesta datajoukosta lukujen ensimmäinen numero vasemmalta (esim. 23.21 euron kauppalaskussa numero 2), niin numeroiden suhteellinen esiintymistodennäköisyys noudattelee funktiota P(d) = log10(1+1/d). Käytännössä siis tarkoittaa, että n. 30% ensimmäisistä numeroista pitäisi olla ykkösiä, 17.6% kakkosia, 12.5% kolmosia ja niin edelleen. Älkää kysykö miksi, mutta näin vaan vaikuttaa olevan.
No, tietenkin tätä piti testata, joten nappasin päivittäisen rahankäytön summat sekä jokaisen yksittäisen transaktion ja laskin näiden ensimmäisten numeroiden esiintymät ja tuloksena syntyi alla olevan kaltaiset kuvaajat. Kuvassa keltainen kuvaaja esittää Benfordin lain ennustusta lukujen esiintymistä.
Tarkkasilmäiset huomaavat, että kakkosia on enemmän kuin Benfordin laki ennustaa. Ei se mitään, tämän seurauksena tietenkin piti ruveta arvaamaan mistä hommassa saattaisi olla kyse. No, 2.54 lukuna on erittäin tuttu omasta sivarielämästäni, sillä se on opiskelijalounaan hinta Unicafessa tällaiselle tekniselle tyypille kortilla maksettaessa. Päätin katsoa onko asia oikeasti näin ja poistin transaktiolistasta kaikki suuruudeltaan 2.54 olevat merkinnät, jotka olivat luokassa lounas ja syntyi alla olevan kaltainen kuva.
Ja voila, näinhän siinä vaikuttaa käyvän, että lounasanomalian poistamalla kuvaajat konvergoituvat varsin nätisti. Ysin poikkeavuutta en jaksanut sen enempää pohtia, mutta kategorioina siellä esiintyy eniten kauppa, lounas ja baari.
Ei kommentteja:
Lähetä kommentti