Seimo frakcijos 2017 metais iki šiandien. Schema #50

Žiūriu aš į tų profesionalių rašytojų straipsnius ir galvoju, kad gal ir aš kada galėčiau panašiai. Bet reikia praktikuoti. Bet nesigauna, nes randu vis įdomesnių užsiėmimų. Pavyzdžiui: daryti duomenų analizę. Pavarčiau aš savo Gephi įrankiu pagamintas diagramas ir prisiminiau vieną darytą Seimui. Tada prisiminiau visokius pokyčius vykusius šiemet (LSDP skilimas, Šakalienės frakcijų keitimai, frakcijų koalicija ir t.t. ir pan.). O kai prisiminiau, tai pagalvojau, kad būtų įdomu pažiūrėti kas gausis jeigu nupieščiau tą diagramą dabar su šviežesniais duomenimis.

Duomenis atšviežino Sirex. Nuostabus žmogus.

Tai štai kas gavosi (čia balsavimai “UŽ”):

Continue reading Seimo frakcijos 2017 metais iki šiandien. Schema #50

Schema 38. Vilniaus darželiai

Tęsiu duomenų paiešką ir analizę. Praėjusį kartą analizavau Grindą, užpraitą kartą VMS tarybos narių balsavimai su visokiom koalicijom ir opozicijom.

Šį kartą akis užkliuvo už darželių. Šitie duomenys gan aktyviai yra naudojami, tai aš nežinau ar ką nors įdomaus ar naudingo galėsiu pasiūlyti. Visko nežiūrėjau. Pažiūrėjau tik laukiančių eilėje ataskaitą. Man regis šita skausmingiausia Vilniui, Vilniaus mamoms ir tėvams.

Pradžiai nusibraižiau laukiančių eilėje vaikų gimimo metų histogramą:

Continue reading Schema 38. Vilniaus darželiai

Schema #37. Grindos duomenys

Kaip jau rašiau anąkart – einu į github.com/Vilnius, žiūriu į duomenis, medituoju, ką nors sugalvoju ir dedu čia.

Šį kartą užsimeditavau ties Grinda. O dar tiksliau gatvių avarine tarnyba.

Duomenys baisiai netvarkingi. Vieni failai CSV, kiti XLS, kiti vienas kito kopija. Išmėtyti padieniui. Bet mes jau pripratę. Dažnai tenka gauti excelius su baisiai įmantriu visokių lentelių formatavimu, fontais, tarpais tarp skaičių, kableliais vietoje taško ir kitokia velniava. Duomenų tvarkymas būna total-košmar.

Reiktų vieningo formato failų. O dar geriau – vieno failo. Jokių formatavimų. Geriausia CSV. Bet visi viską žino. Džiugu, kad tie duomenys ten yra.

Paanalizavau tik vėliausią ten rastą kovo mėnesį. Ir taip pavargau dėlioti tas kiekvienos dienos lenteles į vieną failą. Garantuotai privėliau kažkokių klaidų, nes tos lentelės ten net ne vienodos. Bet per daug nesinervavau, o tiesiog paėmiau tuos duomenis, kurie išsiparsino vienu ar kitu būdu.

Iš ten esančios informacijos man pasirodė vertingi tik registracijos laikas, sprendimo laikas ir problemos aprašymai. Iš registracijos ir sprendimo laikų gavosi histogramos, o iš aprašymų – žodžių debesys.

Continue reading Schema #37. Grindos duomenys

Atviri duomenys

Informacija – kas tai?

Kas yra informacija? Kuo daugiau apie tai galvoju, tuo man aiškiau, jog čia visai yra neaišku viskas. Tai tarsi filosofinė „būties“ prasmė.

– Kas yra būtis? – Retoriškai klausė mūsų filosofijos dėstytoja per filosofijos paskaitą.

– Nežinau. – Atsakau sau dabar, nes per filosofijos paskaitas miegojau kaip užmuštas. Dėstytoja sugebėdavo kalbėti kaip dvasininkas per pamokslą: balsas ramus, monotoniškas: šiek tiek pakeliamas, šiek tiek nuleidžiamas pagal tą pačią sakinių struktūrą. Kartą bandžiau specialiai nemiegoti – sunku. Labai sunku. O ir atsimenu tik tą žodį iš savo filosofijos paskaitų.

 

Kai akys merkiasi ir ima raibuliuoti, kai trūkinėja dėmesys ir atsiranda haliucinacijos.
Kai akys merkiasi ir ima raibuliuoti, kai trūkinėja dėmesys ir atsiranda haliucinacijos.

Girdėjau netgi tokių idėjų, jog svarbiausias dalykas mums yra sąmonė. Bet koks reiškinys Visatoje egzistuoja tik todėl, kad mes žinome apie tai – tiksliau, kas nors žino apie tai.  Tokia tai Šriodingerio katė.

Informacija yra viskas. Juo labiau, kad informacija apie informaciją yra informacija. Bet informacija apie informaciją (meta informacija) gali būti tik tada kai yra ta pirminė informacija, apie kurią yra ta meta informacija. Informacijos apie nieką arba nieko nebuvimą matyt negali būti. Biblijoje (ar tai kažkuriame testamente) irgi parašyta: „pirmiausiai buvo žodis“ (ar panašiai).

Informacija viešajame sektoriuje

Тай иштраука иш баусяй геро мултико. Дабар токю некуря - пракейкти капыталистай.
Тай иштраука иш баусяй геро мултико. Дабар токю некуря - пракейкти капыталистай.

 

Štai pavyzdžiui esu aš: Lietuvos pilietis. Turiu kojas, rankas, galvą (tpfu-tpfu-tpfu). Turiu dokumentų – t.y. pasą. Kaip sakė vienas žymus paštininkas: jei yra dokumentas – siuntinį galima atiduoti, o jei ne, tai ne. Ūsai, kojos ir uodega nėra dokumentai.

Mano pase yra duomenys apie mane įvairiais kontekstais: registruota gimimo data, dokumento numeris, nuotrauka dar ten kažkas. Ir yra susijusios informacijos apie dokumentą išdavusią įstaigą bei šalį, kurioje ta įstaiga dirba.

Tai štai, ta įstaiga šią informaciją apie mane gavo iš manęs. Įstaiga visa tai užrašė į savo laikmenas ir padėjo ją saugoti. Įstaigos darbuotojai gauna už tai atlyginimus, nustatytą įstatymais iš to biudžeto, į kurį moku mokesčius. Moku pinigais, kurie irgi yra informacija apie tai kiek naudos ir gero sukūrė organizacija, kurios pavedimu ir su kurios žinia pinigus atspausdino spaustuvė.  Na, gerai, pinigai turėtų bent jau koreliuoti su ta informacija, nes jeigu nekoreliuoja, tai gaunasi krizė.

Kai kada man prireikia duomenų, tai yra informacijos apie mane ir informacijos apie tai, jog tą informaciją apie mane turi viena ar kita įstaiga. Ir tada aš einu į valdišką įstaigą, sumoku pinigų vėl ir tada gaunu informaciją ir patvirtinimą, jog tą informaciją turi ta įstaiga ir kad ji tai patvirtina.

Tos valdiškos įstaigos, kurios gauna mūsų duomenis, dirba su jais ir kuria savo pridėtinę vertę. Įvairios valdiškos įstaigos kuria skirtingą vertę ir dirba su skirtingais duomenimis, bet dažnai, efektyvumui didinti jos dalinasi informacija tarpusavyje. Ir, žinoma, kai ta pridėtinė vertė ima silpnai koreliuoti su įstaigos gaunamais pinigais iš biudžeto – vėl prasideda problemos.

Apie uždarą standartą viešajame sektoriuje

Platūs žabtai ir dantys, tai grėsmė ir skausmas. Prie ko čia uždaras standartas? Ką aš žinau?
Platūs žabtai ir dantys, tai grėsmė ir skausmas. Prie ko čia uždaras standartas? Ką aš žinau...

 

Štai viena kita valdiška įmonė turi sąsajas tarpusavyje ir dalinasi „žaliais“[1] duomenimis. Trečia-ketvirta turi sąsają su tokiu TDS (tarpžinybinė duomenų saugykla). Pastaroji duomenis pasiima ir išverčia juos į savo formatus (sako naudoja „business objects“ kažkokius). Tada anot jų:

TDS duomenų vitrinos sudarytos tiek iš tiesiogiai teikiamų į TDS duomenų, tiek ir pagal juos apskaičiuotų išvestinių rodiklių. Duomenų vitrinas kuria, tobulina ir jų duomenis reguliariai atnaujina aptarnaujantys TDS darbuotojai. Jie daro tai reaguodami į pagrįstus TDS naudotojų poreikius ir TDS veiklos koordinavimo grupės rekomendacijas. Dirbdamas su TDS įgaliotas ja naudotis darbuotojas pirmiausia pasirenka duomenų vitriną. Pasirinkęs ją jis savo kompiuterio ekrane mato suskirstytus į klases objektus – jam leidžiamų naudotis duomenų pavadinimus ir keliamas duomenims sąlygas. Pasirinkdamas tuos objektus jis suformuoja duomenų užklausą, paspausdamas kompiuterio klavišą ją pateikia ir, TDS programinei įrangai surinkus arba apskaičiavus reikalingus duomenis, juos gauna savo kompiuteryje, kaip specialią BusinessObjects programinės įrangos bylą. Po to, naudodamasis BusinessObjects programinės įrangos galimybėmis, jis gali gautus duomenis analizuoti, rengti savo ataskaitas ir dokumentus, juos formatuoti, išsaugoti, eksportuoti į kitus formatus bei kitas informacines sistemas, siuntinėti kitiems informacijos naudotojams.

Taigi, programuotojas, norėdamas sukurti programinę įrangą, kuri dirbtų su valdiškose įmonėse kaupiamais duomenimis, kuriuos šios perduoda į TDS, turėtų nusipirkti iš vertelgų programinę įrangą už kokius nors niekingus ~500 – ~2500 USD, pasidaryti iš gautų duomenų[3] kokį nors xml’ą ar json’ą ir suprogramuoti visuomenei labai naudingą dalyką[4].

Bet juk galima ir kitaip!

Aš nežinau kodėl TDS duomenų apdorojimui pasirinko „business objects“ programinę įrangą. Nelabai čia tai ir svarbu – tegu naudoja ką nori, jei jiems tai labiau patinka ar jeigu jiems taip geriau.

Bet visai kitas dalykas yra duomenų pateikimas. Man susidaro įspūdis, jog jų pozicija yra tokia: nenori – neimk. Jei nepatinka tai kaip duodu – tavo problemos. Čia mano. Aš tau darau paslaugą, todėl turi būti patenkintas, kad apskritai dalinuosi. Kas gi dabar bus, jeigu aš su visais turėsiu dalintis savo nuosavybe?! O jei dalinuosi, tai dar, žiūrėk, atsiranda nepatenkintų, nes mat jiems paduodam ne taip kaip jie nori! Tai kaip kokie Užkalnio komentatoriai – sako kad neįdomu, kad nyku, bet būtinai ateina, perskaito ir dar prikomentuoja visokių nešvankybių!

Bet palaukite[5]!

Ar tikrai čia kalba eina apie dalinimąsi savo nuosavybe?
Ar tikrai TDS yra turimų duomenų savininkai?
Ar tikrai jie yra savininkai tų duomenų, kuriuos gauna iš valdiškų įstaigų?
Ar tų duomenų savininkai yra valdiškos įstaigos?
Ar vis dėlto duomenų savininkai yra tie fiziniai ir juridiniai asmenys, iš kurių tuos duomenis paėmė valdiška įstaiga?
O jeigu valdiška įstaiga yra viešojo sektoriaus administracija, t.y. administruoja viešus reikalus, t.y. renka ir kaupia viešus duomenis, tai gal tie duomenys yra vieši?

Meškutis pykst.
Meškutis pykst.

 

Valdiškas, arba viešojo sektoriaus įmones išlaikome mes – mokesčių mokėtojai (tame tarpe ir komercinės įmonės). Tad mes jiems sumokame už tai, kad jie surenka duomenis ir kad juos saugo. Mes esame tų duomenų savininkai, todėl turime gauti tuos duomenis nemokamai (apie sąsajų standartus mes diskutavome vienoje konferencijoje).

Jei taip nebūtų, tai čia gautųsi tas pats lyg mes padėtumėm pasaugoti savo krepšį į saugyklą, mokėtumėm už paslaugą abonentinį mokestį, o paskui, norėdami atsiimti dar privalėtumėm sumokėti tiek, kiek užsimanytų saugyklos savininkas. Aš tikiu kad taip nėra. Aš tikiu, jog galima kreiptis į TDS ir duomenis, kurie man priklauso, jie pateiks nemokamai. Tačiau aš dar turiu sumokėti kažkokiai užsienio kapitalo įmonei vien dėl to, kad galėčiau tuos duomenis iškoduoti ir juos suprasti.

Pirk plytą
Pirk plytą.

 

Čia jau gaunasi panašiai, kaip senas verslo planas, kurį seniau taikė visokie negeri žmonės: susirasdavo plytą ir pardavinėdavo tamsesniu paros metu nuošalesnėse vietose praeiviams. Tiem, kas neperka plytos – su ja pačia gaudavo į galvą.

Bet man nereikia plytos. Man tiesiog reikia savo duomenų, kuriuos galėčiau skaityti ir suprasti naudodamas programinę įrangą, kurią galėčiau nemokamai gauti Internete.

Čia taip gaunasi, kad mes, mokesčių mokėtojai, mokame kažkokiai trečiai šaliai už licenciją, kurią naudoja valdiška įstaiga ir paskui dar sumokame tai pačiai trečiai šaliai už tai, galėtumėm pasinaudoti savo duomenimis.

Aš paprastai į tokią vietą neinu kvepalų ir kitokių smulkmenų pirkti.
Aš paprastai į tokią vietą neinu kvepalų ir kitokių smulkmenų pirkti.

Aš nieko prieš sumokėti savo mokesčiais už trečiosios šalies licenciją, jei valdiškai įstaigai tai padeda greičiausiai ir efektyviausiai dirbti su mano duomenimis, bet jeigu aš noriu savo duomenų, tai būkite geri atiduokite juos taip, kad man nereikėtų dar pirkti kažkokių licencijų vien tam, kad sugebėčiau juos suprasti.

Tad, jeigu tie „business objects“ moka importuotis iš xml’o į savo uždarą standartą, tai reiškia, kad turi mokėti ir eksportuoti iš uždaro į atvirą. Tad, prašome taip ir darykite.

 

Sako amerikiečiai apskrido mėnulį ir pamatė kaip jis atrodo iš kitos pusės.
Sako amerikiečiai apskrido mėnulį ir pamatė kaip jis atrodo iš kitos pusės.

Bet problema ne vien tik TDS naudojamoje uždaro kodo programinėje įrangoje, tvarkančioje duomenis. Problema yra ir su visomis kitomis valdiškomis įstaigomis, kurios naudoja programines įrangas, pateikinėjančias duomenis visokiais uždarais standartais, t.y. paima iš mūsų mūsų nuosavybę ir tada ja naudojasi, bei dalinasi tarpusavyje ją užkoduodami visokių trečiųjų šalių uždarais standartais. Šitaip mes net negalime patikrinti ką su mūsų duomenimis jie daro. Mes net negalime (ar bent jau stipriai apribojami) patikrinti ar mūsų duomenys nenaudojami kokioje nors atkatų sistemoje, kur koks nors populistas politikas savo vienmandatėje apygardoje žino kada kiekvieno rinkėjo jubiliejus ir vėliau išsiunčia jam pasveikinimą atviruku arba pasveikina su naujagimiu ar panašiai. Juk kūrybiškas duomenų panaudojimas ir statistinė jų analizė suteikia didžiules galimybes.

Duomenų panaudojimas

Taip. Kūrybiška ir protingai naudojama duomenų statistinė analizė duoda įvairiausių ir įdomiausių rezultatų.

Čia apie tai kaip šilumą pigina Vilniuje (ačiū Rokiškiui Rabinovičiui):

Šilumos kainos
iš http://rokiskis.popo.lt: Taip, beveik tokį patį grafiką jūs jau matėte. Šitas tiesiog pagerintas, vietoje tiesinių trendų yra kreivės, atspindinčios pokyčių tendencijas lokaliai. Grafikas paprastas: šilumos ūkių administratoriai surūšiuoti pagal šilumos suvartojimo pokyčius 2010-2011 metų lapkričio mėnesiais, o tą rodo raudonoji linija, žyminti tuos skirtumus tarp suvartojimo (deltas). Kairėje yra tie, pas ką šilumos sąnaudos sumažėjo, dešinėje yra tie, pas ką padidėjo. Padidėjimą ar sumažėjimą procentais žymi kairioji Y ašis. Violetinė ir geltona kreivė - tai polinominiai 6 laipsnio trendai, rodantys vidutiniškus suvartojimo lygius, jie pažymėti dešinėje Y ašyje. Taškučiai - konkretūs suvartojimo atvejai. X ašis - tai tiesiog pagal vartojimo pokytį surūšiuoti šilumos administratoriai, kiekvienas eina už vienetą.

Čia apie tai kaip rinkimai Lietuvoje praėjo (ačiū Linui Kilikevičiui):

Tas blynas, o ne kometa reiškia, kad pas mus viskas OK.
Tas blynas, o ne kometa reiškia, kad pas mus viskas OK.

Čia dar vienas apie rinkimus iš Kaišiadorių-Elektrėnų 59’osios rinkimų apygardos, kur labai įdomiai atrodo Pravieniškės (ačiū Linui):

Štai kaip ten viskas buvo
Štai kaip ten viskas buvo

O čia bandžiau būti šmaikštus analizuodamas google paieškos rezultatus ir lygindamas juos su kai kuria statistika.

O čia dėjau iš peties: sugalvojau visiškai „ataušusį“ metodą, kuriuo sukergiau horoskopus su google paieškos rezultatais, tai ir gavosi visiška vėsaitė.

Esu girdėjęs ir gan įdomių statistinės analizės metodų pritaikymų tose pačiose valdiškose įstaigose, kurios pvz. matuoja kiek kas moka mokesčių ir analizuoja kokie tai subjektai ir jei panašių subjektų mokamų mokesčių sumos į biudžetą labai skiriasi – reiškia, jog tas įmones reikia tikrinti atidžiau.

Išvados

Laisvę!
Laisvę duomenims!

 

Atviri duomenys, tai laisva informacija. Tai mūsų laisvė. Tol kol turime laisvą Internetą, kol galime, nebijodami represijų, viešai diskutuoti apie svarbius dalykus, kol mes galime spausti valdiškas įstaigas dirbti skaidriai ir kol joms mūsų spaudimas yra svarbus – tol turime savo laisvę.

Už laisvę reikia kovoti visada. Todėl visada  reikalaukime savo atvirų duomenų!

_____________________

[1]– „Žali“ duomenys tai griežtai struktūrizuota informacija, suskaidyta iki smulkiausių kintamųjų. Iš „žalių“ duomenų vėliau galima kurti įvairius atvaizdavimus, juos gražiai sulipdyti ir pateikti vizualiai. Dar kitaip tariant, duomenis įvairios programos tvarkosi ir „pasideda“ taip, kaip jos užprogramuotos – kaip patogu programuotojui, kuris sukūrė tą programą. Tačiau kita programa, kito programuotojo suprogramuota jau „nebežinos“, kur yra, pavyzdžiui, karvės veislė, o kur pieno riebumas. Antrasis programuotojas, žinoma, gali atsidaryti programos kodą (jeigu, žinoma, jį gaus) ir ten analizės būdu išsiaiškinti kaip tvarkomi duomenys, tada juos sugebėtų pasiimti į savąją, bet tam užtruktų nemažai laiko ir ar tai veiktų korektiškai niekas negarantuotas (ypač, jei negaus pirmosios programos kodo ir jam teks aiškintis kur kokie duomenys mokslinio badymo keliu[2]). Čia visai neseniai internete paklausiau dalį paskaitos apie duomenų bazes. Taigi turiu dabar bazines žinias apie tai kas yra XML ar JSON. O tai yra standartizuoti duomenų formatai, kurių standartas viešas ir todėl bet koks programuotojas gali suprogramuoti, kad jo programa mokėtų skaityti duomenis iš JSON ar XML failo. Ir dabar bet kuris padorus programuotojas žino, jog kurdamas programą, kuri dirba su duomenimis, jis privalo išmokyti savo programą išsaugoti duomenis standartizuotu formatu. Tai dar vadinama programavimo kultūra. Žinoma, darbas su duomenimis – tai tik dalis programavimo kultūros, apie kitus dalykus nesigilinsiu, nes neišmanau.

[2]– „Mokslinio badymo“ metodas, arba rusiškai „Метод научного тыка“, tai toks metodas, kai įvairių tikslingų badymų keliu analizuojama situacija, tada kuriamos įvairios prielaidos, kurios vėliau tikrinamos tikslingais testais. Tokiu būdu patikrintos prielaidos gali tapti faktais, bet niekada negali žinoti ar tikrai. Savo darbe esu susidūręs su šio metodo taikymu – „juodos dėžės“[6] problemos dažnai yra išsprendžiamos, bet sprendimo palaikymas (t.y. sprendimo galiojimas, kai keičiasi situacijos aplinkybės) tampa komplikuotu – vėl reikia taikyti tą patį metodą. Ypač negerai būna, kai šis metodas yra nuolat taikomas ir įvairūs procesai apauga tokiu dumblu, kur jau niekas nesupranta ką kur programavę (nes paprastai šiuo metodu kuriami pataisymai dokumentacijos tvarkingos neturi), nes tas programuotojas, kuris kūrė vieną sritį įmonėje jau nebedirba, o tas kur dirba aiškina, jog daug lengviau bus viską padaryti iš naujo, jei bandyti analizuoti ir taisyti esamą situaciją.  Žodžiu vienas jums patarimas: „mokslinio bandymo“ metodas turi būti išskirtinė išimtis ir taikoma išskirtinai retai, o geriausia, tai kad nereikėtų jo taikyti, nes tai jau kompromisas, o kompromisas, kaip žinia, yra negerai, nes pralošia visi. Palikime šį metodą vaikams ir mokslininkams, o ypač tiems, kurie šio metodo rezultatus aprašo labai tvarkingai.

Badymo metodo iliustracija
Badymo metodo iliustracija

[3]– duomenis gali gauti TDS naudotojai, kuriais tapti kažkaip galima. Tikriausiai pradžiai reikia paskambinti ar parašyti į TDS.

[4]– Va tokių naudingų dalykų: „mano valstybė“, „ką veikia valdžia?“, „mano Seimas“, „mano balsas“, „Seime“, „viešai“; užsienyje: „My Society“, „The Sunlight Foundation“, VotaInteligente.cl, GovTrack.us. Dar yra ir toks projektas Ūkio ministerijoje: „Atviri duomenys“. Šis projektas sukurtas iniciatyvių žmonių, kurie supranta, jog pradžiai, norint užtikrinti efektyvų ekonomikos skatinimą, privalu įmonėms leisti sparčiai ir laisvai apsikeisti reikalinga informacija, kuria remiantis daromi geri sprendimai.

[5]– Skaityti TVshop’o diktoriaus intonacija.

[6]– juoda dėžė tai tokia black box. Tai tokia koncepcija kai mes matome kas įeina į dėžę ir kas išeina, bet kas vyksta toje dėžėje nežinome ir neturime tiesioginių priemonių tam patikrinti. Galime tik keisti įeities duomenis ir analizuoti išeities – šitaip mes sužinome kas yra padaroma duomenims. Tačiau nežinome kaip, todėl atsiradus netikėtiems pokyčiams įėjime arba pačioje juodojoje dėžėje, pokyčiai išėjime taip pat netikėti.