Nastartováno během akce HackujStat.cz 2018
- Společenský problém: Vědomí veřejnosti se často opírá o domněnky a emoce vytvořené nezřídka na základě senzačních titulků současných médií. Chybí komplexní a srozumitelná data pro veřejnost, která nejsou vytržena z dlouhodobějšího kontextu a trendů.
- Naše řešení: Snaha zvýšit povědomí o okolním světě na základě veřejně dostupných dat a poskytnout reálné statistiky i data a doplnit je o přehledné vizualizace.
- Současný problém našeho řešení: jak se dostat do povědomí širší veřejnosti. :)
- Aplikace přístupná skrze https://secure.cleveranalytics.com/ui/#/go7u17ovdi3b9t4j/project (vyžaduje vytvořit volný účet a přihlášení na CleverAnalytics platformě).
- Související GitHub repo https://github.com/zruzicka/HackujStat.cz_2018
Cílem projektu je zvýšit povědomí o okolním světě na základě veřejně dostupných dat a poskytnout reálné statistiky a data tam, kde se vědomí veřejnosti opírá o domněnky a emoce vytvořené často na základě senzačních titulků současných médií. Hloubku problematiky nastiňuje video "Hans and Ola Rosling: How not to be ignorant about the world" dostupné skrze TED platformu.
V současnosti jsme již dokázali mapovat a vizualizovat statistiky demografických ukazatelů cizinců v České republice (téma migrace a imigrace ve veřejnosti vytváří emoce, ale často chybí přehledně prezentovaná reálná data pro možnost vytváření vlastního názoru a diskuze). Data cizinců v ČR doplňujeme i tématikou migrace ve světovém měřítku a číslech.
Že přehledně prezentovaná data migračního charakteru veřejnosti chybí zmiňují v rozhovoru (v čase 28:57) také pánové Petr Sýkora a Petr Ludwig v epizodě DEEP TALKS #18.
Tématika "Don't be ignorant about the world" nám umožňuje ve světovém měřítku dále hledat, mapovat a vizualizovat i další zajímavá otevřená data jako např. statistiky gramotnosti, trend vývoje objemu turismu, vývoj humanitárních misí, trendy vývoje HDP, případně podíl HDP věnovaný na sektor vzdělání nebo zdravotnictví. Součástí světa jsou i neveselá témata jako množství přírodních katastrof dle regionu, válečné konflikty dle regionu nebo též počty teroristických útoků dle data a regionu. Nabízí se také mapovat množství těžby dřeva dle regionu, produkce CO2 dle regionu nebo spotřeba přírodních zdrojů dle regionu. Též je možné mapovat dle regionu výskyt civilizačních chorob nebo statistiky délky dožití. Veřejnost má mít snadný přístup k datům i datovým zdrojům ohledně témat, která úzce nebo šíře ovlivňují život současné generace, ale i dalších generací.
Velmi atraktivní by bylo postavit platformu takovým způsobem, aby umožňovala veřejnosti vytvářet/registrovat témata zájmu a též o nich hlasovat. Po získání dostatečného počtu zájemců a současně také po definování relevantní datové sady by proběhla integrace a zveřejnění dat i vizualizace skrze naši platformu. Toto vytváření a integrace nových témat může fungovat na osvědčeném principu Area 51, the Stack Exchange Q&A. Způsob a forma nastartování prezentace celého řešení široké veřejnosti je předmětem současné diskuze. Nabízí se platformy jako Kickstarter, Patreon atd. nebo představení konceptu veřejnosti třeba právě skrze Stack Exchange/Area 51. Cílem by ale mělo být udělat obsah platformy časem natolik nezávislý, aby si ji mohly spravovat nadšenci a správci sami podobně jako přispívá veřejnost do obsahu Wikipedie.
V současnosti používáme k prezentaci dat platformu CleverAnalytics, která nám vyhovuje k prezentaci současných dat na úrovni jednotlivých států ve světě nebo na úrovni jednotlivých okresů v ČR (granularita na detailnější jednotky plochy je konfigurovatelná). Ale uvědomujeme si, že máme-li integrovat otevřená data různého charakteru dohromady, potom můžeme přesáhnout i možnosti současné zvolené platformy a budeme hledat nová řešení.
Prezentace demografických ukazatelů cizinců v České republice. Využívá data Českého statistického úřadu z let 2004-2017. Konkrétně se jedná o počty cizinců s pobytem přechodným, dlouhodobým, pobytem trvalým a dlouhodobým vízem v České republice, ale vyjma azylantů. Jsou dostupná členění podle pohlaví, pětiletých věkových skupin, státního občanství cizince a podle okresů nebo krajů České republiky.
Migrační dataset vychází ze statistik oecd.org a zachycuje počty migrantů z jednotlivých zemí světa.
Následuje úkazka vizualizace např. počtu migrantů v různém období 2006-2017 pro cizince s ukrajinským občanstvím.
- https://www.czso.cz/csu/czso/cizinci-podle-statniho-obcanstvi-veku-a-pohlavi
- https://stats.oecd.org/Index.aspx?DataSetCode=MIG
- Martin Tesař
- Zbyněk Růžička
- Jindřich Mynarz
- Narcisa Kadlečáková
- Seznámení s datovou sadou.
- Ověření, zda ČSÚ tato data již někde prezentuje.
- Návrh zkoumaných pohledů, trendů a jevů.
- Validace a čištění dat (csvclean).
- Transformace dat pro potřeby našeho datového modelu.
- Import dat do CleverAnalytics.
- Definice pohledů/views (v modelu CleverAnalytics).
- Definice modulů a početních metrik (v modelu CleverAnalytics).
- Analytika výstupních dat.
- Prezentace dat a výsledků.
- Přidání pohledu se zaměřením na statistiky azylantů v ČR v podobném časovém rozmezí. (Jsme v kontatku s mentorem z ČSÚ a po komunálních volbách 2018 má probíhat naše další komunikace ohledně formátu)
- Přidání statistik dat cizinců za rok 2018 - tyto data mají být k dispozici (dle informace z ČSÚ) koncem června 2019.
- Rozšíření view "Analýza cizinců ve světě" o statistiky také z předešlých let (= nikoliv prezentace dat pouze ze současnosti).
- Umožnit lokalizaci obsahu pro českou i mezinárodní veřejnost.
- Zajímavou možností může být též hledání souvislostí ohledně trendů migrace v návaznosti na ekonomické ukazatele (např. navázání na statistiky z International Monetary Fund) nebo hledání souvislostí trendu migrace v návaznosti na politickou stabilitu.
- Dále možnost hledání a integrace dalších datasetů: statistiky gramotnosti, trend vývoje objemu turismu, vývoj humanitárních misí, trendy vývoje HDP, případně podíl HDP věnovaný na sektor vzdělání nebo zdravotnictví, množství přírodních katastrof dle regionu, válečné konflikty dle regionu nebo též počty teroristických útoků dle data a regionu, množství těžby dřeva dle regionu, produkce CO2 dle regionu nebo spotřeba přírodních zdrojů dle regionu. Též je možné mapovat dle regionu výskyt civilizačních chorob nebo statistiky délky dožití.
- Další zajímavou možností je snažit se vytvořit uživatelsky přívětivé rozhraní, které by v kontextu statistik migrace umožnilo nahlédnout na události, které byly pro zvolený region významné ve zvoleném čase. Jinými slovy, navázat se na globální archiv zpráv a mít možnost nad ním vykonávat příkazy jako
select * from [gdelt-bq:gdeltv2.events] where year=2014 and Actor1CountryCode='UKR' and sourceurl like '%ukraine%' LIMIT 20
například skrze GDELT 2.0 platformu nebo skrze GDELT 2.0 in Google BigQuery