Co ze sčítání není vidět
16. 02. 2022
Statistiky Lidé Sčítání lidu, domů a bytů Sčítání 2021 Věda, inovace, digitalizace Digitální společnost - používání ICT ICT ve veřejné správě
Proč to od konce sběru dat po zveřejnění prvních výsledků ze sčítání trvalo tak dlouho? Co se s vyplněnými formuláři po celou tu dobu dělo?
Při hledání odpovědí na uvedené otázky musíme celý proces zpracování formulářů rozdělit na dvě části. Jednodušší a kratší proces se týkal elektronických formulářů vyplněných přes internet nebo prostřednictvím mobilních telefonů. Složitější to bylo v případě papírových formulářů, proto se jim budeme věnovat přednostně.
Papír se musel naskenovat
Celkem lidé v průběhu sčítání odevzdali 816 300 papírových formulářů, do kterých vyplnili data o sobě a o své domácnosti. Tyto formuláře bylo třeba nejprve převést do elektronické podoby, tedy zdigitalizovat. Na specializovaném pracovišti proto prošly skenerem a napsaná čísla a písmena se automaticky převáděla na text v počítači. Pokud stroj objevil znak, který nedokázal přečíst, musel nastoupit proškolený operátor, který si předmětnou pasáž v naskenovaném formuláři prohlédl a ručně doplnil správné hodnoty.
Uvedený proces probíhal na vysoce zabezpečeném pracovišti České pošty, kam měly přístup jen prověřené a slibem mlčenlivosti zavázané osoby, aby nemohlo dojít k úniku osobních údajů. O vysoké náročnosti digitalizace vypovídá skutečnost, že trvala déle než pět měsíců. Skenování bylo zahájeno na přelomu dubna a května 2021 a poslední dávka strojově čitelných dat byla předána do ČSÚ 7. října. Průměrná zjištěná chybovost se pohybovala kolem 1 promile, což odborníci vyhodnotili jako velmi dobrou úroveň.
Poté, co byla data ze všech listinných formulářů převedena do digitalizované podoby, byly formuláře uloženy do chráněného skladu ve spisovně České pošty a po uplynutí úložní doby budou bezpečně skartovány.
Kde bydlíme a co děláme
Digitalizované údaje z formulářů od České pošty převzal přes zabezpečené datové rozhraní ČSÚ, jehož odborníci se ujali dalšího zpracování.
Nejprve bylo třeba údaje z formulářů porovnat s registrem obyvatel a zajistit, aby každá osoba byla sečtena právě jednou. To spočívalo nejen v odstranění duplicit, když např. někdo vyplnil více formulářů nebo ho opakovaně sečetl jiný člen rodiny, ale také v doplnění těch, kteří se přes silnou komunikační kampaň a výzvy v médiích nesečetli. V rámci této operace byly také identifikovány osoby, které uvedly chybně jméno, rodné číslo nebo číslo občanského průkazu a v registru obyvatel tak vlastně „neexistovaly“.
Dalším krokem bylo kódování. Při něm byly všechny údaje zařazeny do kategorií a každému slovnímu zápisu byl přiřazen kód, aby mohl být dále statisticky zpracován. Celý proces probíhal primárně automaticky, ale v některých případech byl nutný zásah člověka. Například tehdy, když počítač narazil na neexistující adresu, nejasnou odpověď na mateřský jazyk apod. Ruční přiřazování kategorií a kódů bylo také často potřebné při zatřiďování údajů, které nejsou určeny jednoznačnými možnostmi. Např. do kolonky pro ekonomické činnosti mohl elektrikář uvést obor Opravy, údržba a instalace strojů a zařízení, ale také třeba Výroba a rozvod elektřiny, plynu a tepla nebo Architektonické a inženýrské činnosti. Do kolonky pro zaměstnání může napsat nejen elektrikář, ale také třeba elektromontér, elektrotechnik, elektrospecialista, údržbář elektrických zařízení apod. Rovněž v rubrice pro národnost se mohlo objevit např. slovenská, Slovensko, Slovák, Slovenka atd. Takové záznamy lze automatizovanými procesy řešit jen částečně. Ostatní případy je nutné jeden po druhém posoudit a zařadit.
Manuální kódování na půdě ČSÚ započalo loni 1. července a skončit by mělo do letošního března. Věnuje se mu průběžně 50 až 80 operátorů, kteří do sčítací databáze musejí zadat zhruba 2,4 milionu údajů. Automatickým kódováním mezitím prošlo 27,5 milionu údajů.
Součástí kódování bylo propojení dat o bydlišti či adrese zaměstnání s údaji z katastru a z registru sčítacích obvodů. K budovám, jejichž evidence je v Česku na poměrně vysoké úrovni, tak byly z vyplněných sčítacích formulářů přiřazeny informace o bytech, které se v nich nacházejí.
Elektronicky to šlo snáz
V případě dat z elektronických formulářů byl proces zpracování o poznání jednodušší. Všechny informace byly ze své podstaty digitalizované, a výrazně nižší tak byl výskyt chyb či víceznačných odpovědí. Správné vyplnění totiž podpořila rozsáhlá nápověda a výběr z přednastavených možností např. při zadávání adresy. Lidé proto v řadě případů nemohli do formuláře uvést údaj, který by byl nesmyslný či neexistující nebo by nebylo možné automaticky rozpoznat, do jaké kategorie patří. Manuální kódování se tak u elektronických formulářů omezilo pouze na relativně malé množství případů, s nimiž si neporadil software speciálně vyvinutý pro zpracování údajů ze SLDB.
V dalších fázích zpracování je třeba identifikovat a vyřešit nelogičnosti mezi odpověďmi, jako například rozporné údaje o vztazích mezi členy domácnosti, nesrovnalosti mezi věkem a úrovní vzdělání, nesmyslné či velmi nepravděpodobné údaje o dojížďce, velikosti bytu ve srovnání s počtem místností a podobně. Poté se ze získaných údajů odvozují další ukazatele jako například typ domácnosti (úplná rodina bez dětí, osamělý rodič se závislým dítětem atd.) a mnohé další.
Teprve když je vše výše uvedené hotovo, mohou analytici připravit tolik očekávané výstupy a analýzy, z nichž lze vyčíst například, kolik nás v rozhodném okamžiku pro sčítání bylo, kde žijí nejstarší či nejmladší obyvatelé, jak daleko dojíždíme do práce, jak velké byty obýváme a celou řadu dalších zajímavých informací.
Článek vyšel v časopise Statistika&My.
Více se dočtete zde: Obyvatelstvo