Přejít k obsahu

Web scraping ve statistice z pohledu Evropské unie

Ondřej Legner

15. 08. 2019

  • Statistiky
  • Čteme data správně?
  • Regiony a země
  • Mezinárodní data
Stále častěji se statistické úřady ohlížejí po jiných možnostech získávání informací, než jsou standardní statistická zjišťování. Jednou z možností je také využití tzv. big dat a metody web scrapingu.

Vznik web scrapingu, tj. způsobu automatického získávání a zpracování informací z internetových stránek, lze datovat podobně jako historii webových vyhledávačů, která se začala psát již v 90. letech minulého století. Metoda používá srovnatelné internetové techniky jako prohlížeče, s jejichž pomocí navštěvujeme webové stránky. Při web scrapingu nahlížíme do struktury a obsahu webových stránek, abychom nalezli a získali potřebné informace.

O důležitosti web scrapingu a jeho uplatnitelnosti ve statistice může svědčit i fakt, že je integrovaný jako významný prvek do výzkumného rámce Eurostatu – Evropského statistického systému (ESSnet), který v celé své šíři zkoumá možnosti využití tzv. big dat. Ve spolupráci s 22 partnerskými zeměmi Eurostat řeší web scraping ve dvou pracovních projektech – k problematice volných pracovních míst a k charakteristice podniků.

Zatím ve formě analýz

Řešitelem prvního projektu je Velká Británie spolu s Německem, Řeckem, Itálií, Švédskem a Slovinskem. Jeho obsahem je strojové získávání dat ze serverů s nabídkou zaměstnání a jejich využití pro statistiku pracovních příležitostí. Výstupy z projektu jsou zatím ve fázi předběžných analýz a nejsou tedy uznány za oficiální statistická data.
Součástí druhého projektu zaměřeného na web scraping, text mining a související metody sběru a zpracování podnikových údajů pro aktualizaci národních obchodních registrů je i realizační výstup řízený Itálií ve spolupráci s Bulharskem, Nizozemskem, Polskem, Švédskem a Velkou Británií. Zabývá se právními aspekty web scrapingu firemních webových stránek a usiluje o zajištění plného souladu se statistickou a ostatní legislativou. Zároveň je předkládána celá řada doporučení pro národní statistické úřady, jak informovat veřejnost o využití získaných dat pro výzkumné účely či ve veřejném zájmu apod. V průvodních dokumentech projektu je zdůrazněno, že je především nutné respektovat specifické zákony členských zemí (které však často chybějí nebo je jejich uplatnění na web scraping nejasné) a také tzv. netiketu – soubor pravidel chování na síti.
V Evropě se web scrapingem v současné době zabývá celá řada národních statistických úřadů. Jejich zkušenosti jsou zdokumentovány například ve veřejném zdroji projektu ESSnet Big Data na stránkách Eurostatu.

Od průzkumu k využití

A jaké jsou nejčastěji zmiňované přednosti využití big dat a web scrapingu ve statistice? Umožňují získat z internetu veřejná data, která jsou statisticky široce využitelná, bez dodatečné zátěže respondentů, resp. společností vlastnících webové stránky. Data si lze opatřit rychleji, efektivněji a mohou být aktuálnější než data ze šetření. Díky údajům z internetu se dají objevovat nové ukazatele pro zkvalitnění a prohloubení statistiky.

Druhá etapa projektu ESSnet Big Data odstartovala v listopadu 2018 a potrvá až do prosince 2020. Jeho moto zní: „Od průzkumu k využití“. Na projektu, jehož koordinátorem je nizozemský statistický úřad (CBS), se podílí 28 národních statistických institucí a orgánů napříč Evropou.

 

Více se dočtete zde: Statistiky