Web scraping ve statistice z pohledu Evropské unie
15. 08. 2019
Statistiky Čteme data správně? Regiony a země Mezinárodní data
Vznik web scrapingu, tj. způsobu automatického získávání a zpracování informací z internetových stránek, lze datovat podobně jako historii webových vyhledávačů, která se začala psát již v 90. letech minulého století. Metoda používá srovnatelné internetové techniky jako prohlížeče, s jejichž pomocí navštěvujeme webové stránky. Při web scrapingu nahlížíme do struktury a obsahu webových stránek, abychom nalezli a získali potřebné informace.
O důležitosti web scrapingu a jeho uplatnitelnosti ve statistice může svědčit i fakt, že je integrovaný jako významný prvek do výzkumného rámce Eurostatu – Evropského statistického systému (ESSnet), který v celé své šíři zkoumá možnosti využití tzv. big dat. Ve spolupráci s 22 partnerskými zeměmi Eurostat řeší web scraping ve dvou pracovních projektech – k problematice volných pracovních míst a k charakteristice podniků.
Zatím ve formě analýz
Řešitelem prvního projektu je Velká Británie spolu s Německem, Řeckem, Itálií, Švédskem a Slovinskem. Jeho obsahem je strojové získávání dat ze serverů s nabídkou zaměstnání a jejich využití pro statistiku pracovních příležitostí. Výstupy z projektu jsou zatím ve fázi předběžných analýz a nejsou tedy uznány za oficiální statistická data.
Součástí druhého projektu zaměřeného na web scraping, text mining a související metody sběru a zpracování podnikových údajů pro aktualizaci národních obchodních registrů je i realizační výstup řízený Itálií ve spolupráci s Bulharskem, Nizozemskem, Polskem, Švédskem a Velkou Británií. Zabývá se právními aspekty web scrapingu firemních webových stránek a usiluje o zajištění plného souladu se statistickou a ostatní legislativou. Zároveň je předkládána celá řada doporučení pro národní statistické úřady, jak informovat veřejnost o využití získaných dat pro výzkumné účely či ve veřejném zájmu apod. V průvodních dokumentech projektu je zdůrazněno, že je především nutné respektovat specifické zákony členských zemí (které však často chybějí nebo je jejich uplatnění na web scraping nejasné) a také tzv. netiketu – soubor pravidel chování na síti.
V Evropě se web scrapingem v současné době zabývá celá řada národních statistických úřadů. Jejich zkušenosti jsou zdokumentovány například ve veřejném zdroji projektu ESSnet Big Data na stránkách Eurostatu.
Od průzkumu k využití
A jaké jsou nejčastěji zmiňované přednosti využití big dat a web scrapingu ve statistice? Umožňují získat z internetu veřejná data, která jsou statisticky široce využitelná, bez dodatečné zátěže respondentů, resp. společností vlastnících webové stránky. Data si lze opatřit rychleji, efektivněji a mohou být aktuálnější než data ze šetření. Díky údajům z internetu se dají objevovat nové ukazatele pro zkvalitnění a prohloubení statistiky.
Druhá etapa projektu ESSnet Big Data odstartovala v listopadu 2018 a potrvá až do prosince 2020. Jeho moto zní: „Od průzkumu k využití“. Na projektu, jehož koordinátorem je nizozemský statistický úřad (CBS), se podílí 28 národních statistických institucí a orgánů napříč Evropou.
Více se dočtete zde: Statistiky