Knihovnička - Temná data

Temná data

proč záleží na tom, co nevíme

 

David J. Hand

 

vyšlo 2023 v nakladatelství Academia

 

272 stran

 

recenzi napsal v září 2023 Ondřej Vencálek

Nakladatelství Academia letos (2023) vydalo překlad knihy Temná data předního britského statistika Davida J. Handa. Anglický originál je z roku 2020. A jde o zajímavé čtení, které bych doporučil všem, kdo pracují s daty. Slovy temná data označuje Hand data, která z nejrůznějších důvodů (ať už vědomě či nevědomě, záměrně či nechtěně) nejsou k dispozici. Není proto divu, že takto široce chápaná (nepozorovaná) data nachází prakticky „na každém rohu“, tedy spíše ve všech možných situacích, a to včetně těch, kdy zdánlivě máme k dispozici pozorování všech statistických jednotek. Autor, který celý život pracoval jako statistik, těží ze svých bohatých zkušeností – na řadě zajímavých a často netriviálních příkladů vysvětluje, proč záleží na tom, co nevíme (tak zní podtitul knihy). Právě zdůraznění důležitosti přemýšlení o tom, co v datech není, činí knihu výjimečnou. Hand nabádá nejen všechny analytiky k ostražitosti a vede je k pochopení rizik, která s sebou temná data nesou.   

 

Poselství knihy velmi dobře vystihuje vtipné přirovnání v samotném závěru knihy: Vypráví starou anekdotu o opilci, který hledá klíče pod sloupem veřejného osvětlení. Proč zrovna tam? Kupodivu nikoliv proto, že by mu spadly právě tam, ale proto, že jedině tam je dost světla, aby je uviděl. Hand pak uzavírá: „Výzkumníci, analytici a vlastně všichni, kdo se snaží z dat získat význam, jsou jako onen opilec, omezí-li se jen na data, která mají k dispozici. Pokud nechápou, jak data vznikla a co v nich může chybět, vystavují se vážnému riziku, že budou hledat pouze tam, kam dohlédnou, a ne tam, kde by mohly ležet odpovědi.“   

 

Dovolím si nyní krátce připomenout text Michala Kulicha O datech z února 2021, tedy z doby nej(h)různějších analýz „covidových dat“, jejichž autoři výše uvedené Handovo varování nejspíš neznali, nebo si ho nebrali k srdci. Sami posuďte, jak Kulichův text s Handovým souzní: „Potřebujeme aspoň nějaká data, která […] jsou sbírána na pečlivě vybraných vzorcích podle předem připraveného plánu a naprosto konzistentními metodami, které minimalizují možnost chyb a omylů. Takhle se mají dělat pořádné studie. Přitom každá taková studie musí mít jasně stanovený účel, který determinuje, jaká data je potřeba sbírat, kdy a na kom.“ A Handův text zase souzní s Kulichovým: „… data, která potřebujete shromáždit, analýza, kterou budete provádět, i odpověď, kterou dostanete, to vše závisí na tom, co chcete zjistit.“ (Hand, str. 81)

 

Myšlenku potřeby znalosti procesu vzniku dat Hand detailně rozvedl ve druhé kapitole své knihy, v níž shrnul tři základní strategie tvorby datových souborů: první dva způsoby se týkají observačních dat, přičemž v prvním případě jsou zaznamenávány údaje o všech statistických jednotkách, zatímco ve druhém případě jen o některých. Třetím typem dat jsou pak data experimentální, tedy vzniklá při „experimentu“ spočívajícím v cíleném ovlivňování podmínek, za nichž jsou data sbírána. Hand přitom u všech tří způsobů sběru dat věnuje velkou pozornost možnosti výskytu temných dat.

 

Není mým cílem převyprávět obsah celé knihy. Přesto bych se rád zastavil u některých pasáží, ke kterým se budu v budoucnu zřejmě opakovaně vracet.

 

Jedním z těchto míst je pátá kapitola, kde je mj. zmíněna směrnice EU z roku 2004 o rovnosti žen a mužů, která „má bojovat proti diskriminaci na základě pohlaví“. Hand (na str. 120) zmiňuje dopad této směrnice na výši pojistného u pojištění automobilů. To bylo dříve nižší pro ženy, neboť data ukazovala, že je u nich menší pravděpodobnost, že budou mít nehodu. V momentě, kdy tato daty podložená skutečnost (rozdílnost v rizikovosti žen oproti mužům) musí být dle práva ignorována (Hand zmiňuje rozhodnutí soudu z roku 2013), je praktickým důsledkem této ignorace zvýšení pojistného u žen (méně rizikových) a snížení u mužů (více rizikových). Hand se pak zamýšlí nad společenským přínosem tohoto rozhodnutí a diskutuje pochopení pojmu „spravedlnost“ – klade si otázku, zda je spravedlivé, aby mužům a ženám, kteří se ve všech ostatních vlastnostech ve statistickém modelu shodují, bylo účtováno rozdílné pojistné, když data ukazují, že mají rozdílná rizika? Poznamenejme ještě, že Hand interpretuje nemožnost zohlednění určitého faktoru (např. pohlaví pojištěného) tak, že se z tohoto faktoru stávají „temná data“. 

 

Pro akademické a vědecké pracovníky (a možná i pro další zájemce) bude jistě zajímavá sedmá kapitola nazvaná „Věda a temná data: povaha objevování“. Zajímavá je v ní zejména diskuse týkající se replikační krize (str. 158 – 183). Hand obhajuje názor, že „k narušení vědeckého procesu nedochází“ a že „věda prokazatelně funguje“. Zajímavé je, že po tomto prohlášení předkládá dlouhý výčet neduhů, kterými věda trpí, a které by bylo možno považovat za protiargumenty výše uvedených tvrzení. Píše např. o publikačním zkreslení (s. 160), p-hackingu resp. problému mnohonásobného testování (s. 165), HARKingu (Hypothesis After the Result is Known, s. 168). Problému (ne)replikovatelnosti výsledků vysvětluje principem regrese k průměru. Hand (s  pro mě překvapivým klidem) konstatuje: „Neměli bychom být překvapeni, pokud anomální výsledek zmizí, a měli bychom očekávat že ‘deklarované výsledky výzkumu jsou často falešné’…“. Hand tedy vědeckému procesu věří navzdory jeho četným neduhům, jichž si je vědom. Pozornost věnuje také podvodům ve vědě. Za povšimnutí v této souvislosti stojí citace téměř 200 let starého díla Charlese Babbage, který v roce 1830 psal o tom, že „Vědecká zkoumání jsou více než jakákoliv jiná vystavena nájezdům podfukářů.“ Popsal přitom čtyři (hlavní) druhy podvádění: mystifikace, padělání, ořezávání a vaření. Hand tyto pojmy (resp. „techniky“) detailně vysvětluje (s. 171 – 180).

 

Zatímco v prvních sedmi kapitolách knihy se Hand věnuje „původu a důsledkům“ temných dat, ve druhé části knihy tvořené třemi kapitolami vysvětluje nejprve, jak s temnými daty nakládat (kapitola 8 je úvodem k tématu práce s chybějícími hodnotami) a „jak mít z temných dat užitek“ (v kapitole 9 pojednává o technikách jako např. simulace, boosting, bootstrap, ale také o bayesovské inferenci). V závěrečné desáté kapitole pak nabízí „kategorizaci“ temných dat (je zmíněno patnáct různých případů temných dat).

 

Kniha je psána populárně, bez matematických vzorců, je plná zajímavých příkladů. Když jsem si však položil otázku, zda je publikace určena široké veřejnosti, dospěl jsem k přesvědčení, že spíše ji ocení lidé, kteří s daty sami pracují. Rozhodně bych ji doporučil studentům oborů matematika, informatika, statistika, data science, a pochopitelně také nejrůznějších přírodních věd, jako motivaci k dalšímu studiu, resp. k zapsání přednášek týkajících se pokročilých statistických metod.