Met big data brengt Jeroen Smits de hele wereld in kaart
In de serie Baanbrekers gaat Vox op zoek naar gepassioneerde onderzoekers. In deze aflevering socioloog-econoom Jeroen Smits, die verslingerd is aan big data. Vanachter zijn computer brengt hij de hele wereld – en met name ontwikkelingslanden – in kaart.
In de computer van Jeroen Smits zitten dertig miljoen mensen. Ze wonen bijvoorbeeld in Colombia, Pakistan of Tanzania. Vraag hem wat het gemiddelde opleidingsniveau is van een volwassen vrouw in de regio Harari in Ethiopië, met één druk op de knop geeft hij het antwoord. Smits is een Big Data-expert. Door nieuwe verbanden te leggen tussen bestaande gegevens, hoopt hij zijn eigen bijdrage te leveren aan het oplossen van wereldproblemen.
Tweelingen
Voorbeeld: in Centraal-Afrika worden de meeste tweelingen geboren. God mag weten waarom, maar Smits en een Engelse collega vonden op basis van data-analyse uit dat het zo is. Benin is topscorer met 27,9 tweeling-geboortes per 1000 bevallingen (ter vergelijking: in Azië en Centraal-Amerika zijn het er minder dan 8). Smits publiceerde er in 2011 over in PlosOne en het onderzoek werd een hit. Niemand was eerder op het idee gekomen het aantal tweelingen tussen landen te vergelijken.
Vorig jaar volgde een nieuwe publicatie in The Lancet Global Health: onder die tweelingen in Centraal-Afrika blijkt de kindersterfte het hoogst. Samen met een collega kwam hij tot dat inzicht door de ‘tweelingenkaart’ en de ‘babysterftekaart’ over elkaar te leggen. ‘Door allerlei interventies neemt de babysterfte af in Afrika, maar dat gaat dus veel langzamer bij tweelingen’, vertelt hij in zijn kamer in het Elinor Ostromgebouw. ‘15 procent van de pasgeboren kinderen die overlijden, is van een tweeling.’ Conclusie: er moet meer aandacht komen voor de kwetsbare gezondheid van tweelingen en hun moeders. Alleen dan lukt het om de babysterfte nog verder te doen afnemen.
‘Het is mijn rol als wetenschapper de juiste vragen te stellen en de goede verbanden te leggen’
Redt hij levens met het vergelijken van cijfers van achter zijn Nijmeegse computer? Dat zal je hem niet horen zeggen – Smits is een bescheiden man – maar indirect kan het natuurlijk zo zijn. ‘Ik kan zien dat het artikel goed is gelezen. Het is mijn rol als wetenschapper de juiste vragen te stellen en de goede verbanden te leggen. Je hoopt dan dat anderen de conclusies lezen en er iets mee doen.’ Het is uiteindelijk aan overheden of gezondheidsorganisaties om het Afrikaanse veld in te gaan en zwangere vrouwen beter te begeleiden.
Strandjutter
In 2004 kreeg Jeroen Smits een Vidi-beurs. Hij was er als een kind zo blij mee, want met dat geld kon hij een eigen datacentrum opbouwen, dat sinds 2013 Global Data Lab wordt genoemd. Op de website www.globaldatalab.org zijn heel veel indicatoren voor gebieden binnen ontwikkelingslanden te vinden. Andere onderzoekers kunnen er ook terecht, het is gratis. Je vindt er gegevens over gezondheid, onderwijsdeelname, gezinsgrootte, huwelijksleeftijd en levensverwachting per provincie. De data verzamelt hij niet zelf, maar komen via organisaties als Unicef en het Amerikaans USAID die onderzoek doen naar demografische ontwikkelingen.
‘Meestal betreft het een steekproef binnen een land’, vertelt Smits. ‘Je krijgt dan bijvoorbeeld informatie van 80.000 respondenten in Tanzania met 1000 variabelen.’ De betreffende organisatie schrijft een rapport vanuit een bepaalde invalshoek en de ruwe data belanden in een archief.
Juist die ‘restjes’ zijn goud voor Jeroen Smits. Als een strandjutter speurt hij de websites af waar de bestanden te vinden zijn. ‘Kijk, hier staan de ‘ongoing surveys’. Deze gegevens zitten eraan te komen: Afghanistan 2018, Albanië 2017. Meestal pak ik de standaard Demographic and Health Surveys. Ik zit te wachten op Nieuw Guinea, daar zijn nog geen goede data van. Oh hier, Cambodja 2014 is net beschikbaar gekomen, die zal ik zo binnenhalen.’
Hij downloadt de databestanden, slaat ze op en runt daarna een harmonisatiebestand. Daarmee standaardiseert hij veelvoorkomende variabelen, zodat ze zich laten vergelijken. En dan kun je er dus alle analyses op loslaten die je wilt. De laatste jaren deed hij samen met zijn promovendi onderzoek naar de arbeidsparticipatie van vrouwen in Moslimlanden, etnische conflicten, gemengde huwelijken, groeiachterstand bij Afrikaanse kinderen. ‘Ik heb nog zo veel onderzoeksvragen. Probleem is dat het heel veel tijd kost om een analyse goed uit te voeren.’
Verjaardagsfeestjes
Smits laat zien wat er allemaal kan met data. Zou je bijvoorbeeld willen weten hoe sterk de positie van de vrouw is in een bepaald land, dan is de huwelijksleeftijd een indicator. ‘Een groot leeftijdsverschil met de man betekent automatisch dat je als vrouw een ondergeschikte positie hebt. In sommige regio’s trouwen meisjes met vijftien-zestien jaar. Meestal gaan ze dan niet meer naar school, dat maakt ze nog zwakker. Je kunt nog veel meer gevolgen in kaart brengen. Unicef vindt dat meisjes niet voor hun achttiende zouden moeten trouwen en voert hier actie voor.’
Van sociale wetenschappers is bekend dat ze vaak een allergie hebben voor cijfers, maar dat gaat voor Jeroen Smits niet op. Hij studeerde psychologie en sociologie, promoveerde bij sociologie, zwierf als onderzoeker langs verschillende universiteiten en eindigde tussen de databestanden in Nijmegen. ‘Ik zit hier bij economie, een erg prettige plek om te werken.’
‘In Nederland nemen de misdaadcijfers al jaren ongelooflijk af. Er zijn mensen die dat niet willen geloven’
Hij vangt wel eens gesprekken op bij verjaardagsfeestjes of hoort iemand wat roepen op tv. ‘Dat zou ik kunnen opzoeken’, denkt hij dan als het om beweringen gaat die een twijfelachtige grond hebben. ‘Maar daar zitten mensen vaak helemaal niet op te wachten. In Nederland zie je dat de misdaadcijfers al jaren ongelooflijk afnemen. Er zijn mensen die dat niet willen geloven omdat ze criminaliteit bijvoorbeeld graag koppelen aan het toegenomen aantal migranten.’
Smits is geen activist en schrijft geen vlammende opiniestukken in kranten. Liever werkt hij op de achtergrond. Zijn jongste bijdrage aan de maatschappij is een nieuwe sociaal-economische indeling van de wereld op provincieniveau. Hij legt het uit: ‘De Verenigde Naties maken elk jaar een ranglijst van landen op basis van menselijke ontwikkeling. Welke landen zitten in de lift en welke blijven achter? Dit heet de Human Development Index. Maar vaak zegt een landengemiddelde niet erg veel. Je ziet bij arme landen veelal dat het in de steden veel beter gaat dan op het platteland. Hoe verder van de hoofdstad, hoe slechter de voorzieningen. Daarom is het belangrijk om ook in kaart te brengen hoe het met regio’s binnen landen gaat.’
Dat laatste heeft hij samen met een collega-onderzoeker gedaan. Ruim een jaar waren ze bezig om op basis van hun eigen database de wereldkaart verder in te kleuren. In mei presenteerde hij de Sub-National Human Development Index, een instrument dat door de VN direct werd omarmd. ‘Vergelijk het met een sterrenkijker waarmee je naar de aarde kijkt. Eerst zag je 160 stukjes, nu 1600. Je kunt beter inzoomen en daardoor preciezer signaleren welke gebieden achterblijven.’ Op dit moment werkt Smits aan een publicatie over het project.
Natuurrampen
Wat hij daarna graag wil doen, is de sociaal-economische kaart van de wereld over de ‘natuurlijke’ kaart van de wereld leggen. ‘Het EU Copernicus project brengt de aarde via allerlei satellietsystemen vanuit de ruimte in beeld. Alle data zijn vrij toegankelijk. Je weet hoe de temperatuur zich ontwikkelt, wat de neerslag doet en kunt bijvoorbeeld nagaan in hoeverre klimaatverandering de kans op etnische conflicten vergroot. Ik wil ook graag kijken hoe de impact van natuurrampen – zoals de aardbeving op Lombok of de cycloon op St. Maarten – afhangt van de situatie van de mensen die er wonen. Weet een hoger opgeleide of gezondere bevolking de gevolgen van een dergelijke ramp beter op te vangen en sneller te herstellen? Het is technisch een heel karwei om de koppeling te maken met onze gegevens, want satellieten delen de aarde op in gridjes, vakjes, terwijl ik gegevens over gebieden heb. Ik werk nu samen met het Duitse Max Planck Institut for Biogeochemistry. We hopen samen de mens-omgevingsinteractie beter te kunnen onderzoeken. Dat vind ik een belangrijke stap die gemaakt moet worden.’
Dit is deel 7 in de Vox-serie Baanbrekers, over gepassioneerde onderzoekers.