EOS data science

Data in de schatkamer van de wetenschap

Wetenschappers hoeven niet altijd nieuwe data te zoeken. Met de juiste technieken halen ze verhelderende inzichten uit oude data. De schatkamers van de wetenschap herbergen onvermoede juwelen.

tekst René Rector, Sciencestories

Wetenschappelijk onderzoek levert nieuwe kennis op. En ook na de publicatie van de re- sultaten kan je er extra inzichten uit persen. Bijvoorbeeld over virussen. Die gebruiken een gastheer om zich te vermenigvuldigen. Eenmaal binnen zoeken ze de juiste cellen voor die klus. Wat de juiste cellen zijn, hangt af van het soort virus. Hepatitisvirussen vinden een geschikte plek in de lever, hiv gebruikt cellen van het afweersysteem om zich te vermenigvuldigen. Ze speuren gastheercellen op met behulp van eiwitten op hun oppervlak. Die passen als een sleutel precies op eiwitten aan de buitenkant van de juiste gastheercel. In de gastheercel kan de replicatie beginnen. De gastheercellen raken beschadigd of gaan dood, de mens die als gastheer optreedt, wordt ziek. Het afweersysteem heeft hier iets op gevonden. Het produceert eiwitten die zodanig aan een virus plakken, dat hun ‘sleutel’ nergens meer op past. Om dat te kunnen, moet een gastheer virussen herkennen als indringer. De herkenning daarvan is deels gebaseerd op eerdere ervaringen met binnendringers en deels aan- geboren. In onze genen hebben we codes opgeslagen waarmee je eiwitten kan maken die virussen signaleren en die andere delen van het immuunsysteem aanzetten tot actie.

Snappen hoe het immuunsysteem genetisch werkt, staat hoog op de bucketlist van virologen. Je zou me- dicijnen kunnen ontwikkelen die aansporen tot de ge- netische activiteit waarvan je hebt ontdekt dat die voor heel veel virusinfecties essentieel is.

Mensen en dieren

Om een idee te krijgen hoe dat in z’n werk gaat, ging ik naar het Center for Molecular en Biomolecular Informatics in Nijmegen. Aan het Radboud universitair medisch centrum werkt hoogleraar Martijn Huynen. ‘Je kunt bijvoorbeeld het mazelenvirus bestuderen, maar dan weet je vooral hoe het zit bij mazelen. Een deel van de genactiviteit in het immuunsysteem die je dan meet, is specifiek voor mazelen. We willen weten wat er generiek gebeurt. Daar heb je in de bestrijding van veel meer virussen iets aan.’

Het lastige bij generiek kijken, is dat je heel veel on- derzoek moet doen. Je moet kijken naar heel veel vi- russen en naar heel veel processen. Samen met onder- zoeker Robin van der Lee vergeleek Huynen bijvoor- beeld DNA van mensen, mensapen en andere apen die evolutionair verder van de mens vandaan staan. De genetische datasets van steeds meer dieren worden beschikbaar. De bio-informatici zochten daarin naar iets heel speciaals: DNA dat veel mutaties had onder- gaan en meer mutaties dan je zou verwachten.

Dat lijkt op het eerste gezicht wat merkwaardig, maar de gedachte erachter is dat virussen en het immuun- systeem al miljoenen jaren een soort kat-en-muisspel spelen. Een virus moet de eiwitten die zorgen dat hij vat heeft op een gastheer snel kunnen aanpassen, anders zijn er al heel snel geen gastheren meer die niet immuun zijn. Die sleuteleiwitten muteren heel snel en het immuunsysteem past zich daaraan snel aan. Kijk je in een vergelijking tussen mens, bonobo en makaak naar de eiwitten die het snelst zijn geëvo- lueerd, dan weet je dat die immuuneiwitten ertussen zitten.

Genoomregulatie-eiwitten

Een andere bron van data is die van genoomregulatie- eiwitten. Al onze cellen bevatten al ons erfelijk mate- riaal in de vorm van DNA, maar meestal gebeurt daar niets mee. Pas als de cel een bepaald stukje DNA no- dig heeft voor de synthese van een eiwit, leest de cel dat af. Dat een bepaald stukje nodig is, ‘weet’ ze door- dat er een stof aanwezig is die speurt naar het juiste stukje DNA. Zo’n stof heet een ‘transcriptiefactor’ en is zelf vaak … een eiwit.

‘Van een flink aantal van zulke transcriptiefactoren is bekend dat ze een rol spelen in het immuunsysteem. Kijk vervolgens op welk stuk DNA ze ‘passen’, en dan weet je ook welk gen ze aanzetten’, legt Van der Lee uit. In Nijmegen speurden de wetenschappers met tien- tallen bekende datasets naar nog onbekende geneti- sche onderdelen van het immuunsysteem. Sets met eiwitten waarvan bekend is dat ze reageren op eiwit- ten die virussen aanmaken, sets met menselijke ge- nen waarvan uit onderzoek bleek dat ze actief waren bij een virusinfectie, sets met genetisch menselijk materiaal van bevolkingsgroepen van over de hele we- reld. Al die sets waren er allang, maar hun combinatie leverde nieuwe kennis op.

Meten is weten?

Waar komen dat soort datasets vandaan? Van der Lee en Huynen zijn niet uitmuntend beter belezen dan hun vakgenoten. Ze worstelden zich echt niet door vele duizenden pagina’s wetenschappelijke literatuur heen. Om te snappen waardoor de wetenschappelijke schatkamers steeds toegankelijker zijn, zoek ik infor- matietechnoloog Wil van der Aalst op. Hij start aan de Technische Universiteit van Eindhoven in septem- ber met een nieuwe opleiding data science. ‘In de hele samenleving meten we steeds meer. We komen om in de data, niet alleen in de wetenschappen.’

“Data deluge”

De oorzaak van al dat meten is niet moeilijk te vinden. Computers kunnen steeds meer gegevens opslaan en verwerken. ‘De Wet van Moore is ondertussen 50 jaar. Hij voorspelde dat de processorcapaciteit elke twee jaar verdubbelt. Het einde daarvan is nog niet in zicht.’ Wie z’n Facebook-app opent op zijn smartphone, geeft daarmee toestemming aan Facebook om zijn activiteit op het platform op 700 parameters te registreren. Maar aan data an sich heb je niets. ‘Je moet op de een of andere manier zorgen dat je uit die data zinnige informatie haalt’, zegt Van der Aalst.

Wetenschapshistoricus Chunglin Kwa van de Universiteit van Amsterdam bestudeert de manier waarop wetenschapsbeoefening de afgelopen decennia ver- anderde. ‘In de jaren negentig zag ik voor het eerst artikels verschijnen met data deluge in de abstract. Data deluge wil zeggen dat er zoveel data beschikbaar komt, dat je er als wetenschapper niet meer uitkomt.’ Anders is volgens Kwa vooral de techniek die proeven ondersteunt. Vroeger stuitte je als wetenschap- per op een probleem, je dacht er een proefje voor uit, voerde dat proefje uit en aan de hand van de uitkom- sten sleutelde je verder aan het probleem. ‘Nu gaan heel veel meetprocessen geautomatiseerd. Je moet natuurlijk wel zelf bedenken wat je wilt meten, maar wat je terugkrijgt, is nu een enorme berg gegevens. Veel onderzoekers pikken daar dan alleen uit wat ze nodig hebben, en de rest van die gegevens blijft on- gebruikt.’

Meten gaat steeds sneller en goedkoper. Op de eerste paar genomen die wetenschappers compleet ontrafelden, promoveerden mensen. Het nam jaren in beslag en kostte tonnen. Nu kost het nog 500 euro om het genoom van een organisme te analyseren in een ellenlange reeks A’s, C’s, G’s en T’s.

Het hele verhaal verscheen in het juli/augustus-nummer 2016 van:

eos maandblad over wetenschap