Een jaar of tien geleden belandde ik bij toeval op een boekenmarkt net buiten Brugge, langs een smalle kronkelweg. Navigatiesystemen waren nog zo weinig ingeburgerd dat de snelste route me langs dit rustieke tafereeltje voerde. Dat is iets dat maar een tijdje goed gaat, want als de massa dit ontdekt loopt het helemaal vast en worden we met z’n allen systematisch weer over de hoofdweg geleid die ik ook zonder navigatiesysteem had gekozen. Het bleek maar een voorproefje te zijn van een fenomeen dat inmiddels veel grootschaliger zijn intrede heeft gedaan: machine learning voor het doen van voorspellingen. Dat leidt ons helaas wel vaker terug naar de weg die we al kenden.
Op die boekenmarkt stuitte ik op een vergeelde en licht ingescheurde uitgave van ‘The Road to Serfdom’ van Friedrich Hayek. Ik kende de beste man alleen van horen zeggen, maar avontuurlijk ingesteld als ik ben nam ik het risico het werkje te ruilen voor een briefje van tien. Ik heb het na thuiskomst vrijwel in een ruk uitgelezen. Vreemd genoeg kende ik weinig mensen die het ook hadden gelezen, ook als zij net als ik belangstelling hadden voor politieke filosofie. Een gelukstreffer dus.
Mijn literaire ‘oppikplek’ is nu niet langer de boekenmarkt, maar de e-boekenwebsite van een grote naam. Het begon met een Herman Koch. En warempel, als ik terugkeer naar dezelfde verkoper, krijg ik de aanbeveling de rest van Herman’s oeuvre ook maar tot mij te nemen. Vele (en verschillende) boeken later zijn de aanbevelingen iets gevarieerder, maar ze komen niet voorbij de genres, auteurs en talen die ik al eerder in de winkelmand heb gegooid.
Machine learning blijkt er niet op gericht te zijn om te verklaren waarom iets samenhangt met iets anders, het gaat alleen om de kwaliteit van de voorspelling.
De boekenwebsite maakt gebruik van machine learning om mij aanbevelingen te kunnen doen. Dat komt erop neer dat een voorspelling wordt gedaan over de boeken die ik met de grootste waarschijnlijkheid zal kopen, op basis van wat ik eerder gekocht of bekeken heb. Het is vooral krachtig omdat mijn gegevens met die van veel andere lezers worden gecombineerd. ‘Mijn soort mensen’ leest en koopt nu eenmaal een bepaald soort boeken. De ‘machine leert’ zogenaamd onze voorkeuren en kent ons beter dan wij onszelf kennen. Verborgen verlangens worden feilloos ontrafeld. Maar hoe komt het dan dat ik ‘The Road to Serfdom‘ nog nooit heb zien ‘oppoppen’, terwijl ik het zou kopen en kan waarderen? Kan machine learning me iets werkelijk nieuws vertellen?
Helaas is die kans niet zo groot. De computermodellen zijn hongerig naar data – en die gaat per definitie over het verleden. Machine learning blijkt er niet op gericht te zijn om te verklaren waarom iets samenhangt met iets anders, het gaat alleen om de kwaliteit van de voorspelling. Als ik een Herman Koch heb gekocht, is het dan waarschijnlijker dat ik er nog een koop of dat ik toe ben aan een zelfhulpboek voor mannen van middelbare leeftijd? De uitkomst daarvan bepaalt welk van de twee me bij een volgend bezoek wordt voorgehouden.
Als ik vervolgens in ga op deze ‘persoonlijke’ aanbeveling, leidt dat tot nieuwe data die weer in het model wordt opgenomen. Hoewel, werkelijk nieuw? Het bevestigt de patronen die er in het verleden al waren. Als tien mensen na een Koch nog een Koch kochten, zijn dat er nu elf, en zal de aanbeveling nog sterker worden opgedrongen aan de volgende gelijkende bezoeker. De uitkomst van het machinale geleer leidt al snel tot een verschraling in plaats van een verrijking van de aanbevelingen. Machine learning draagt daarmee het gevaar van inteelt in zich.
Als ik nog eens iets nieuws wil ontdekken, kan ik maar beter onbelemmerd grasduinen in de buitenlucht. Maar zou ik de boekenmarkt nog kunnen vinden nu het navigatiesysteem me in de steek heeft gelaten?