Kunnen de beloftes waar worden gemaakt?
Een opvallend aspect van de vele persberichten die door de organisaties de wereld in worden gestuurd is de grote beloftes die daarin worden gedaan en waarmee enorme verwachtingen worden gewekt bij het brede publiek. Qua marketing is het natuurlijk logisch dat deze organisaties hun producten aan het grote publiek proberen te slijten. Gelukkig zijn er ook wetenschappers die deze beloftes kritisch tegen het licht houden.

Het doel van dit artikel is niet om kunstmatige intelligentie af te kraken. Het biedt zeker een aantal nuttige toepassingen en daarover schrijf ik ook voldoende in andere artikelen. Ik vind het zeker van belang om ook de keerzijde te belichten en en daarvoor gebruik ik voor dit artikel een publicatie van P.V. Coveney (University College London en Universiteit van Amsterdam) en S. Succi (University College London, Harvard University en Italian Institue of Technology). De geïnteresseerden kunnen het hele artikel via de bovenstaande link downloaden. In het artikel maken ze kanttekeningen bij de nauwkeurigheid en betrouwbaarheid van kunstmatige intelligentie en temperen ze de hoge verwachtingen.
Allereerst gaan ze in op de beperkingen bij het opschalen van de Large Language Models (LLMs). Meer informatie en meer rekenkracht betekenen niet per definitie dat de onzekerheid van de resultaten ook daadwerkelijk verbeteren. Het grote probleem vormt de manier hoe de LLM’s hun resultaten genereren, dat gebeurt namelijk niet door logisch te redeneren, maar door te niet oorzakelijk statistisch verband te leggen tussen de ingevoerde gegevens en het resultaat. In de modellen zijn correlaties vastgelegd en dat zijn geen causale en dus oorzakelijke verbanden. Het lijkt op een zwarte doos, waar iets in wordt gestopt en waar iets uitkomt, zonder dat duidelijk is hoe de ingevoerde gegevens daadwerkelijk met de resultaten samenhangen.

Wat het nog lastiger maakt is dat er een exponentieel verband bestaat tussen het aantal parameters en de benodigde rekenkracht (en daarvoor benodigde energie). De AI-modellen vragen nu al veel energie en dat zou met deze ontwikkeling alleen maar verder toenemen. Extra energie die opgewekt moet worden en die ook voor andere doelen ingezet kan worden. Daarbij blijkt uit onderzoek dat het voordeel van extra schaalgrootte bij LLMs erg klein zijn en eigenlijk niet opwegen tegen de exponentieel toenemende benodigde rekenkracht en het daarbij behorende energieverbruik. Een kleine foutreductie gaat ten koste van enorm veel meer rekenkracht en energie.
Bovendien treedt er volgens Cristian S Calude and Giuseppe Longo bij grote hoeveelheden gegevens nog een ander belangrijk effect op. In hun artikel The deluge of spurious correlations in big data wijzen ze erop dat het aantal toevallige betekenisloze correlaties exponentieel sneller groeit dan de echte verbanden. Voor de modellen achter kunstmatige intelligentie heeft dat als gevolg dat modellen bij grotere hoeveelheden gegevens meer geneigd zijn om verkeerde verbanden te leggen. Dit is niet met meer rekenkracht en sterkere computers te verhelpen.
Hieronder wordt een dergelijk toevallig, maar onjuist verband getoond op basis van feitelijke data. Het mag duidelijk zijn dat het aantal huwelijken niets te maken heeft met het aantal doden op vissersboten, terwijl het lijkt dat er in de getoonde twaalf jaren wel degelijk een dergelijk verband bestond.

Het gevolg is dat vanaf een bepaalde omvang de modellen zich soms vreemd gaan gedragen. Waar wordt verwacht dat ze beter gaan functioneren worden de resultaten slechter. Dan treedt een effect op dat ook wel degeneratie AI wordt genoemd. De statistische onzekerheid in de betrouwbaarheid van het model neemt toe. Zeker als de fouten zich opstapelen en het model wordt getraind met synthetische data kan dat leiden tot een ineenstorting van het model. De resultaten worden steeds slechter en er ontstaat een neerwaartse spiraal. Dat is vervelend, zeker als het steeds moeilijker wordt om de resultaten aan de feitelijke situatie te toetsen. Dan kan het zomaar zijn dat een model op het ene moment een dergelijk verband legt, terwijl enige tijd later weer een heel ander verband wordt gelegd. Het kan op termijn leiden tot informatiecatastrofes, waarin de overvloed van extra gegevens tot minder betrouwbare uitkomsten leidt. In de wiskunde komt een dergelijk effect ook voor bij afrondingsfouten, wanneer steeds exactere cijfers worden verwacht en er erg kleine verschillen tussen waarden moeten worden bepaald.
Coveney en Succi stellen dat LLMs daarom structureel te onnauwkeurig zijn om voor wetenschappelijke toepassingen te worden gebruikt. Alhoewel de resultaten van kunstmatige intelligentie successen kent kunnen deze in wetenschappelijke termen beter als hypothesen worden gezien en zijn zeker geen vervanging voor experimenten.

Toch zien ze ook positieve ontwikkelingen binnen kunstmatige intelligentie door de komst van Large Reasoning Models (LRMs) en Agentic AI. De LRMs maken hun redeneringen expliciet en worden daarmee ook controleerbaar en wellicht zelfs aanpasbaar om de redenering van het model te verbeteren met menselijke kennis. In Agentic AI werken meerdere modellen samen in een zogenaamde Chain of Thought. Door deze beide benaderingen zou de betrouwbaarheid en daarmee ook de bruikbaarheid vergroot kunnen worden.
Een alternatief voor deze benadering kan het blijvend benutten van de creativiteit van LLM’s zijn, maar deze dat te koppelen aan evaluatie- en selectiemechanismen, waardoor langs een evolutionaire weg de modellen zich met vallen en opstaan verbeteren.
De geconstateerde problemen zijn te vermijden door meer nadruk te leggen op inzicht en begrip en door met wetenschappelijke methoden de valse correlaties van de feitelijke oorzakelijke verbanden te scheiden. Ook zal aandacht moeten worden besteed aan het werken met de chaotische systemen die ontstaan door het beschikbaar stellen van allerlei gegevens, zonder daarbij op voorhand een context te kennen.
