Ethische↓Ethiek is een tak binnen de filosofie die zich bezighoudt met de systematische reflectie van wat als goed of juist handelen bestempeld wordt. >Hoofdstuk 3.1 principes en richtlijnen↓In de afgelopen jaren hebben uiteenlopende bedrijven, onderzoeksinstellingen en overheidsorganisaties verschillende principes en richtlijnen opgesteld voor ethical AI. Zowel op nationaal en continentaal niveau, als op mondiaal niveau. >Hoofdstuk 3.2.1 kunnen ons helpen om overeenstemming te vinden over wat we belangrijk vinden om zo AI↓De meest dominante associatie met AI is machine learning. Uit onderzoek van de World Intellectual Property Organisation (WIPO) uit 2019 blijkt tevens dat machine learning de meest dominante AI-technologie is die in patentaanvragen is opgenomen. Binnen deze toekomstverkenning richten we ons daarom hoofdzakelijk op machine learning en aanverwante methodieken. >Hoofdstuk 1.1.1-toepassingen te kunnen ontwikkelen die hieraan voldoen. De vraag is echter in hoeverre deze richtlijnen in de praktijk standhouden. Er wordt namelijk vooral gekeken naar de voorwaarden en in mindere mate naar de gevolgen. In de praktijk komen er echter dilemma’s voor, waarbij waardenconflicten kunnen ontstaan. We zijn het er in de basis allemaal over eens dat je bijvoorbeeld niet mag doden. Maar wat doe je als een terrorist 100 mensen probeert neer te schieten? Mag een autonome wapendrone dan niet ingrijpen? Daarbij is er in de praktijk vaak sprake van verzachtende omstandigheden. Zo zijn we het er allemaal wel over eens dat je niet mag stelen. Maar wat als een alleenstaande moeder steelt omdat haar kind anders niets te eten heeft? Moet een robotrechter dan toch gewoon de regels volgen en de moeder volwaardige straffen opleggen? Ethische richtlijnen zouden niet alleen moeten gaan over wat we belangrijk vinden, maar ook over hoe belangrijk we verschillende waarden ten opzichte van elkaar vinden. En in welke omstandigheden we dat vinden.
Wanneer we de ‘Ethics Guidelines for Trustworthy AI’ van de Europese Commissie als uitgangspunt nemen, dan valt het op dat dergelijke trade-offs nauwelijks benoemd worden. Sterker nog, er wordt aangegeven dat alle vereisten even belangrijk zijn en elkaar ondersteunen.

Er is slechts een kleine alinea over trade-offs in het rapport opgenomen. Hierin wordt voornamelijk benoemd dát er trade-offs kunnen optreden en er hierbij afwegingen moeten worden gemaakt, maar welke afwegingen dat precies zijn en op elke wijze deze afwegingen gemaakt kunnen worden blijft onduidelijk. Er wordt alleen aangegeven dat de afwegingen moeten worden geëvalueerd en gedocumenteerd.
Wat vinden we écht belangrijk?
Volgens de richtlijnen van de Europese Commissie zijn de zeven ‘key requirements’ even belangrijk. Wanneer je mensen echter vraagt een prioritering aan te geven, dan blijken er overduidelijke verschillen te bestaan tussen de waardering van verschillende principes. Uit eigen onderzoek blijkt dat de waarden autonomie (‘Human agency and Oversight’), privacy (‘Privacy↓In het Europees Verdrag voor de Rechten voor de Mens is privacy opgenomen als het recht op respect voor het privéleven. Deze bepaling vereist een eerlijke balans tussen het maatschappelijk belang dat een technologie dient en de inbreuk op het privéleven die de technologie maakt. >Hoofdstuk 3.1.2 and Data Governance’) en gelijkwaardigheid (‘Diversity, Non-Discrimination and Fairness↓Fairness is een veelgebruikt principe in ethische richtlijnen en assessment tools. Het vraagstuk wat precies ‘fair’ is houdt filosofen al een paar honderd jaar bezig. Door de komst van AI krijgt dit vraagstuk een nieuwe dimensie. Het concept van eerlijkheid moet namelijk in wiskundige termen worden uitgedrukt. >Hoofdstuk 3.2.3 ) veel hoger scoren dan onder andere uitlegbaarheid (‘Transparency↓Transparantie binnen het besluitvormingsproces van AI gaat voornamelijk over het proces en de opgestelde criteria vooraf. >Hoofdstuk 3.1.2’) en aansprakelijkheid (‘Accountability↓Verantwoordelijkheden die door de wet worden voorgeschreven noemen we aansprakelijkheid. >Hoofdstuk 3.1.2’). We legden respondenten (n=108) zeven principes voor met de vraag deze te prioriteren: 1 = een lage prioriteit en 7 = een hoge prioriteit.
Principe | Gemiddelde score |
Menselijke controle behouden (autonomie) | 4,81 |
Persoonsgegevens beschermen (privacy) | 4,80 |
Ongelijkwaardigheid bestrijden (voorkomen biases) | 4,67 |
Menselijke keuzes optimaliseren (efficiëntie) | 3,88 |
Uitlegbaarheid van het systeem vergroten (oplossen blackbox) | 3,77 |
Aansprakelijkheidsprobleem oplossen (wetgeving) | 3,34 |
Internationale positie in AI verbeteren (geopolitiek) | 2,73 |
Ook uit de overige vragen blijkt dat autonomie als enorm belangrijk wordt ervaren. Zo geeft de overgrote meerderheid van de respondenten aan dat strenge wetgeving en regulering nodig zijn om de controle over AI te behouden, ook als dit de ontwikkeling van de technologie vertraagt. Wanneer je echter inzoomt zie je dat er verschillen ontstaan, met name tussen de verschillende groepen respondenten. We legden dezelfde vragenlijst voor aan drie verschillende groepen, namelijk AI-experts, bestuurders en studenten. Uit de analyse blijkt dat AI-experts geneigd zijn om meer risico te nemen met AI dan de andere groepen. Zo staan er in verhouding meer experts voor open dat AI-systemen autonome beslissingen maken en zijn ze bereid een hogere onzekerheidsmarge van de systemen te accepteren. Wanneer het aankomt op het verkrijgen van een internationale voorsprong in de ontwikkeling van AI zijn het juist bestuurders die bereid zijn om grotere risico’s te nemen. Relatief meer bestuurders geven aan dat we er als land alles aan moeten doen om een voorsprong op de ontwikkeling van AI↓Momenteel is de interesse in AI dermate groot dat wereldmachten de strijd met elkaar aangaan. Uit onderzoek van PwC uit 2017 blijkt dat het wereldwijde Gross Domestic Product (GDP) in 2030 door ontwikkelingen op het gebied van AI maar liefst 14% hoger zal liggen. Volgens de Russische president Poetin zal het land met de beste AI over de wereld heersen (2017). >Hoofdstuk 1.3.2 te krijgen, ook als dit tot internationale spanningen leidt. Studenten zijn in verhouding meer bezorgd over hun privacy.
Het wordt nog interessanter wanneer de verschillende principes tegen elkaar afgezet worden. In het algemeen krijgen zowel privacy als gelijkwaardigheid een zeer hoge score. Wanneer deze echter tegen elkaar afgezet worden blijkt dat het overgrote deel van de respondenten liever altijd over zijn/haar data kan beschikken, dan dat ze hun data afstaan om daarmee ongelijkwaardigheid te kunnen bestrijden. Op andere vlakken is veel meer verdeeldheid. Zo geeft een deel van de respondenten aan dat als we niet begrijpen hoe een AI-systeem aan zijn resultaten komt we het niet moeten gebruiken, terwijl het voor een evenredig deel van de respondenten niet uitmaakt hoe een AI-systeem aan zijn resultaten komt. Zij vinden het vooral belangrijk dat het systeem naar verwachting presteert. Mensen hebben dus verschillende opvattingen als het op dergelijke principes aankomt. Deze opvattingen zijn daarbij contextafhankelijk. Het is daardoor lastig om algemene richtlijnen te vertalen naar de praktijk. In veel gevallen zullen er afwegingen gemaakt moeten worden.
» Normen en waarden zijn universeel. Het zijn de morele oordelen die verschillen tussen mensen. «
— Wiegert van Dalen, Ethicus
Welke trade-offs zijn er?
Wanneer AI-systemen in de praktijk worden toegepast zijn er verschillende waardenconflicten denkbaar. Zowel tussen waarden, als binnen waarden. Wat we belangrijk vinden hangt onder andere af van de context waarin het systeem wordt toegepast. Het maakt nogal een verschil of het gaat om een aanbeveling voor een film, een diagnose op basis van longfoto’s in het ziekenhuis of een advies ten aanzien van een bedrijfsovername. Er moeten daarbij ook technische afwegingen gemaakt worden. Wanneer we bijvoorbeeld vol inzetten op transparantie, dan zal dat de mate van privacy beïnvloeden. Het wil niet zeggen dat we dan privacy volledig moeten opgeven. Het is geen ‘zero-sum game’ waarbij we het een voor het ander moeten uitruilen, maar er zullen in het ontwerp wel keuzes gemaakt moeten worden. Om waarden ten opzichte van elkaar te kunnen maximaliseren, moeten de eventuele spanningen eerst geïdentificeerd worden.
Technische trade-offs
Een belangrijke trade-off in de praktijk is tussen accuracy en explainability↓Het wordt steeds lastiger voor mensen om te achterhalen op basis van welke data de uitkomsten van AI gebaseerd zijn. AI wordt daarom nu nog vaak vergeleken met een black box. >Hoofdstuk 1.2.2. Methodieken die momenteel bij de ontwikkeling van AI-systemen worden gebruikt, zoals deep learning↓Deep learning is een machine learning-methode die gebruik maakt van verschillende gelaagde artificial neural networks. >Hoofdstuk 1.1.1, zijn dermate complex dat de precieze beslissingsprocessen niet volledig herleidbaar zijn. De optimalisering van dergelijke systemen vindt nu nog vaak plaats aan de hand van trial and error: er wordt aan de input getweaked om te kijken wat dit met de output doet. Wanneer je de accuratesse van het systeem wilt optimaliseren, dan zal je een stukje van je uitlegbaarheid moeten inleveren. Aan de andere kant van het spectrum staat lineaire regressie. Deze methodiek is ten opzichte van deep learning totaal niet flexibel, maar wel goed uitlegbaar↓Binnen het besluitvormingsproces van AI gaan de uitleg en uitlegbaarheid over de toelichting op en herleidbaarheid van het besluit achteraf. >Hoofdstuk 3.1.2. Soms kiezen mensen vanuit de behoefte aan uitlegbaarheid voor deze toepassingen, zelfs als ze weten dat de relatie tussen de onderliggende variabelen niet recht evenredig is.
» Als je grillige data hebt en je wil daarvan kunnen leren, dan betaal je daar een prijs voor. «
— Maarten Stol, BrainCreators
Een vergelijkbare afweging doet zich voor op het gebied van privacy en accuracy. In het algemeen geldt dat hoe vollediger en omvangrijker de dataset is waarmee een AI-systeem getraind wordt, hoe nauwkeuriger het systeem is. Wanneer AI bijvoorbeeld wordt toegepast om toekomstige aankopen van consumenten te voorspellen op basis van hun aankoopgeschiedenis, dan zal het model nauwkeuriger worden naarmate de data verrijkt wordt met bijvoorbeeld demografische gegevens. Het verzamelen van persoonsgegevens kan echter de privacy van de klanten schaden.
Wanneer de dataset niet volledig is kan dit leiden tot vertekende of discriminerende resultaten. Hierbij kan een trade-off ontstaan tussen privacy en fairness. Organisaties kunnen verschillende technische maatregelen nemen om dit risico te beperken, maar de meeste van deze technieken zorgen ervoor dat de nauwkeurigheid van het systeem lager wordt. Wanneer je bijvoorbeeld wilt voorkomen dat mensen bij een kredietbeoordeling geclassificeerd worden op basis van hun postcode als indicator voor hun ras, dan zou de postcode door het model buiten beschouwing moeten worden gelaten. Dit kan helpen om discriminerende uitkomsten te voorkomen, maar het kan ook leiden tot een minder nauwkeurige meting. Dit komt omdat de postcode mogelijk ook een indicator is voor een legitieme factor, zoals baanzekerheid, waardoor het de nauwkeurigheid van de uitkomsten verlaagt.
Deze afwegingen werken weer door op de veiligheid van het systeem. Als je model minder accuraat is, dan is de kans op fouten groter wat invloed heeft op de veiligheid. Als je safety optimaliseert en daardoor de uitlegbaarheid deels opgeeft, dan gaat dat weer bijten in je accountability. Aansprakelijkheid is namelijk lastiger te herleiden wanneer de uitlegbaarheid van het systeem beperkt is. Trade-offs vallen daarmee in een spectrum. Mensen moeten kiezen waar zij zich in het spectrum het meest comfortabel voelen. Daarvoor bestaat geen gulden snede, het is allemaal maatwerk.
» An algorithm that performs exactly as intended and with perfect accuracy is not necessarily an ethical use of AI. «
— Kalev Leetaru, George Washington University
Alignment trade-offs
In 540 voor Christus wenste Koning Midas dat alles wat hij aanraakte in goud zou veranderen. Zijn eten en geliefden veranderden daardoor echter ook in goud. Hij werd hierdoor zo eenzaam en raakte zo uitgehongerd dat hij zijn krachten opgaf. Bij het formuleren van zijn doel dacht hij niet goed na over de gevolgen. Dit wordt ook wel het Value Alignment Problem (VAP) genoemd. Theoretisch gezien zou een intelligente machine die geprogrammeerd is om zoveel mogelijk paperclips te produceren álles in werking kunnen stellen om dat doel te bereiken. Nick Bostrom filosofeert in het boek Superintelligence↓Artificial Super Intelligence (ASI) kan bereikt worden wanneer AI het kunnen van het menselijk brein op alle mogelijke domeinen overstijgt. >Hoofdstuk 1.1.1 dat de machine dan alles wat de productie belemmert uit de weg zal ruimen. Zelfs de mens, want die draagt immers niet bij aan de productie van paperclips. Een machine kan zo doelgedreven zijn, dat de resultaten niet overeenkomen met wat we willen.
Het is dus van belang om te bepalen wat een succesvolle uitkomst is. Het is daarbij de vraag of we op basis van wenselijkheid of op basis van werkelijkheid programmeren. Wanneer je een aantal jaar geleden de zoekterm ‘CEO’ googelde, dan kreeg je bij de afbeeldingen voornamelijk witte mannen van middelbare leeftijd te zien. Je moest een flink eindje scrollen voor de eerste afbeelding van een vrouw. Kijkend naar de statistieken is dit echter niet volledig inaccuraat. Vrouwen zijn nog steeds ondervertegenwoordigd in de hoogste managementposities. Uit de data van Pew Research Center blijkt dat in 2018 het percentage vrouwelijke CEO’s in de Fortune 500 slechts 4,8% was. Wanneer je dezelfde zoekopdracht op Google Search in 2020 herhaalt dan zijn van de eerste 20 personen die worden afgebeeld, 3 personen van het vrouwelijke geslacht. Dat is 15%. Nog steeds een laag percentage, maar wel een stuk hoger dan wat het in de werkelijkheid is. Daarbij is de vraag wie bepaalt wat een succesvolle uitkomst is. Wanneer je bijvoorbeeld een algoritme↓Een algoritme is een wiskundige formule. Het is een eindige reeks instructies die vanuit een gegeven begintoestand naar een vooraf bepaald doel leidt. >Hoofdstuk 1.1.1 wilt inzetten die op basis van ingrediënten bepaalt wat je kunt koken, dan is het erg bepalend wie precies definieert wat succes is. Ouders willen dat hun kinderen gezond eten, maar de kinderen zelf zullen eerder voor iets lekkers kiezen. Nu ligt de vraag wat een succesvolle uitkomst is nog in de handen van een zeer kleine groep mensen.
Contextuele trade-offs
Wat we belangrijk vinden is sterk afhankelijk van de context. Denk bijvoorbeeld aan privacy. Als de dokter tijdens een spreekuur vraagt om je broek uit te doen is dat in de meeste gevallen geen probleem. Maar als de bakker hetzelfde vraagt is het een schending van je privacy. Ook voor bijvoorbeeld explainability is de context bepalend. Zo zal de mate van uitlegbaarheid die we van een systeem verwachten bij een chatbot lager liggen dan bij een zelfrijdende auto. Het belang is dus onder andere afhankelijk van de mogelijke risico’s. Zo is ook de geaccepteerde mate van subjectiviteit afhankelijk van de context. Zo zal een ‘foutieve’ aanbeveling van Netflix ons weinig schade berokkenen, maar wanneer een medische diagnose ernaast zit heeft dit veel grotere consequenties. Hoewel de subjectiviteit van het aanbevelingssysteem van Netflix veel hoger is dan de beeldherkenningssoftware↓Bij toepassingen op het gebied van beeldherkenning wordt vaak gebruik gemaakt van een zogenaamd Convolutional Neural Network (CNN). CNN werkt als een filter die over een afbeelding beweegt en op zoek gaat naar de aanwezigheid van bepaalde eigenschappen. >Hoofdstuk 1.1.1 van een ziekenhuis, zullen we aan die laatste veel hogere eisen stellen.
De vraag wat we belangrijk vinden hangt tevens af van het perspectief. Deze is vaak cultureel bepaald. De data voor beeldherkenningssystemen wordt in veel gevallen nog gelabeld door mensen. Een beeld van een man of vrouw met een glas bier wordt in sommige culturen gelabeld met gezelligheid, samenzijn, feest etc. Maar in andere culturen wordt hetzelfde beeld getagged met alcoholist, baldadigheid etc. Daarbij hangt het perspectief ook sterk af van leeftijd. Veel mensen oordelen bijvoorbeeld dat het niet menselijk is om bejaarden te laten verzorgen door robots. Uit de Nationale Toekomstmonitor van 2019 blijkt dat de meerderheid van de Nederlanders negatief is over intieme relaties met een robot (79%). Maar veel hulpbehoevende ouderen zelf vinden het een ideale uitkomst. Bijvoorbeeld ouderen die niet meer in staat zijn om zelfstandig te eten. Ze schamen zich vaak als ze gevoed worden door vreemden in een tehuis. Alleen hun kinderen mogen het en anders eten ze maar niet. Robots bieden uitkomst en geven juist autonomie. Wat we onder ‘welzijn’ verstaan is daarbij vaak een subjectieve aangelegenheid. Emotioneel gezien willen we het leven zo lang mogelijk oprekken, zeker wanneer het om de mensen in onze eigen omgeving gaat. De vraag is echter wat de waarde van het leven is voor terminaal zieke mensen zelf. Wat zijn in dergelijke situaties de optimalisatiedoelen voor AI-systemen? Zo efficiënt, sociaal, duurzaam of humaan mogelijk? En betekent humaan dan het leven verlengen, of juist verkorten om onnodig lijden te voorkomen?
Vergelijkbare vraagstukken worden ons door de coronacrisis in 2020 ineens geforceerd opgelegd waarbij duidelijk wordt dat verschillende belangen met elkaar verweven zijn en elkaar beïnvloeden. Vanuit gezondheidsoverwegingen zou het bijvoorbeeld verstandig kunnen zijn om een volledige ‘lockdown’ in te voeren. Maar voor mensen in ontwikkelingslanden – die in sommige gevallen afhankelijk zijn van een dagloon – betekent binnenblijven dat hun volledige inkomsten wegvallen en ze mogelijk van de honger sterven. Wat is er erger? Sterven door een virus, of sterven van de honger? Een dergelijke crisis zet de verhoudingen op scherp en benadrukt de noodzaak van het stellen van fundamentele vragen. De waarde van het leven lijkt moeilijk in meetbare waardes uitgedrukt te kunnen worden, maar toch gebeurt dat in een pandemie wel. De volledige economie gaat op slot om het leven van kwetsbare groepen te beschermen. Hoe ver moet je hierin gaan? Het zijn geen populaire vraagstukken, maar ze kunnen niet ontweken worden. Zeker wanneer AI-systemen een grotere rol gaan spelen in besluitvormingsprocessen, moeten we bepalen waar de balans ligt tussen ratio en emotie, objectiviteit en subjectiviteit, de lange termijn en de korte termijn. Willen we ‘objectieve’ besluiten van AI-systemen accepteren of moeten we emoties↓Affective Computing gaat over systemen die emoties kunnen opsporen en herkennen. >Hoofdstuk 1.1.1 en morele intuïtie inbouwen?
Welke trade-offs zijn we bereid te maken?
In Nederland worden steeds meer camera’s en trackers ingezet die bewegingen volgen en vastleggen. Wanneer het gaat om het verbeteren van de veiligheid en leefbaarheid, blijken mensen bereid te zijn om de inzet van sensoren en de verzameling van sensor data te accepteren. Maar ze stellen daar wel specifieke voorwaarden aan. Uit onderzoek van het Rathenau Instituut in 2019 blijkt dat de acceptatie voornamelijk afhangt van de context. Mensen zijn op voorhand niet tegen bijvoorbeeld bodycams of wifitrackers, het ligt eraan wanneer en in welke situatie ze worden ingezet. Deze inzichten worden ondersteund door onderzoek van de Europese Commissie in 2020. Uit het onderzoek blijkt dat 59% van de respondenten bereid is om een deel van hun persoonlijke informatie veilig te delen om de openbare dienstverlening te verbeteren. Met name wanneer het gaat om het verbeteren van medisch onderzoek en medische zorg (42%), het verbeteren van de reactie op crisis (31%) of het verbeteren van het openbaar vervoer en het verminderen van luchtverontreiniging (26%).
Uit de analyses van Rathenau blijkt dat er twee factoren cruciaal zijn, namelijk de mate van veiligheid die burgers ervaren en het type leefomgeving waarbinnen sensortechnologie wordt toegepast. In situaties waarin burgers zich onveilig voelen blijken ze de inzet van sensoren eerder te accepteren dan in situaties waarin zij zich veilig voelen. Ook het type leefomgeving is hierbij van belang. De inzet van sensoren wordt in mindere mate geaccepteerd in de privéruimte, dan in openbare ruimte waar zich veel mensen bevinden. In onveilige situaties in drukke openbare ruimtes blijkt de inzet van sensoren voor de verbetering van de veiligheid en leefbaarheid dus gewenst, maar in thuissituaties of in rustigere openbare ruimtes waar men zich veilig voelt niet. Opvallend is dat burgers hierbij niet alleen kijken naar een afweging tussen veiligheid en privacy. Er worden meerdere waarden in overweging genomen, zoals democratische rechten, transparantie, efficiëntie en menselijk contact.
Ethische principes en richtlijnen kunnen daarom niet een op een in de praktijk worden overgenomen. Elke specifieke situatie vraagt om specifieke afwegingen. Steeds moet in de context bepaald worden welke waarden met elkaar schuren en wat hierin acceptabel is. Een afweging die in bepaalde situaties wordt geaccepteerd, kan in andere situaties volledig onacceptabel zijn. We zullen samen met elkaar moeten bepalen wat we in welke situatie kunnen en willen accepteren.
» Sometimes we think that technology will inevitably erode privacy, but ultimately humans, not technology, make that choice. «
— Hu Yong, Peking University