Direct naar artikelinhoud

Je stem klonen, chatten met Marilyn Monroe: na ChatGPT komt er nog veel meer AI-software aan

Onder de indruk van de kunstmatige intelligentie waarmee je eenvoudig beelden of teksten kunt produceren? Er zit nog veel meer in het vat. De spannendste nieuwe software op een rij.

Je stem klonen, chatten met Marilyn Monroe: na ChatGPT komt er nog veel meer AI-software aan
Beeld Maud Dekkers

We vragen aan Jim Morrison wat voor hedendaagse muziek hij kan waarderen. De overleden zanger van The Doors raadt de neopsychedelica van Tame Impala aan. Even later praten we met Harry Mulisch over nieuw werk waarmee hij bezig is. ‘Het gaat over de kracht van herinnering en hoe ze ons leven vormgeeft’, vertelt hij.

Gevraagd naar de regenboog die tijdens zijn uitvaart boven Amsterdam was te zien, zegt de schrijver: ‘Ik zie die graag als teken van het universum. Hij herinnert ons eraan dat het leven vol schoonheid en verwondering is, zelfs in de dood.’

Typisch Mulisch. Vervolgens hebben we een groepschat met Marilyn Monroe en John F. Kennedy. Uiteraard voeren we de conversatie niet met de echte historische figuren, maar met AI-versies van ze die in een chatapp zijn gestopt: Historical Figures. Het is maar een van de vele AI-appjes die de laatste tijd beschikbaar zijn gekomen.

Het gaat snel

Het is nauwelijks bij te houden, zo snel als de ontwikkelingen rondom kunstmatige intelligentie (AI) ineens gaan. Alsof al het wetenschappelijke onderzoek van de afgelopen jaren in een grote ton heeft lopen gisten en nu aan alle kanten naar buiten borrelt. Althans: voor het grote publiek.

Dat maakte vorig jaar kennis met de ‘iedereen-kan-schilderen-apps’ Midjourney en DALL-E, gevolgd door dé AI-hit van dit moment, ChatGPT. Waarom juist nu? ‘We lijken op de top van de hypecyclus te zitten’, zegt Sander Wubben, die aan de universiteit van Tilburg promoveerde op het onderwerp Natural Language Generation, oftewel het genereren van natuurlijke taal via software.

‘Natuurlijk gaat het al heel lang over AI, maar vaak stelde het gewoon nog niet al te veel voor.’ Nu, met de komst van de zogenoemde generatieve modellen, is het andere koek: AI fabriceert nieuwe dingen (gedichten, gezichten, schilderijen, noem maar op) in plaats van simpelweg iets met bestaande gegevens te doen. En ze zijn ook nog eens bijzonder bruikbaar, constateert Wubben.

Het gaat snel
Beeld Maud Dekkers

Natuurlijke taal

De overeenkomst tussen veel van de nieuwe toepassingen is de rol van natuurlijke taal bij het geven van opdrachten. Om een AI-programma als DALL-E een cartoon in de stijl van Kuifje te laten maken is er immers voor de eindgebruiker niet meer nodig dan een regel tekst. Wubben: ‘Dat werkt heel goed, iedereen snapt dit.’ Ook Laurens Vreekamp, auteur van het boek The Art of AI, ziet dit als belangrijke voorwaarde voor brede acceptatie: ‘Je hebt geen programmeerkennis, wiskunde of statistiek nodig. Dat maakt het voor het publiek heel aantrekkelijk.’

De technologische ontwikkelingen die tot de komst van al dit soort op een breder publiek gerichte toepassingen leidden, zijn al een jaar of vijf geleden ingezet, zegt hij. ‘Dat leidde vervolgens tot nieuwe investeringen. Nu zie je daar de oogst van.’ En wat het extra laagdrempelig maakt: veel gereedschap is gewoon in de internetbrowser te gebruiken en vaak nog gratis ook.

Hoe simpel de programma’s misschien ook in het gebruik lijken, op de achtergrond zijn er bergen verzet om op dit punt te komen: de taalmodellen zijn getraind met onvoorstelbare hoeveelheden tekst, waardoor ze stukken beter zijn dan een paar jaar terug. Met als resultaat prima werkende programma’s zolang de opdrachten helder zijn: geef een samenvatting, maak een filmposter in jarenvijftigstijl. Maar val niet in de valkuil een programma als ChatGPT menselijke intelligentie toe te dichten, hoe goed en vloeiend de antwoorden misschien ook zijn geformuleerd, waarschuwen experts.

Nu is er die stortvloed aan nieuwe, losse programma’s, maar softwarebedrijven zullen de nuttigste toepassingen gewoon in hun bestaande pakketten en sites gaan integreren. Een schrijfassistent als ChatGPT in Word bijvoorbeeld, in WhatsApp of in een zoekmachine. En AI-tekenhulpen als DALL-E zullen op hun beurt hun weg vinden in grafische software als Photoshop, terwijl ook muzieksoftware van AI zal gaan profiteren. Niet om mensen te vervangen, zegt zowel Vreekamp als Wubben, maar om ze in samenwerking productiever en creatiever te maken.

Een greep uit recente aankondigingen en het nu al beschikbare aanbod.

1. Van spraak naar spraak

Synthetiseren is de vakterm: een kunstmatige, synthetische variant maken van iets ‘echts’. Dat kan ook met je eigen stem. Techspreker Jarno Duursma kloonde zijn eigen stem met behulp van het programma Descript. Zo kan hij eenvoudig promotievideo’s maken zonder werkelijk voor de camera te hoeven plaatsnemen.

En multidisciplinair artiest Holly Herndon introduceerde Holly+, een door AI aangedreven instrument waarmee anderen met haar stem kunnen zingen (Holly+ vertaalt de ene stem naar de andere). Herndon nam zelf ook muziek op met haar synthetische stem.

Liever wat praktischer? Computerwetenschapper Joe Heitzeberg uploadde zijn eigen stem en maakte in een handomdraai een prima klinkende podcast over kunstmatige intelligentie, zonder achter de microfoon te hoeven plaatsnemen.

Twitter bericht wordt geladen...

Naast dit soort nuttige of kunstzinnige toepassingen vrezen critici uiteraard ook de risico’s: kwaadwillenden zouden bijvoorbeeld nepnieuws kunnen verspreiden door een realistisch klinkende opname te verspreiden van een politicus die dingen zegt die hij of zij nooit echt heeft gezegd.

2. Van tekst naar spraak

Combineer de synthetische stemmen met bijvoorbeeld ChatGPT en de wereld wordt niet alleen overspoeld met nieuwe teksten, maar ook nog eens met nieuwe teksten die worden voorgelezen. Er bestaan al veel diensten die tekst omzetten naar spraak, meestal aan de hand van kant-en-klare stemmen. Het zijn allang niet meer de mechanisch houterige stemmen van vroeger, zo laat bijvoorbeeld de vorige maand door Apple geïntroduceerde dienst voor audioboeken zien. Hiermee is het niet meer nodig om een mens achter de microfoon te laten plaatsnemen om een boek voor te lezen. De AI-stemmen zijn zo goed dat ze weleens het einde kunnen betekenen voor menselijke vertellers, voorspelt The Guardian.

3. Van tekst naar video

DALL-E en Midjourney zijn tekst-naar-afbeelding-programma’s: voer een opdracht in en de software komt terug met het gewenste plaatje. Hetzelfde procedé werkt ook voor het maken van video. In vergelijking met de Midjourneys van deze wereld staat het nog in de kinderschoenen, maar divers onderzoek laat al zien welke kant het op gaat. Zo kwam de onderzoekstak van Facebooks moederbedrijf Meta in september vorig jaar met Make-a-Video. U wilt een video van een drinkend paard? Of van een hond met een superheldencape die door de lucht zweeft? Geen punt, belooft Meta.

Twitter bericht wordt geladen...

4. Van tekst naar audio

Ook wie in een handomdraai geluiden wil laten maken om onder een video te zetten, zal op zijn wenken worden bediend. AudioGen (nog in onderzoeksfase) maakt ieder gewenst geluid. Een galopperend paard met op de achtergrond een lachende vrouw: geen probleem.

Twitter bericht wordt geladen...

5. Van foto naar video

Eén enkele foto is voor AI genoeg om er een video van te maken, desgewenst inclusief lippen die zo’n beetje op de cadans van de tekst meebewegen. Een van de populairste apps op dit gebied is MyHeritage, dat in 2021 de dienst Deep Nostalgia introduceerde. De belofte: breng uw voorvaderen tot leven door een kort filmpje te maken op basis van een oud kiekje. Het resultaat was wat ‘uncanny’ (de term voor het ongemak dat mensen voelen bij robots of kunstmatige beelden die op het eerste gezicht echt lijken, maar dat niet zijn), maar daarom niet minder leuk. Vorig jaar ging MyHeritage een stap verder, met de introductie van DeepStory. Deze laat overgrootmoeder ook een verhaal vertellen. Het enige wat nodig is: een verhaal in de ik-vorm en een foto.

MyHeritage werkt hiervoor samen met het Israëlische AI-bedrijf D-ID. Dit biedt op zijn site ook zelf de mogelijkheid om van foto’s sprekende video’s te maken. Om voor de hand liggende redenen (verspreiden van desinformatie) zijn foto’s van beroemdheden niet toegestaan, maar veel leuker is om met bijvoorbeeld Midjourney een fictief persoon te creëren om die vervolgens met D-ID tot leven te laten komen. Het programma geeft ondersteuning aan veel talen (ook Nederlands), biedt een blik vol standaardstemmen aan en heeft ook een soort ChatGPT ingebouwd voor het schrijven van een tekst. Maar wie net wat meer moeite wil doen, kan natuurlijk een eigen tekst invoeren en zijn eigen stem uploaden.

Magic AvatarsBeeld Prisma Lab/Lensa
Midjourney maakte deze fictieve persoon, waarna D-ID er een sprekende video van maakte.Beeld D-ID

6. Van tekst naar muziek

‘De soundtrack van een arcadegame. Het is snel en vrolijk, met een pakkende elektrische gitaarriff. De muziek is repetitief en gemakkelijk te onthouden, maar met onverwachte geluiden, zoals cimbalen of tromgeroffel.’ Een tekstbeschrijving is genoeg om het muziekmodel MusicLM van Google een stukje muziek te laten uitspuwen. Google geeft in zijn onderzoekspaper nog meer voorbeelden van de mogelijkheden, zoals een beschrijving van het schilderij De Schreeuw van Edvard Munch die is omgezet naar muziek.

7. Van foto naar avatar

Het is een van de grote hits in de appwinkels van Google en Apple: de app Lensa. De populariteit is het gevolg van de optie Magic Avatars. Wie bereid is een aantal selfies te uploaden en een paar euro te betalen, krijgt in ruil tientallen magische avatars terug. Dit zijn sterk gestileerde avatars die losjes gebaseerd zijn op de oorspronkelijke afbeeldingen, maar de eigenaar in een geheel nieuwe en gunstig afgebeelde pose afbeeldt. De app is niet zonder controverse: mannen worden extra mannelijk gemaakt met brede, stoere kaken en klaar om de ruimte te verkennen of de vijand te verslaan, terwijl vrouwen in prinsessenjurken of zelfs bikini’s worden gehesen en ineens extra rondingen hebben.

8. Van brein naar tekst (of foto, of video)

Techbedrijven dromen ondertussen alweer verder en hopen de connectie tussen mens en machine nog frictielozer te laten verlopen. Waarom de inefficiënte tussenstap van het intikken van opdrachten? Dat moet anders kunnen, denkt bijvoorbeeld Mark Zuckerberg van Meta, die ook wijst op de vele mensen die door hersenletsel überhaupt niet meer in staat zijn om te spreken. Nee, in de appwinkels liggen nog geen apps die hersensignalen kunnen omzetten in tekst of spraak, maar Meta noemt het onderzoek hiernaar hoopvol. Het model van Meta is in staat om uit drie seconde breinactiviteit met 73 procent zekerheid de juiste woorden te destilleren. Nuance: dat is op basis van een vrij beperkt vocabulaire van precies 793 woorden.

Te verre toekomstmuziek? Op korte termijn zal er ook genoeg gebeuren. Nieuwe taalmodellen (GPT4) bijvoorbeeld, die weer beter zullen zijn dan de huidige. Of een voor het publiek toegankelijke videovariant van DALL-E. Hé computer, maak een video van een menselijk brein dat slapend een podcast maakt.