Hvad sker der egentlig, når du skriver til en AI og hvorfor er det vigtigt?
AI’en forstår hverken tekst, lyd eller billeder – alligevel taler du med den hver dag. Hvordan? Gennem et skjult maskinsprog, der oversætter dine ord til noget, AI'en kan forstå. Det har betydning for din datasikkerhed, for klimaet – og for pengepungen.
Fra sprog vi forstår, til sprog modellen forstår
Selvom du måske ikke bygger algoritmer til daglig, er det vigtigt at vide hvordan en AI egentlig kommunikerer. Det kan nemlig rydde nogle af de misforståelser af vejen, som mange af os har, og som holder os fra at benytte AI.
Din AI forstår dig ikke
En AI model arbejder ikke med data på den måde, mange af os tror. Mange tror, at modellen "forstår" tekst ligesom et menneske. Men det gør den ikke. Overhovedet ikke.
Før en sætning overhovedet kan bruges i en AI-model, skal den nemlig oversættes til noget, modellen faktisk kan forstå: tal. Det sker gennem noget, der hedder tokens.
Hvis jeg f.eks spørger den, "Hvem er Batmans ærkefjende?", er det ikke mine ord, der sendes til modellen. Den bruger heller ikke ord, når den laver et svar.
Modellen kommunikerer nemlig ikke, som vi gør (via fx tekst, billeder, lyd, video), men kommunikerer i stedet med tal. For modellen kan forstå, hvad vi skriver, skal ordene derfor laves om til tal. Tal skal modellen både bruge for at forstå, hvad vi skriver og til at generere et svar.
Jamen hvordan hænger det sammen? Når jeg chatter med en model, får jeg da en tekst, et billede eller endda en video som svar....?
Her er det tokens kommer ind - en slags oversættermekanisme i mellem dig og AI'en.
Tokens = en universel oversætter i mellem menneske og AI
For at oversætte menneskelig kommunikation til tal, har man opfundet "tokens". Tokens er et super smart oversættelseværktøj, der oversætter alle vores kommunikationsformer til tal, som en AI model forstår.
Et token kan fx være en lille bid af en tekst – et ord, en stavelse eller nogle gange bare et bogstav. Hvert token har et unikt nummer, et ID. Det ID svarer til et bestemt koordinat i modellen - som et GPS-koordinat for et bestemt sted i Google Maps.
(En model har langt flere dimensioner end X og Y.)
Koordinaterne skal modellen bruge for at forstå dig og regne ud, hvad den skal svare. Tokens er også det, der oversætter modellens sprog - tal - til noget, som vi forstår; tekst, billede, lyd, video, mv.
Du kan huske tokens som et kæmpe opslagsværk, der oversætter i mellem dit sprog og modellens sprog.
Det lyder teknisk og kompliceret...
Lad os bruge spørgsmålet om Batmans ærkefjende til at forstå - trin-for-trin - hvad der sker.
Trin-for-trin fra ord til tal og tilbage igen
Efter jeg har sendt spørgsmålet "Hvem er Batmans ærkefjende?" afsted i ChatGPT, sker der flere ting, inden spørgsmålet når modellen.
En af dem er, at sætningen nedbrydes i tokens: "Hvem" "er" "Batman" "s" "ærke" "fjende" "?", og givet et unikt ID:
- "Hvem" = Token ID: 4
- "er" = Token ID: 230
- "Batman" = Token ID: 5034
- "s" = Token ID: 433
- "ærkefjende" = Token ID: 79698
Et token svarer nogenlunde til en stavelse eller et ord, men kan også være en samling af flere ord, hvis de forekommer hyppigt nok i den samme rækkefølge.
Bonusinfo: Ved at gruppere hyppige stavelser og ord som tokens, sparer modellen ressourcer – den skal nemlig lave færre opslag. Det betyder lavere energiforbrug hver gang modellen bruges, hvilket gør tokens til en både miljøvenlig og økonomisk smart løsning.
At lave spørgsmålet om til en række unikke ID'er gør, at de kan slås op i opslagsværket og oversættes til unikke koordinater, som modellen forstår:
- Hvem = Token ID 4 -> (slår op) = 111, 222, 333, 464 = vektor
- er = Token ID 230 -> (slår op) = 354, 546 ..... 768 = vektor
- ...Osv.
Nu har vi altså fået omdannet ord til koordinater, som modellen kan arbejde med. Det næste der sker er, at modellen på baggrund af de koordinater, generer et svar.
Modellens svar ser nogenlunde sådan her ud:
[345, 456....., 45667], [6874, 3, 456....., 56], [354, 546 ....., 768], [665.....768], [543, 23, 677, ...., 5]".
Det svar er ikke så nemt at forstå, vel?
Men, hvis vi nu igen benytter token-opslagsværket, kan vi oversætte modellens svar til noget, vi forstår. Hvert af modellens vektorer er nemlig lig med et token, som er lig med en tekstbid.
Det vil sige, efter at have oversat modellens svar, får vi: "Batmans ærkefjende er the Joker"
- [345, 456....., 45667] = token ID: 234 = Batman
- [65, 34..., 89] = tokend ID: 433 = s
- [6874, 3, 456....., 56] = tokend ID: 5678 = ærkefjende
- [354, 546 ....., 768] = token ID: 230= er
- [665....., 768] = token DI: 65= the
- [543, 23, 677, ...., 5] = token DI: 666 = Joker
Nu ved du, hvem Batmans ærkefjende er (som om du ikke allerede vidste det). Du ved også, at for du kan kommunikere med en AI, kræver det et oversættelsesværktøj; nemlig tokens.
Et andet eksempel: Når du uploader en kontrakt
Forestil dig, at du beder en AI-model om at gennemgå en kontrakt og finde formuleringer, der kan give problemer.
Du kopierer kontrakten ind – og straks kommer der et svar tilbage:
“Afsnit 5.2 kan tolkes som en ubalanceret opsigelsesklausul.”
Det føles som om modellen har læst kontrakten og forstået, hvad der står. Men det har den ikke.
I virkeligheden er der sket følgende:
- Teksten blev brudt op i tusindvis af små tekstbidder (tokens)
- Hver token blev oversat til tal – en slags GPS-koordinater i modellens vidensbank
- Modellen regnede sig frem til hvad der, statistisk set, plejer at komme efter hinanden i lignende sprogbrug
- Resultatet blev sat sammen og præsenteret for dig som naturlig tekst.
Den har ikke læst selve ordene i kontrakten. Den har ikke nogen juridisk forståelse. Den har modtaget en række tal og bare regnet sig frem til noget, der ligner et korrekt svar.
Et tredje eksempel: Når du beder en AI arbejde med billeder
Forestil dig, at du har fået AI'en til at lave en grafik med teksten “Jokeren” som svar – men du vil gerne have, at der i stedet står:
“Batmans ærkefjende er the Joker.”
Du skriver til AI’en:
"Lav Jokeren om til Batmans ærkefjende er the Joker."
Hvad sker der egentlig i baggrunden?
- Din besked bliver til tokens
Sætningen bliver delt op i små tekstbidder og oversat til tal. - AI’en analyserer billedet – også med tokens.
Det lyder mærkeligt, men billeder bliver også tokeniseret. Billedet bliver brudt op i små områder som hver især oversættes til tokens, dvs tal, der beskriver former, farver og placeringer. - Modellen regner sig frem til en ændring
Den bruger både din prompt (som tokens) og billedet (også tokens) til at regne sig frem til, hvad det nye billede skal være. Den tænker fx:
- “Jeg skal finde det område med teksten 'Jokeren'”
- “Jeg skal ændre farver og former, så det ligner ny tekst i samme stil”
- “Jeg skal erstatte med det nye indhold, der kom fra brugerens tokens”
Outputtet er … flere tokens og tal.
Det nye billede bliver ikke genereret direkte som billedefil – først bliver det genereret som en stor matrix af tokens, til sidst samles til et nyt billede - dvs i en kommunikationsform som du forstår.
Du kan også bede AI’en om at ændre stilen i billedet, eller bede den lave et helt nyt:
“Gør min selfie til noget, der ligner en scene fra en japansk animationsfilm.”
"Bevar stilen, men lav et nyt billede, hvor jeg, entusiastisk, fortæller noget til en person uden for kameraet."
Det fungerer helt på samme måde:
- Din tekst bliver til tokens
- Det eksisterende billede bliver tokeniseret
- Modellen bruger begge dele til at “forstå” din intention og regner sig frem til en ny visuel løsning
Men den forstår ikke "japansk animationsfilm" som en kunstnerisk stilart – den forstår det som et mønster af tal.
Hvorfor er det vigtigt at vide, hvordan en AI arbejder med din data?
Mange frygter, at en AI-model "bare læser min data" og måske stjæler eller misbruger den. Men i virkeligheden ser modellen ikke din tekst, som du gør.
Den ser en stor matrix af tal, og har ingen direkte nytte af det specifikke indhold af din tekst - heller ikke personfølsomt, eller forretningskritisk indhold. Den lagrer det heller ikke i sin vidensbank (matrixen) – medmindre den specifikt bliver trænet på det.
Så hvis du fx bruger en AI til at analysere interne dokumenter, er det vigtigt at vide: Modellen forstår ikke dine dokumenter. Den bearbejder dem matematisk, men først når teksten er omdannet til tal, og den gemmer ikke din tekst.
Derfor handler datasikkerhed i AI ikke så meget om "hvad modellen forstår", men mere om:
- Hvordan dine data bliver håndteret (fx lokalt vs. i skyen)
- Om de bliver gemt eller delt videre
- Hvilken model du bruger (fx open-source vs. udbudt af en leverandør, kører den lokalt eller i skyen)
Det vil sige, når du bruger en AI, skal du mere tænke over, hvor din data bliver gemt, end om modellen "stjæler den". Og derved er det ikke anderledes end alt muligt andet digital kommunikation.
TL;DR
For du og en AI-model kan kommunikere med hinanden, bruger man tokens. En samling tokens er et slags opslagsværk, hvor hver token har et unikt ID, som passer til et bestemt koordinat i modellens vidensbank - lige som et GPS-koordinat i Google Maps.
Koordinaterne benytter modellen til at regne det ud, hvad det mest korrekte svar kan være.
Det er vigtigt, fordi det betyder, at en AI model hverken automatisk "gemmer" din data, eller deler din data med andre.
Den har ikke lært om dig eller din virksomhed, blot fordi du har skrevet til den eller uploadet et dokument. Din data bliver først en del af modellens vidensbank, hvis den trænes på det.