Rekk opp hånda!: NorGPT: En norsk språkmodell, trent på norske data

mandag 21. august 2023

NorGPT: En norsk språkmodell, trent på norske data

NorGPT er utviklet av forskningssenteret NorwAI ved NTNU. Modellen tar hensyn til norsk virkelighet og sikter mot å styrke det norske språket i den digitale tidsalderen.

Av Martin Johannessen / Illustrasjon: Ink

Den norske versjonen av ChatGPT er på vei. AI-en skal ta hensyn til personvern og datasikkerhet. NorGPT er utviklet av NorwAI, et forskningssenter på NTNU.

NorGPT skal være Norges egen språkmodell. Den er utviklet i samarbeid med selskaper som Schibsted og DnB. Den er for det meste trent på norske data og skal være en modell tilpasset en norsk virkelighet. I tillegg er den trent på noen beslektede språk som svensk, dansk, nederlandsk og tysk.

Jon Atle Gulla er direktør for NorwAI og professor ved Institutt for datateknologi og informatikk på NTNU. Han viste fram den norske språkmodellen for offentligheten for første gang på Arendalsuka i forrige uke.

NorGPT finnes i ulike utgaver, hvorav den mest omfattende har 23 milliarder parametere. Til sammenligning har ChatGPT-3 har 175 milliarder parametere. Både ChatGPT-4 og Bard er trent på betydelig flere parametere. Det ligger noen begrensninger i hvor mange parametre man kan putte inn i NorGPT – rett og slett for at det fordres flere GPU-er - “hestekrefter” i supercomputer Idun, hvor språkmodellen trenes. Mer penger må på bordet, med andre ord.

Modellen prøver å forutsi det neste ordet i en gitt setning. Selv om det finnes mange potensielle svar, brukes sannsynlighetsberegninger og diverse teknikker for å avgjøre hvor passende svaret er.

Dette fører til utviklingen av intrikate språkstrukturer. Etter dette følger en "alignment"-fase der modellen blir justert for upassende svar. Dette steget er tidkrevende og behøver mange ressurser.

NorGPT blir sett som en viktig del av det norske språkets fremtid, og en alternativ infrastruktur til store amerikanske modeller for offentlige virksomheter og tjenester på internett.

Modellen som ble presentert under Arendalsuka har ikke gjennomgått denne “alignment”-fasen, hvor den lærer seg alminnelig folkeskikk.

- Dermed vil vi få en del giftig språk, fordommer, tabuord og mer til, sier Jon Atle Gulla.

NorGPT er en grunnmodell. Det er et fundament som andre leverandører kan bygge sine tjenester på. Modellen fungerer både på bokmål og nynorsk. Den er svært fleksibel på hva den kan brukes til.

- Jeg tror det er et stort behov for å utvikle en modell med norsk språk, som vil kunne treffe bedre på norske problemstillinger. Disse modellene er ikke bedre enn de dataene som legges inn i dem, sier direktør Mari Sundli Tveit i Forskningsrådet.

Visjonen med NorGPT er:

Store, sikre norske språkmodeller med full åpenhet bygd på norske verdier
Språkmodellene skal sikre forretningsmessige, kulturelle og beredskapsmessige interesser for Norge.

👉 Les også:

Alt om NorGPT: Den første norske språkmodellen

Rekk opp hånda!

Sider

mandag 21. august 2023

NorGPT: En norsk språkmodell, trent på norske data

Ingen kommentarer:

Legg inn en kommentar

Motivasjon for tenkning