OpenAI skal ha transkribert YouTube-videoer ulovlig

Var klar over at det gikk mot selskapets regelverk.

Publisert 9. april

OpenAI, skaperne av språkmodellen ChatGPT, skal ha transkribert over én million timer med YouTube-videoer for å trene AI-modell, ifølge The New York Times (NYT). Stikk i strid med YouTubes eget regelverk.

AI-modeller krever enorme mengder data for å trenes opp, enten det er bilder, video, tekst eller annen data. Ifølge NYT skal det angivelig ha oppstått et problem hos OpenAI i 2021 fordi de manglet nok data, og det skal ha vært dette som fikk dem til å se mot YouTube for å sanke inn mer.

Dette skal ha resultert i at ansatte i selskapet, inkludert president Greg Brockman, bevisst valgte å omgå YouTubes regelverk, som forbyr bruk av videoene til applikasjoner uavhengig av plattformen.

For å hente ut data fra YouTube, skal OpenAI ha anvendt deres egen transkriberingsprogram, Whisper, og transkribert over en million timer av plattformens videoer.

Hverken Google, som eier YouTube, eller OpenAI skal ha ønsket å kommentere saken overfor NYT.

Google-ansatte var klar over regelbruddet

Det skal ifølge NYT også ha vært kjennskap til OpenAIs regelbrudd blant noen av Googles egne ansatte. De skal derimot ha valgt å ikke stoppe OpenAI, ettersom Google skal ha gjort det samme da de transkriberte YouTube-videoer for sin egne AI-modeller. De skal derfor angivelig ha valgt å ikke si noe i fare for å måtte offentlig forsvare sin egen omgåelse av regelverket.

I fjor skal også Google ha endret sin personvernpolicy for å kunne bruke offentlig tilgjengelig informasjon til å trene sine språkmodeller.

Meta bruker opphavsbeskyttet materiale

Meta skal også ha slitt med å få nok data til å trene sine AI-modeller. For å få nok data skal de ha inkludert sammendrag fra blant annet opphavsbeskyttet sakprosa og skjønnlitterære tekster, skriver NYT.

De skal angivelig ha gjort dette fordi det i jakten på data ikke var noen annen vei rundt.

Mer om

Google Meta OpenAI Youtube