Tech Blog

Blockering av verktyg för träning av AI

Svenska Aftonbladet följde den 6 september flertalet franska mediehus, inkluderat Radio France and France24, beslut att blockera OpenAI’s GPTBot från att samla in data från deras webbsidor. Sedan tidigare är verktyget även blockerat av företag som Reuters, The New York Times, CNN, Bloomberg och Amazon. GPTBot är OpenAI’s ”web crawler”-verktyg, ett verktyg som samlar information på internet genom sk. ”web scraping” eller webbskrapning, vilket har varit vida omtalat den senaste tiden i ljuset av det senaste årets enorma AI utveckling.

En web crawler är ett automatiskt verktyg som funnits och använts av sökmotorer länge för att söka upp och samla in var på webben viss information finns. Web crawlern indexerar innehållet den hittar (vilket kan liknas vid att skapa en typ av innehållsförteckning som gör information sökbar) och den kan även ägna sig åt webbskrapning. Webbskrapning är en metod för automatisk insamling och sortering av information direkt från en webbplats. Detta möjliggör för företag och organisationer att samla stora mängder data från webben för att sedan använda det i sin egen verksamhet, exempelvis för att träna AI. Webbskrapnings verktyget kopierar den information som den är programmerad till att kopiera och informationen kan bestå av såväl text som bilder. Webbskrapning som metod är inte olaglig men tillhandahållare av webbsidor kan sätta upp särskilda regler för vilken information som får kopieras från webbsidan genom webbskrapning. Begränsningen kan göras antingen genom en begränsning i sidans allmänna villkor och/eller genom en bakomliggande textfil som läses av verktyget (robots.txt). Webbskrapning får heller inte innebära intrång i upphovsrättsskyddade verk eller en otillåten behandling av personuppgifter. Det är därför viktigt att organisationer som använder sig av webbskrapning är medvetna om vilka uppgifter som samlas in.

Anledningen till att en tillhandahållare av en webbsida eller ett företag som innehar en webbplats vill blocka dessa verktyg är flera. Det kan handla om att man vill undvika att sidan blir överbelastad av verktyg vilket gör upplevelsen sämre för andra användare, det kan vara av integritets- samt immaterialrättsliga skäl eller rent kommersiella. Aftonbladet anger som exempel att de inte vill förlora kontrollen över sitt innehåll samt listar kommersiella överväganden som behovet av annons- och abonnemangsintäkter för att finansiera sin journalistik. Företrädare för de franska mediehusen angav att de är öppna för att förhandla med AI-bolag om tillgången till sin data för att träna modeller förutsatt att de får något tillbaka. Det ska anmärkas att mediehusen historiskt vidtagit samma åtgärder mot Google och andra sökmotorer – vilket lösts genom förhandling och ersättning från sökmotorerna.

För att få vägledning om man vill använda sig av någon annans upphovsrättskyddade material vänder man sig till upphovsrättslagen. Tidigare i år trädde inskränkningar i den upphovsrättsliga ensamrätten för text- och datautvinning i kraft. Dessa inskränkningar har delats i två delar; det första scenariot avser forskningsändamål av forskningsorganisationer och kulturarvsinstitutioner om verket har gjorts tillgängligt för allmänheten och det andra scenariot anger att var och en har rätt att framställa verk för text- och datautvinningsändamål förutsatt att användaren har lovlig tillgång till verket. Med lovlig tillgång menas här att användaren har samtycke från rättsinnehavaren eller stöd av lag, att exempelvis köpa ett exemplar av verket eller teckna en licens ger användaren lovlig tillgång. Upphovsmannen kan i scenario två förbehålla sig rätten att inte få sitt exemplar framställt för text- och datautvinningsändamål. Detta förbehåll gäller dock inte för exemplar som framställts för forskningsändamål av forskningsorganisationer och kulturarvsinstitutioner, i förhållande till dessa får upphovsmannen endas vidta proportionerliga åtgärder för att säkerställa integritet och säkerhet i nätverket. Inskränkningarna i upphovsrätten har marginell inverkan på kommersiella aktörer och blockeringar av web crawlers samt webbskrapningsverktyg är fortsatt tillåtna. Däremot skulle en blockering av dessa verktyg om de används av forskningsorganisationer eller kulturarvsinstitutioner kunna komma att strida mot lagen. Det är därför viktigt för företag som vill hindra web crawlers och webbskrapning att utforma sina begränsningar och förbehåll på rätt sätt.

I dagens digitala era är mängden data enorm samtidigt som värdet av data aldrig varit högre. Att träna pålitliga och skarpa AI modeller kräver stora mängder välorganiserat, kvalitativt och faktabaserat innehåll, vilket traditionella medieföretag innehar. Det är därför avgörande för AI utvecklingen att en överenskommelse mellan mediebolagen och AI företagen kommer till stånd, likt den uppgörelse som gjordes med sökmotorerna. Delphi kommer självklart att fortsätta följa utvecklingen noggrant.

 

Denna artikel är skriven av Associate David Suh.