Det här tycker jag är en intressant artikel om vad som används för att träna AI när det handlar om texter och sådant.
1) Dels en fråga om vilka rättigheter har verkligen företag att använda data från internet för att träna sina verktyg, som de kanske dessutom ska använda kommersiellt och tjäna pengar på? Hur får de använda tex copyright-data för att träna datorn?
1/?
Sidan har också en sökfunktion där man kan se rankingen för C4 för olika webbsidor. Tex min hemsida och stora dagstidningen:
hemrin.com. Ranking: 801,105. Tokens: 29k. Of total tokens: 0.00002%
dn.se. Ranking: 13,169,728. Tokens: 120. Of total tokens: 0.00000008%
Om jag förstår detta rätt, så lägger alltså denna Google-träning större vikt vid vad jag skriver på min hemsida än vad DN skriver!
https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/
3/3
2) En annan viktig aspekt är vad de verkligen lär sig av. För det första är det ju förstås begränsat till data som finns digitalt. För det andra så är det bara en liten del av allt som finns digitalt som de använder sig av.
Den här artikeln från Washington Post tittar närmare på data för Googles C4s dataset, som är möjligt att analysera. Jag känner inte till närmare hur den används.
2/?