2) En annan viktig aspekt är vad de verkligen lär sig av. För det första är det ju förstås begränsat till data som finns digitalt. För det andra så är det bara en liten del av allt som finns digitalt som de använder sig av.
Den här artikeln från Washington Post tittar närmare på data för Googles C4s dataset, som är möjligt att analysera. Jag känner inte till närmare hur den används.
2/?
Sidan har också en sökfunktion där man kan se rankingen för C4 för olika webbsidor. Tex min hemsida och stora dagstidningen:
hemrin.com. Ranking: 801,105. Tokens: 29k. Of total tokens: 0.00002%
dn.se. Ranking: 13,169,728. Tokens: 120. Of total tokens: 0.00000008%
Om jag förstår detta rätt, så lägger alltså denna Google-träning större vikt vid vad jag skriver på min hemsida än vad DN skriver!
https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/
3/3