Det här tycker jag är en intressant artikel om vad som används för att träna AI när det handlar om texter och sådant.
1) Dels en fråga om vilka rättigheter har verkligen företag att använda data från internet för att träna sina verktyg, som de kanske dessutom ska använda kommersiellt och tjäna pengar på? Hur får de använda tex copyright-data för att träna datorn?

1/?

Follow

2) En annan viktig aspekt är vad de verkligen lär sig av. För det första är det ju förstås begränsat till data som finns digitalt. För det andra så är det bara en liten del av allt som finns digitalt som de använder sig av.

Den här artikeln från Washington Post tittar närmare på data för Googles C4s dataset, som är möjligt att analysera. Jag känner inte till närmare hur den används.
2/?

Sidan har också en sökfunktion där man kan se rankingen för C4 för olika webbsidor. Tex min hemsida och stora dagstidningen:

hemrin.com. Ranking: 801,105. Tokens: 29k. Of total tokens: 0.00002%

dn.se. Ranking: 13,169,728. Tokens: 120. Of total tokens: 0.00000008%

Om jag förstår detta rätt, så lägger alltså denna Google-träning större vikt vid vad jag skriver på min hemsida än vad DN skriver!
washingtonpost.com/technology/

3/3

Show thread
Sign in to participate in the conversation
Librem Social

Librem Social is an opt-in public network. Messages are shared under Creative Commons BY-SA 4.0 license terms. Policy.

Stay safe. Please abide by our code of conduct.

(Source code)

image/svg+xml Librem Chat image/svg+xml