Kampen mot AI-textigenkänning: Håll jämna steg med snabbt förbättrande språkmodeller
StockholmSedan 2019 har text som genererats av maskiner förvirrat människor. Avancerade verktyg som GPT-2, ChatGPT och Llama gör det svårt att avgöra om en text är skriven av en människa eller en maskin. Dessa verktyg sparar tid och främjar kreativitet, men de kan också användas för att vilseleda människor. Den nuvarande tekniken för att identifiera maskingenererad text förbättras, men resultaten är blandade.
Många kommersiella detektorer påstår att de är mycket exakta, med framgångsgrader upp till 99%. Men oberoende tester av Chris Callison-Burch och hans team visar annorlunda resultat. De skapade en dataset kallad RAID, som innehåller över 10 miljoner dokument skrivna av både AI och människor. Denna dataset hjälper till att kontrollera hur väl textdetektorerna faktiskt fungerar.
Många detektorer har svårt att hantera olika typer av texter eller olika LLM-utdata. Här är några viktiga problem som har identifierats:
- Detektorer som är tränade på ChatGPT fungerar inte bra med andra modeller som Llama.
- Specialiserade detektorer, exempelvis de som är tränade på nyhetsartiklar, har svårt att hantera andra typer av innehåll som recept eller kreativt skrivande.
- Enkla förändringar i texten, som att lägga till mellanslag eller byta ut bokstäver mot symboler, kan lätt kringgå de flesta detektorer.
Nuvarande system för textdetektering är ännu inte helt tillförlitliga. Maskininlärning behöver förbättras för att bättre kunna identifiera texter som genererats av andra maskiner och därmed hålla jämna steg med avancerade språkmodeller. Enkla knep som att ändra bokstäver till liknande symboler kan lätt lura dessa detektorer. På grund av detta är dagens detektionsteknik inte tillräckligt pålitlig för viktiga uppgifter som att säkerställa akademisk ärlighet eller kontrollera onlineinnehåll.
Callison-Burch-teamet vill klargöra och främja nya idéer inom detta område genom att skapa RAID och en offentlig resultattavla. Företag kan använda denna standard för att kontrollera och förbättra sina verktyg. Denna öppna tävling kan leda till betydande förbättringar inom detekteringsteknik.
Huvudproblemet är inte bara att upptäcka AI-genererad text. Vi behöver bättre verktyg för att förstå riskerna och hantera deras effekter. Gemenskapen bör arbeta för att minska skadan som spridning av AI-genererad text kan orsaka. Det innebär inte bara att förbättra detekteringsmetoder utan också att lära användare att bättre förstå digitalt innehåll.
31 oktober 2024 · 00:47
Microsofts försäljningslyft väcker debatt kring AI-investeringar och framtidstro
28 oktober 2024 · 18:31
Brit fängslad för att använda AI i barnmissbrukbilder
28 oktober 2024 · 18:27
Apple revolutionerar iPhone med AI-förstärkning och gratis uppdatering
Dela den här artikeln