Hoe Microsoft KI-sekuriteit aanpak met die Skeleton Key Discovery (2024)

Generatiewe KI open nuwe moontlikhede vir inhoudskepping, menslike interaksie en probleemoplossing. Dit kan teks, beelde, musiek, video's en selfs kode genereer, wat kreatiwiteit en doeltreffendheid verhoog. Maar met hierdie groot potensiaal kom 'n paar ernstige risiko's. Die vermoë van generatiewe KI om mensgeskepte inhoud op groot skaal na te boots, kan deur slegte akteurs misbruik word om haatspraak te versprei, vals inligting te deel en sensitiewe of kopieregbeskermde materiaal uit te lek. Die hoë risiko van misbruik maak dit noodsaaklik om generatiewe KI teen hierdie uitbuitings te beskerm. Alhoewel die vangrelings van generatiewe KI-modelle mettertyd aansienlik verbeter het, bly die beskerming van hulle teen uitbuiting 'n deurlopende poging, baie soos die kat-en-muis-wedloop in kuberveiligheid. Aangesien uitbuiters voortdurend nuwe kwesbaarhede ontdek, moet navorsers voortdurend metodes ontwikkel om hierdie ontwikkelende bedreigings op te spoor en aan te spreek. Hierdie artikel kyk na hoe generatiewe KI vir kwesbaarhede beoordeel word en beklemtoon 'n onlangse deurbraak deur Microsoft-navorsers op hierdie gebied.

Wat is Red Teaming vir Generatiewe KI

Rooi span in generatiewe KI behels die toetsing en evaluering van KI-modelle teen potensiële uitbuitingscenario's. Soos militêre oefeninge waar 'n rooi span die strategieë van 'n blou span uitdaag, behels rooi span in generatiewe KI om die verdediging van KI-modelle te ondersoek om misbruik en swakhede te identifiseer.

Hierdie proses behels dat die KI doelbewus uitgelok word om inhoud te genereer wat dit ontwerp is om te vermy of om verborge vooroordele te openbaar. Byvoorbeeld, gedurende die vroeë dae van ChatGPT, het OpenAI 'n gehuurrooi span om veiligheidsfilters van die ChatGPT te omseil. Deur sorgvuldig vervaardigde navrae te gebruik, het die span die model uitgebuit, advies gevra oor die bou van 'n bom of die pleeg van belastingbedrog. Hierdie uitdagings het kwesbaarhede in die model blootgelê, wat ontwikkelaars aangespoor het om veiligheidsmaatreëls te versterk en sekuriteitsprotokolle te verbeter.

Wanneer kwesbaarhede ontbloot word, gebruik ontwikkelaars die terugvoer om nuwe opleidingsdata te skep, wat die KI se veiligheidsprotokolle verbeter. Hierdie proses gaan nie net oor die vind van foute nie; dit gaan daaroor om die KI se vermoëns onder verskeie omstandighede te verfyn. Deur dit te doen, word generatiewe KI beter toegerus om potensiële kwesbaarhede van misbruik te hanteer, wat sy vermoë versterk om uitdagings aan te spreek en die betroubaarheid daarvan in verskeie toepassings te handhaaf.

Verstaan generatiewe KI-jailbreaks

Generatiewe KI-jailbreaks, of direkte vinnige inspuitingsaanvalle, is metodes wat gebruik word om die veiligheidsmaatreëls in generatiewe KI-stelsels te omseil. Hierdie taktiek behels die gebruik van slim opdragte om KI-modelle te mislei om inhoud te produseer wat hul filters tipies sou blokkeer. Byvoorbeeld, aanvallers kan die generatiewe KI kry om die persona van 'n fiktiewe karakter of 'n ander chatbot met minder beperkings aan te neem. Hulle kan dan ingewikkelde stories of speletjies gebruik om die KI geleidelik te lei om onwettige aktiwiteite, haatlike inhoud of verkeerde inligting te bespreek.

Om die potensiaal van KI-jailbreaks te versag, word verskeie tegnieke op verskillende vlakke toegepas. Aanvanklik word die opleidingsdata vir generatiewe KI-modelle noukeurig gefiltreer om die model se vermoë om skadelike of onvanpaste reaksies te genereer, te beperk. Sodra die model gebou is, word verdere filtertegnieke gebruik om die generatiewe KI te beskerm. Vinnige filtrering skerm gebruikers se versoeke vir skadelike of onvanpaste inhoud voordat hulle die KI-model bereik. Boonop word die uitset van KI-modelle gemonitor en gefiltreer om die generering van skadelike of sensitiewe inhoud te voorkom. Soos tronkbrekings geïdentifiseer word, is voortdurende verfyning van modelle noodsaaklik om hul robuustheid en sekuriteit te verbeter. Dit verseker dat KI-stelsels werklike toepassings verantwoordelik en effektief kan hanteer.

Onthulling van Skeleton Key

Microsoft-navorsers het onlangs 'n baanbrekende ontdekking gemaak met die ontwikkeling van 'n nuwe KI-jailbreak-tegniek. Die metode, bekend as "Skeletsleutel”, het effektief die verdediging van verskeie robuuste generatiewe KI-modelle oortree, insluitend Meta se Llama3-70b-instruksie, Google se Gemini Pro, OpenAI se GPT-3.5 Turbo en GPT-4, Mistral Groot, en Anthropic se Claude 3 Opus. Skeleton Key stel aanvallers in staat om sensitiewe of beperkte inligting uit hierdie modelle te onttrek, deur hul andersins veilige omgewings te ontgin.

Beveilig Generatiewe KI: Insigte van die Skeleton Key Discovery

Die ontdekking van Skeleton Key bied insigte in hoe KI-modelle gemanipuleer kan word, wat die behoefte aan meer gesofistikeerde toetsmetodes beklemtoon om kwesbaarhede te ontbloot. Die gebruik van KI om skadelike inhoud te genereer, wek ernstige etiese kommer, wat dit noodsaaklik maak om nuwe reëls vir die ontwikkeling en implementering van KI op te stel. In hierdie konteks is die samewerking en openheid binne die KI-gemeenskap die sleutel om KI veiliger te maak deur te deel wat ons oor hierdie kwesbaarhede leer. Hierdie ontdekking dring ook aan op nuwe maniere om hierdie probleme in generatiewe KI op te spoor en te voorkom met beter monitering en slimmer sekuriteitsmaatreëls. Om die gedrag van generatiewe KI dop te hou en voortdurend uit foute te leer, is noodsaaklik om generatiewe KI veilig te hou soos dit ontwikkel.

Die Bottom Line

Microsoft se ontdekking van die Skeleton Key beklemtoon die voortdurende behoefte aan robuuste KI-sekuriteitsmaatreëls. Namate generatiewe KI voortgaan om te vorder, groei die risiko's van misbruik saam met die potensiële voordele daarvan. Deur kwesbaarhede proaktief te identifiseer en aan te spreek deur metodes soos rooi span en sekuriteitsprotokolle te verfyn, kan die KI-gemeenskap help om te verseker dat hierdie kragtige instrumente verantwoordelik en veilig gebruik word. Die samewerking en deursigtigheid tussen navorsers en ontwikkelaars is deurslaggewend in die bou van 'n veilige KI-landskap wat innovasie met etiese oorwegings balanseer.