Het nieuwe beveiligingssysteem van Microsoft kan hallucinaties opvangen in de AI-toepassingen van zijn klanten

Sarah Bird, Chief Product Officer of Responsible AI van Microsoft, zegt De rand in een interview dat haar team verschillende nieuwe beveiligingsfuncties heeft ontworpen die gemakkelijk te gebruiken zullen zijn voor Azure-klanten die geen groepen rode teams in dienst hebben om de AI-services die ze hebben gebouwd te testen. Microsoft zegt dat deze op LLM gebaseerde tools potentiële kwetsbaarheden kunnen detecteren, hallucinaties kunnen volgen “die geloofwaardig maar niet worden ondersteund” en kwaadaardige zoekopdrachten in realtime kunnen blokkeren voor Azure AI-clients die elk model gebruiken dat op het platform wordt gehost.

“We weten dat niet alle klanten diepgaande expertise hebben op het gebied van snelle injectie-aanvallen of haatinhoud, dus genereert het evaluatiesysteem de vragen die nodig zijn om dit soort aanvallen te simuleren. Klanten kunnen dan de score krijgen en de resultaten zien”, zegt ze.

Drie functies: Prompt Shields, die snelle injecties of kwaadaardige prompts uit externe documenten blokkeren die modellen instrueren om tegen hun training in te gaan; Aardingsdetectie, die hallucinaties opspoort en blokkeert; en beveiligingsbeoordelingen, die kwetsbaarheden in modellen beoordelen, zijn nu als preview beschikbaar op Azure AI. Binnenkort komen er nog twee andere functies beschikbaar om het model richting veilige uitgangen te leiden en zoekopdrachten te monitoren om potentieel problematische gebruikers te signaleren.

Of de gebruiker nu een prompt typt of dat het model gegevens van derden verwerkt, het trackingsysteem zal deze evalueren om te zien of er verboden woorden worden geactiveerd of verborgen prompts zijn voordat wordt besloten deze naar het model te sturen om te reageren. Daarna kijkt het systeem naar de reactie van het model en controleert of het model informatie hallucineert die niet in het document of de prompt staat.

In het geval van de Google Gemini-afbeeldingen hadden filters die zijn ontworpen om vooringenomenheid te verminderen onbedoelde effecten, een gebied waarvan Microsoft zegt dat de Azure AI-tools meer aangepaste controle mogelijk zullen maken. Bird erkent dat er zorgen zijn dat Microsoft en andere bedrijven zouden kunnen beslissen wat wel of niet geschikt is voor AI-modellen. Daarom heeft haar team een manier toegevoegd waarop Azure-gebruikers filtering kunnen inschakelen voor haatzaaiende uitlatingen of geweld dat het model ziet en blokkeert.

In de toekomst kunnen Azure-klanten een rapport ontvangen over gebruikers die proberen onveilige uitgangen te starten. Bird zegt dat systeembeheerders hierdoor kunnen achterhalen welke gebruikers zijn eigen rode teamteam zijn en welke mogelijk mensen zijn met meer kwaadaardige bedoelingen.

Bird zegt dat de beveiligingsfuncties onmiddellijk worden ‘aangesloten’ op GPT-4 en andere populaire modellen zoals Llama 2. Omdat het tuinmodel van Azure echter veel AI-modellen bevat, moeten gebruikers van kleinere, minder gebruikte open source-systemen mogelijk handmatig de kenmerken van het beveiligingsmodel.