Hørte du det? Hva var det?
Spørsmålene ovenfor vil umiddelbart fanges opp av menneskelig hørsel, og gi raske svar som "Det er bare en bil på veien" eller "Det må være en sjelden fugl." Vanligvis vil vi ikke engang stille spørsmålet, eller tenker over det vi har hørt. Vi bare gjenkjenner lyden instinktivt og vet hva det er – enten det er en bil, en fugl eller noe annet.
Kunstig intelligens (KI) er også i stand til å gjenkjenne lyder automatisk. Men å lære denne ferdigheten er ofte ikke gjennomførbart, med dagens KI-løsninger. Det å samle inn nok data og trene opp KI-systemene til å identifisere alle relevante lydkilder i alle reelle sammenhenger er ofte uoverkommelig kostbart. I motsetning til mennesker som intuitivt forstår å skille ut lyd-kilden fra omgivelsene etter bare noen få eksempler, krever KI store mengder data og gjentatt trening for å identifisere hver lyd riktig. ROaR sikter mot å lukke dette gapet og dermed redusere kostnadene knyttet til å ta i bruk KI-drevet lydgjenkjenning på tvers av et bredt spekter av applikasjoner.
Lyd inneholder informasjon, og informasjon har verdi
Dette åpner opp for mange mulige anvendelser der lydovervåking har stor nytteverdi. For eksempel er kontinuerlig overvåking av utendørs støy ofte en forutsetning for kunne håndheve nødvendig begrensing av støybelastningen i et område. Bare i Vest-Europa, koster menneskeskapt støy over en million sunne leveår (DALYs) hvert år. Overvåking av lydforhold kan også brukes til å følge med på natur og biologisk mangfold, og hjelpe oss med å kontrollere om innførte tiltak har ønsket effekt eller peke på hvor videre innsats gir størst uttelling.
I kjernen av lydovervåking er evnen til å gjenkjenne lydkilder. Dette er noe vi som mennesker begynner å lære tidlig – før vi i det hele tatt er født. Den gode nyheten er at vi kan lære maskiner å gjøre det samme. Med de riktige grunnlagsdataene kan KI trenes til å gjenkjenne lyder med svært stor presisjon. Den beste delen? Disse systemene kan fungere kontinuerlig, selv i risikofylte omgivelser.
Transfer learning
Men mens store språkmodeller (LLM) revolusjonerer hvordan vi jobber med tekst, og datasynsmodeller utmerker seg ved å tolke bilder, sliter KI fortsatt med lyd. Transfer learning, en av nøkkelteknikkene i maskinlæring som gjør at en modell som er trent på én oppgave kan tilpasses til en annen, fungerer ikke like godt med lyd. Modeller for klassifisering av lyd klarer ofte ikke å generalisere på tvers av ulike kontekster. Enkelt sagt: Er anvendelsen ny? Start ny trening fra bunnen av.
RoAR — en tjeneste som muliggjør utvikling av nye systemer
Dette betyr at teknologi for klassifisering av lyd er for dyr for de fleste. Det krever for mye manuelt arbeid for hver ny anvendelse. Det er her RoAR kommer inn: Robust Acoustic Recognition. I stedet for å utvikle et nytt system for lydklassifisering for hver enkel anvendelse, har ROaR som mål å skape en tjeneste som muliggjør enkel utvikling av nye systemer, med minimal manuell innsats.
Hvordan får vi mest mulig ut av hvert enkelt datapunkt som er behandlet manuelt? Vi vil utforske alt fra lyd-representasjonen (det vi mater inn i modellene våre), dataforsterkning (hvordan lærer vi AI om lydutbredelse?), til distribusjoner/klynger (hvilke klipp høres like ut, og hvilke gjør det ikke?), til aktiv læring (hvilke lydklipp vil gi legge mest nyttig informasjonen til systemet mitt?). Forskningen vil dekke en rekke brukstilfeller, inkludert datasett for både urban støy og biologisk mangfold, for å sikre bred anvendelighet.
RoAR er et samarbeid mellom eksperter innen AI/lydsignal ved SINTEF Digital, Norsonic (en av verdens ledende produsenter av akustikk- og vibrasjonsmålingssystemer) og eksperter innen AI-økologi ved NINA.