Mønstergjenkjenningssystemer i verdens informasjonsressurser. Gjennomgang av eksisterende metoder for mønstergjenkjenning. Eksempler på problemer med mønstergjenkjenning

Kapittel 3: Systemer for mønstergjenkjenning (identifikasjon).

  • Konseptet med et bilde. Problemet med å lære mønstergjenkjenning. Geometriske og strukturelle tilnærminger. kompakthetshypotese. Utdanning og selvstudium. tilpasning og læring.
  • Læringsmetoder for mønstergjenkjenning - perseptroner, nevrale nettverk, metode for potensielle funksjoner, metode for grupperegnskap for argumenter, metode for å begrense forenklinger, team av beslutningsregler.
  • Metoder og algoritmer for å analysere strukturen til flerdimensjonale data - klyngeanalyse, hierarkisk gruppering.

Konseptet med et bilde

Bilde, klasse - en klassifikasjonsgruppering i klassifiseringssystemet som forener (utskiller) en bestemt gruppe objekter i henhold til en eller annen egenskap.

Den figurative oppfatningen av verden er en av de mystiske egenskapene til den levende hjernen, som gjør det mulig å forstå den endeløse strømmen av oppfattet informasjon og opprettholde orienteringen i havet av ulike data om verden utenfor. Når vi oppfatter den ytre verden, klassifiserer vi alltid de oppfattede sensasjonene, det vil si at vi deler dem inn i grupper med lignende, men ikke identiske fenomener. For eksempel, til tross for den betydelige forskjellen, inkluderer en gruppe alle bokstavene A, skrevet med forskjellig håndskrift, eller alle lyder som tilsvarer samme note, tatt i en oktav og på et hvilket som helst instrument, og operatøren som kontrollerer det tekniske objektet, for en helhet sett av tilstander objekt reagerer med samme reaksjon. Karakteristisk, for å danne konseptet om en gruppe oppfatninger av en viss klasse, er det nok å bli kjent med et lite antall av dens representanter. Et barn kan bare vises en bokstav én gang, slik at han kan finne denne bokstaven i en tekst skrevet med forskjellige skrifttyper, eller gjenkjenne den, selv om den er skrevet i en bevisst forvrengt form. Denne egenskapen til hjernen lar oss formulere et slikt konsept som et bilde.

Bilder har en karakteristisk egenskap, som manifesterer seg i det faktum at bekjentskap med et begrenset antall fenomener fra samme sett gjør det mulig å gjenkjenne et vilkårlig stort antall av dets representanter. Eksempler på bilder kan være: elv, hav, væske, Tsjaikovskijs musikk, Mayakovskijs dikt osv. Et visst sett av tilstander av kontrollobjektet kan også betraktes som et bilde, og hele dette settet av tilstander er preget av at i for å oppnå et gitt mål, samme innvirkning på et objekt. Bilder har karakteristiske objektive egenskaper i den forstand at ulike mennesker som lærer av forskjellig observasjonsmateriale, for det meste, klassifiserer de samme objektene på samme måte og uavhengig av hverandre. Det er denne objektiviteten til bilder som gjør at mennesker over hele verden kan forstå hverandre.

Evnen til å oppfatte den ytre verden i form av bilder gjør at man med en viss sikkerhet kan gjenkjenne et uendelig antall objekter basert på bekjentskap med et begrenset antall av dem, og den objektive naturen til bilders hovedegenskap gjør at man kan modellere prosessen med deres anerkjennelse. Som en refleksjon av objektiv virkelighet er begrepet et bilde like objektivt som virkeligheten selv, og derfor kan dette begrepet i seg selv være gjenstand for en spesiell studie.

I litteraturen viet til problemet med treningsmønstergjenkjenning (ORO), introduseres ofte konseptet med en klasse i stedet for konseptet med et bilde.

Problemet med å lære mønstergjenkjenning (ORO)

En av de mest interessante egenskapene til den menneskelige hjernen er evnen til å reagere på et uendelig antall miljøforhold med et begrenset antall reaksjoner. Kanskje var det denne egenskapen som tillot en person å oppnå den høyeste formen for eksistensen av levende materie, uttrykt i evnen til å tenke, dvs. aktivt reflektere den objektive verden i form av bilder, konsepter, dommer, etc. Derfor problemet med ORO oppsto når man studerte de fysiologiske egenskapene til hjernen.

Tenk på et eksempel på oppgaver fra ODP-området.


Ris. en

Her er 12 oppgaver der det er nødvendig å velge funksjoner som kan brukes til å skille den venstre triade av bilder fra den høyre. Løsningen av disse problemene krever modellering av logisk tenkning i sin helhet.

Generelt består mønstergjenkjenningsproblemet av to deler: læring og gjenkjennelse. Utdanning utføres ved å vise individuelle objekter med en indikasjon på at de tilhører et eller annet bilde. Som et resultat av trening må gjenkjenningssystemet tilegne seg evnen til å reagere med de samme reaksjonene på alle objekter av samme bilde og forskjellige reaksjoner på alle objekter av forskjellige bilder. Det er veldig viktig at læringsprosessen bare skal avsluttes ved å vise et begrenset antall objekter uten andre spørsmål. Som læringsobjekter kan det enten være bilder eller andre visuelle bilder (bokstaver), eller ulike fenomener i den ytre verden, for eksempel lyder, kroppens tilstand under en medisinsk diagnose, tilstanden til et teknisk objekt i kontrollsystemer, etc. Det er viktig at kun objektene og deres tilhørighet til bildet. Trening etterfølges av prosessen med gjenkjennelse av nye objekter, som karakteriserer handlingene til et allerede trent system. Automatiseringen av disse prosedyrene er problemet med trening i mønstergjenkjenning. I tilfelle når en person selv gjetter eller oppfinner, og deretter pålegger en klassifiseringsregel på maskinen, er gjenkjennelsesproblemet delvis løst, siden hoved- og hoveddelen av problemet (trening) overtas av personen.

Problemstillingen med trening i mønstergjenkjenning er interessant både fra et anvendt og fra et grunnleggende synspunkt. Fra et anvendt synspunkt er løsningen av dette problemet viktig, for det første, fordi det åpner for muligheten for å automatisere mange prosesser som til nå bare har vært assosiert med aktiviteten til en levende hjerne. Problemets grunnleggende betydning er nært knyttet til spørsmålet som i økende grad oppstår i forbindelse med utvikling av ideer innen kybernetikk: hva kan og hva kan en maskin i bunn og grunn ikke gjøre? I hvilken grad kan egenskapene til en maskin bringes nærmere en levende hjernes evner? Spesielt, kan en maskin utvikle evnen til å overta fra en person evnen til å utføre visse handlinger avhengig av situasjoner som oppstår i miljøet? Så langt har det bare blitt klart at hvis en person først kan realisere sin evne selv, og deretter beskrive den, dvs. angi hvorfor han utfører handlinger som svar på hver tilstand i det ytre miljøet eller hvordan (ved hvilken regel) han kombinerer individuelle objekter til bilder, så kan en slik ferdighet overføres til en maskin uten grunnleggende vanskeligheter. Hvis en person har en ferdighet, men ikke kan forklare den, så er det bare én måte å overføre ferdigheter til en maskin - å lære ved eksempler.

Utvalget av oppgaver som kan løses ved hjelp av gjenkjenningssystemer er ekstremt bredt. Dette inkluderer ikke bare oppgavene med å gjenkjenne visuelle og auditive bilder, men også oppgavene med å gjenkjenne komplekse prosesser og fenomener som oppstår, for eksempel når du velger passende handlinger fra lederen av et foretak eller velger optimal styring av teknologisk, økonomisk, transport. eller militære operasjoner. I hver av disse oppgavene analyseres noen fenomener, prosesser, tilstander i den ytre verden, heretter referert til som observasjonsobjekter. Før du starter analysen av et objekt, er det nødvendig å skaffe viss, ordnet informasjon om det på en eller annen måte. Slik informasjon er en karakteristikk av objekter, deres visning på settet med oppfattende organer i gjenkjenningssystemet.

Men hvert observasjonsobjekt kan opptre forskjellig, avhengig av persepsjonsforholdene. For eksempel kan enhver bokstav, selv skrevet på samme måte, i prinsippet forskyves på en hvilken som helst måte i forhold til de oppfattende organene. I tillegg kan objekter av samme bilde være ganske forskjellige fra hverandre og selvfølgelig påvirke de oppfattende organene på forskjellige måter.

Hver kartlegging av et objekt til de oppfattende organene i det gjenkjennende systemet, uavhengig av dets posisjon i forhold til disse organene, kalles vanligvis et bilde av objektet, og sett med slike bilder, forent av noen vanlige egenskaper, er bilder.

Når man løser kontrollproblemer ved hjelp av bildegjenkjenningsmetoder, brukes begrepet "tilstand" i stedet for begrepet "bilde". En tilstand er en viss form for å vise de målte gjeldende (eller øyeblikkelige) egenskapene til det observerte objektet. Settet med stater bestemmer situasjonen. Begrepet "situasjon" er analogt med begrepet "bilde". Men denne analogien er ikke fullstendig, siden ikke alle bilder kan kalles en situasjon, selv om enhver situasjon kan kalles et bilde.

En situasjon kalles vanligvis et bestemt sett med tilstander til et komplekst objekt, som hver er preget av samme eller lignende egenskaper ved objektet. For eksempel, hvis et bestemt kontrollobjekt betraktes som et observasjonsobjekt, kombinerer situasjonen slike tilstander for dette objektet der de samme kontrollhandlingene skal brukes. Hvis objektet for observasjon er et militært spill, kombinerer situasjonen alle tilstandene i spillet som krever for eksempel et kraftig tankangrep med luftstøtte.

Valget av den første beskrivelsen av objekter er en av de sentrale oppgavene til ODP-problemet. Med et vellykket valg av den innledende beskrivelsen (funksjonsrom), kan gjenkjenningsoppgaven vise seg å være triviell, og omvendt kan en mislykket valgt innledende beskrivelse føre til enten svært vanskelig viderebehandling av informasjon, eller til fravær av en løsning i det hele tatt. For eksempel, hvis problemet med å gjenkjenne gjenstander som er forskjellige i farge blir løst, og signaler mottatt fra vektsensorer velges som den første beskrivelsen, kan gjenkjenningsproblemet ikke løses i prinsippet.

Geometriske og strukturelle tilnærminger.

Hver gang vi står overfor ukjente problemer, er det et naturlig ønske om å presentere dem i form av en lett forståelig modell som vil tillate oss å forstå problemet i termer som lett kan reproduseres av fantasien vår. Og siden vi eksisterer i rom og tid, er den mest forståelige for oss den romlige og tidsmessige tolkningen av oppgaver.

Ethvert bilde som oppstår som et resultat av å observere et objekt i lærings- eller eksamensprosessen kan representeres som en vektor, og dermed som et punkt i noen funksjonsrom. Hvis det hevdes at det ved visning av bilder er mulig å entydig tilskrive dem til ett av to (eller flere) bilder, så hevdes det dermed at det i noen rom er to (eller flere) regioner som ikke har felles punkter, og at bildene er punkter fra disse områdene. Hvert slikt område kan tildeles et navn, dvs. gi et navn som tilsvarer bildet.

La oss nå tolke prosessen med å lære mønstergjenkjenning i form av et geometrisk bilde, og begrense oss foreløpig til tilfellet med å gjenkjenne bare to mønstre. Det antas på forhånd bare at det er nødvendig å skille to regioner på et sted, og at kun punkter fra disse områdene vises. Disse områdene i seg selv er ikke forhåndsbestemt, det vil si at det ikke er informasjon om plasseringen av deres grenser eller regler for å avgjøre om et punkt tilhører et bestemt område.

I løpet av opplæringen presenteres tilfeldig utvalgte punkter fra disse områdene, og det rapporteres om hvilket område de presenterte punktene tilhører. Ingen tilleggsinformasjon om disse områdene, dvs. om plasseringen av deres grenser, gis under trening. Målet med læring er enten å bygge en overflate som vil skille ikke bare punktene som vises i læringsprosessen, men også alle andre punkter som tilhører disse områdene, eller å bygge overflater som avgrenser disse områdene slik at hver av dem bare inneholder punkter av det samme bildet. Målet med læring er med andre ord å konstruere slike funksjoner fra bildevektorer som for eksempel vil være positive på alle punkter i ett bilde og negative på alle punkter i et annet bilde. På grunn av at regionene ikke har felles punkter, er det alltid et helt sett med slike skillefunksjoner, og som et resultat av læring må en av dem bygges.

Hvis de presenterte bildene ikke tilhører to, men et større antall bilder, så er oppgaven å bygge, i henhold til punktene vist i løpet av treningen, en overflate som skiller alle områder som tilsvarer disse bildene fra hverandre. Dette problemet kan løses for eksempel ved å konstruere en funksjon som tar samme verdi over punktene til hver av regionene, og verdien av denne funksjonen over poeng fra ulike regioner bør være forskjellig.



Ris. 2 - To bilder.

Ved første øyekast ser det ut til at det ikke er nok å kjenne til et visst antall punkter fra området for å skille hele området. Faktisk kan man spesifisere et utallig antall forskjellige regioner som inneholder disse punktene, og uansett hvordan overflaten som velger regionen er bygget opp fra dem, er det alltid mulig å spesifisere en annen region som skjærer overflaten og samtidig inneholder poeng vist. Imidlertid er det kjent at problemet med å approksimere en funksjon fra informasjon om den i et begrenset sett med punkter, som er mye smalere enn hele settet som funksjonen er gitt på, er et vanlig matematisk problem med tilnærmelse av funksjoner. Selvfølgelig krever løsningen av slike problemer innføring av visse begrensninger på klassen av funksjoner som vurderes, og valget av disse begrensningene avhenger av arten av informasjonen som læreren kan legge til i læringsprosessen. Et slikt hint er antagelsen om bildenes kompakthet. Det er intuitivt klart at tilnærmingen av separeringsfunksjonen vil være en enklere oppgave, jo mer kompakt og jo mer avstand regionene som skal separeres. Så, for eksempel, i tilfellet vist i fig. 2a, er separasjonen åpenbart enklere enn i tilfellet vist i fig. 2b. Faktisk, i tilfellet vist i fig. 2a kan områdene separeres med et plan, og selv med store feil i definisjonen av separeringsfunksjonen vil den fortsatt separere områdene. I tilfellet i fig. 2b utføres separasjonen av en intrikat overflate, og selv små avvik i formen fører til separasjonsfeil. Det var denne intuitive forestillingen om relativt lett separerbare regioner som førte til kompakthetsantagelsen.

Sammen med den geometriske tolkningen av problemet med å lære å gjenkjenne mønstre, er det en annen tilnærming, som kalles strukturell eller språklig. La oss forklare den språklige tilnærmingen ved å bruke eksemplet med visuell bildegjenkjenning. Først skilles det ut et sett med innledende konsepter - typiske fragmenter som finnes i bilder, og kjennetegn ved det gjensidige arrangementet av fragmenter - "venstre", "bunn", "inne", etc. Disse innledende konseptene danner en ordbok som lar deg bygge ulike logiske utsagn, noen ganger kalt antagelser. Oppgaven er å velge fra et stort antall utsagn som kan konstrueres ved hjelp av disse konseptene, de mest betydningsfulle for denne spesielle saken.

Videre, ser på et begrenset og, hvis mulig, et lite antall objekter fra hvert bilde, er det nødvendig å konstruere en beskrivelse av disse bildene. De konstruerte beskrivelsene må være så fullstendige at de løser spørsmålet om hvilket bilde det gitte objektet tilhører. Når man implementerer den språklige tilnærmingen, oppstår to problemer: problemet med å konstruere en innledende ordbok, dvs. et sett med typiske fragmenter, og problemet med å konstruere beskrivelsesregler fra elementene i en gitt ordbok.

Innenfor rammen av språklig tolkning trekkes det en analogi mellom bildenes struktur og syntaksen til et språk. Ønsket om denne analogien var forårsaket av muligheten for å bruke apparatet til matematisk lingvistikk, det vil si at metodene er syntaktiske. Bruken av matematisk lingvistikk-apparat for å beskrive strukturen til bilder kan bare brukes etter at segmenteringen av bilder i komponentdeler er gjort, dvs. ord er utviklet for å beskrive typiske fragmenter og metoder for deres søk. Etter forarbeidet, som sikrer valg av ord, oppstår egentlige språklige oppgaver, bestående av oppgaver med automatisk grammatisk parsing av beskrivelser for bildegjenkjenning. Samtidig dukker det opp et selvstendig forskningsfelt, som ikke bare krever kunnskap om det grunnleggende innen matematisk lingvistikk, men også beherskelse av teknikker som er utviklet spesielt for språklig bildebehandling.

Kompakthetshypotese

Hvis vi antar at funksjonsrommet i læringsprosessen dannes basert på den planlagte klassifiseringen, så kan vi håpe at spesifikasjonen av funksjonsrommet i seg selv setter en egenskap, under handlingen som bildene i dette rommet lett skilles fra. Det er disse håpene som, etter hvert som arbeidet innen mønstergjenkjenning utviklet seg, stimulerte fremveksten av kompakthetshypotesen, som sier at kompakte sett i funksjonsrommet tilsvarer mønstre. Med et kompakt sett mener vi foreløpig noen "klumper" av punkter i bilderommet, forutsatt at det er sjeldenheter som skiller dem mellom disse klumpene.

Det var imidlertid ikke alltid mulig å bekrefte denne hypotesen eksperimentelt, men viktigst av alt, de oppgavene der kompakthetshypotesen fungerte bra (fig. 2a), fant uten unntak alle en enkel løsning. Og omvendt, de oppgavene som hypotesen ikke ble bekreftet for (fig. 2b) ble enten ikke løst i det hele tatt, eller ble løst med store vanskeligheter med involvering av ekstra triks. Dette faktum fikk oss i det minste til å tvile på gyldigheten av kompakthetshypotesen, siden et enkelt eksempel som benekter det er nok til å tilbakevise enhver hypotese. Samtidig har oppfyllelsen av hypotesen der det var mulig å løse problemet med opplæring i mønstergjenkjenning godt holdt interessen for denne hypotesen. Selve kompakthetshypotesen har blitt et tegn på muligheten for en tilfredsstillende løsning av gjenkjennelsesproblemer.

Formuleringen av kompakthetshypotesen bringer oss nær begrepet et abstrakt bilde. Hvis koordinatene til rommet er valgt tilfeldig, vil bildene i det bli distribuert tilfeldig. De vil være tettere i noen deler av rommet enn i andre. La oss kalle et tilfeldig valgt rom et abstrakt bilde. I dette abstrakte rommet vil det nesten helt sikkert være kompakte sett med punkter. Derfor, i samsvar med hypotesen om kompakthet, kan settet med objekter som tilsvarer kompakte sett med punkter i et abstrakt rom med rimelighet kalles abstrakte bilder av et gitt rom.

Utdanning og selvstudium. Tilpasning og læring

Alle bildene vist i fig. 1 karakterisere læringsoppgaven. I hver av disse oppgavene er det gitt flere eksempler (treningssekvens) på riktig løste oppgaver. Hvis det var mulig å legge merke til en viss universell egenskap som ikke avhenger verken av bildenes natur eller av bildene deres, men bare bestemmer deres evne til separerbarhet, så sammen med den vanlige oppgaven med å lære å gjenkjenne, ved å bruke informasjon om tilhørigheten av hvert objekt fra treningssekvensen til et eller annet bilde kan man utgjøre et annet klassifiseringsproblem - det såkalte problemet med læring uten lærer. En slik oppgave på det beskrivende nivået kan formuleres som følger: objekter presenteres for systemet samtidig eller sekvensielt uten noen indikasjon på at de tilhører bilder. Inndataenheten til systemet kartlegger et sett med objekter på et sett med bilder, og ved å bruke noen egenskap for bildeseparerbarhet innebygd i det på forhånd, lager en uavhengig klassifisering av disse objektene. Etter en slik prosess med selvlæring bør systemet tilegne seg evnen til å gjenkjenne ikke bare allerede kjente objekter (objekter fra treningssekvensen), men også de som ikke har blitt presentert før. Prosessen med selvlæring av et bestemt system er en slik prosess, som et resultat av at dette systemet, uten hjelp fra en lærer, får evnen til å utvikle de samme reaksjonene på bilder av objekter av samme bilde og forskjellige reaksjoner på bilder av forskjellige bilder. Lærerens rolle i dette tilfellet består bare i å gi systemet en objektiv egenskap som er den samme for alle bilder og bestemmer muligheten til å dele et sett med objekter i bilder.

Det viser seg at en slik objektiv egenskap er egenskapen til bilders kompakthet. Det gjensidige arrangementet av punkter i det valgte rommet inneholder allerede informasjon om hvordan settet med punkter skal deles. Denne informasjonen bestemmer egenskapen til mønsterseparerbarhet, som er tilstrekkelig for selvlæring av mønstergjenkjenningssystemet.

De fleste av de velkjente selvlærende algoritmene er i stand til å trekke ut bare abstrakte bilder, dvs. kompakte sett i gitte rom. Forskjellen mellom dem ser ut til å ligge i formaliseringen av begrepet kompakthet. Dette reduserer imidlertid ikke, og noen ganger øker til og med verdien av selvlærende algoritmer, siden bildene i seg selv ofte ikke er forhåndsbestemt av noen, og oppgaven er å bestemme hvilke undergrupper av bilder i et gitt rom som er bilder. Et godt eksempel på en slik oppgavesetting er sosiologisk forskning, når grupper av mennesker kjennetegnes av et sett med spørsmål. I denne forståelsen av problemet genererer selvlærende algoritmer tidligere ukjent informasjon om eksistensen i et gitt rom av bilder som ingen hadde noen formening om før.

I tillegg karakteriserer resultatet av egenlæring egnetheten til det valgte rommet for en spesifikk anerkjennelseslæringsoppgave. Hvis de abstrakte bildene identifisert i prosessen med selvlæring faller sammen med de virkelige, er plassen godt valgt. Jo mer abstrakte bilder skiller seg fra ekte, jo mer "ubeleilig" er den valgte plassen for en spesifikk oppgave.

Læring kalles vanligvis prosessen med å utvikle i et system en spesiell reaksjon på grupper av eksterne identiske signaler ved gjentatte ganger å påvirke det eksterne korreksjonssystemet. Slik ytre tilpasning i trening kalles vanligvis «oppmuntring» og «straff». Mekanismen for å generere denne justeringen bestemmer nesten fullstendig læringsalgoritmen. Selvlæring skiller seg fra læring ved at her ikke rapporteres tilleggsinformasjon om riktigheten av reaksjonen på systemet.

Tilpasning er prosessen med å endre parametrene og strukturen til systemet, og eventuelt kontrollere handlinger basert på gjeldende informasjon for å oppnå en viss tilstand av systemet med initial usikkerhet og skiftende driftsforhold.

Læring er en prosess, som et resultat av at systemet gradvis får evnen til å reagere med de nødvendige reaksjonene på visse sett av ytre påvirkninger, og tilpasning er justeringen av parametrene og strukturen til systemet for å oppnå den nødvendige kvaliteten på kontroll under forhold med kontinuerlige endringer i ytre forhold.

Og tegn. Slike oppgaver løses ganske ofte, for eksempel når du krysser eller kjører en gate i trafikklys. Å gjenkjenne fargen på et opplyst trafikklys og kjenne til veireglene lar deg ta den riktige avgjørelsen om du skal krysse gaten for øyeblikket.

I prosessen med biologisk evolusjon løste mange dyr problemer ved hjelp av visuelle og auditive apparater. mønstergjenkjenning bra nok. Oppretting av kunstige systemer mønstergjenkjenning er fortsatt et vanskelig teoretisk og teknisk problem. Behovet for slik anerkjennelse oppstår på en rekke områder – fra militære saker og sikkerhetssystemer til digitalisering av alle slags analoge signaler.

Tradisjonelt er bildegjenkjenningsoppgaver inkludert i omfanget av kunstig intelligensoppgaver.

Veibeskrivelse i mønstergjenkjenning

Det er to hovedretninger:

  • Studiet av gjenkjennelsesevner som levende vesener besitter, deres forklaring og modellering;
  • Utvikling av teori og metoder for å konstruere enheter designet for å løse individuelle problemer i anvendte problemer.

Formell redegjørelse for problemet

Mønstergjenkjenning er tilordningen av innledende data til en bestemt klasse ved å fremheve essensielle funksjoner som karakteriserer disse dataene fra den totale massen av ikke-essensielle data.

Når de setter gjenkjenningsproblemer, prøver de å bruke det matematiske språket, og prøver, i motsetning til teorien om kunstige nevrale nettverk, hvor grunnlaget er å oppnå et resultat ved å eksperimentere, å erstatte eksperimentet med logiske resonnementer og matematiske bevis.

Oftest vurderes monokrome bilder i mønstergjenkjenningsproblemer, noe som gjør det mulig å betrakte et bilde som en funksjon på et plan. Hvis vi tar for oss et punktsett på et fly T, hvor funksjonen x(x,y) uttrykker på hvert punkt av bildet dens karakteristikk - lysstyrke, gjennomsiktighet, optisk tetthet, så er en slik funksjon en formell registrering av bildet.

Settet med alle mulige funksjoner x(x,y) på overflaten T- det er en modell av settet med alle bilder X. Introduserer konseptet likheter mellom bildene kan du angi oppgaven med gjenkjenning. Den spesifikke formen for en slik setting avhenger sterkt av de påfølgende stadiene i anerkjennelse i samsvar med en eller annen tilnærming.

Metoder for mønstergjenkjenning

For optisk bildegjenkjenning kan du bruke metoden for å iterere over utseendet til et objekt i forskjellige vinkler, skalaer, forskyvninger osv. For bokstaver må du iterere over fonten, skriftegenskaper osv.

Den andre tilnærmingen er å finne konturen til objektet og undersøke dets egenskaper (tilkobling, tilstedeværelse av hjørner, etc.)

En annen tilnærming er å bruke kunstige nevrale nettverk. Denne metoden krever enten et stort antall eksempler på gjenkjenningsoppgaven (med riktige svar), eller en spesiell nevrale nettverksstruktur som tar hensyn til spesifikasjonene til denne oppgaven.

Perceptron som en metode for mønstergjenkjenning

F. Rosenblatt, introduserer konseptet med en hjernemodell, hvis oppgave er å vise hvordan psykologiske fenomener kan oppstå i et fysisk system, hvis struktur og funksjonelle egenskaper er kjent - beskrevet den enkleste diskrimineringseksperimenter. Disse eksperimentene er helt relatert til mønstergjenkjenningsmetoder, men skiller seg ut ved at løsningsalgoritmen ikke er deterministisk.

Det enkleste eksperimentet, på grunnlag av hvilket det er mulig å få psykologisk signifikant informasjon om et bestemt system, koker ned til det faktum at modellen presenteres med to forskjellige stimuli og er pålagt å svare på dem på forskjellige måter. Hensikten med et slikt eksperiment kan være å studere muligheten for deres spontane diskriminering av systemet i fravær av intervensjon fra eksperimentatoren, eller omvendt å studere tvungen diskriminering, der eksperimentatoren søker å lære systemet å utføre nødvendig klassifisering.

I et læringseksperiment blir en perceptron vanligvis presentert med en viss sekvens av bilder, som inkluderer representanter for hver av klassene som skal skilles ut. I henhold til noen minnemodifikasjonsregel forsterkes det riktige valget av reaksjon. Deretter blir kontrollstimulus presentert for perceptronen og sannsynligheten for å oppnå riktig respons for stimuli av denne klassen bestemmes. Avhengig av om den valgte kontrollstimulusen samsvarer med eller ikke samsvarer med et av bildene som ble brukt i treningssekvensen, oppnås forskjellige resultater:

  • 1. Hvis kontrollstimulus ikke sammenfaller med noen av læringsstimuliene, er eksperimentet ikke bare assosiert med ren diskriminering, men inkluderer også elementer generaliseringer.
  • 2. Hvis kontrollstimulusen eksiterer et visst sett med sensoriske elementer som er helt forskjellige fra de elementene som ble aktivert under påvirkning av tidligere presenterte stimuli fra samme klasse, så er eksperimentet en studie ren generalisering .

Perceptroner har ikke kapasitet til ren generalisering, men de fungerer ganske tilfredsstillende i diskrimineringseksperimenter, spesielt hvis kontrollstimulusen sammenfaller tett nok med et av mønstrene som perceptronen allerede har akkumulert noe erfaring om.

Eksempler på problemer med mønstergjenkjenning

  • Bokstavgjenkjenning.
  • Strekkodegjenkjenning.
  • Nummerskiltgjenkjenning.
  • Ansiktsgjenkjenning.
  • Talegjenkjenning.
  • Bildegjenkjenning.
  • Anerkjennelse av lokale områder av jordskorpen der mineralforekomster er lokalisert.

Mønstergjenkjenningsprogrammer

se også

Notater

Linker

  • Yuri Lifshits. Kurs "Modern Problems of Theoretical Informatics" - forelesninger om statistiske metoder for mønstergjenkjenning, ansiktsgjenkjenning, tekstklassifisering
  • Journal of Pattern Recognition Research (Journal of Pattern Recognition Research)

Litteratur

  • David A. Forsyth, Jean Pons Datamaskin syn. Modern Approach = Computer Vision: A Modern Approach. - M.: "Williams", 2004. - S. 928. - ISBN 0-13-085198-1
  • George Stockman, Linda Shapiro Datasyn = Datasyn. - M.: Binom. Kunnskapslaboratoriet, 2006. - S. 752. - ISBN 5947743841
  • A.L. Gorelik, V.A. Skripkin, Anerkjennelsesmetoder, M .: Higher school, 1989.
  • Sh.-K. Cheng, Designprinsipper for visuelle informasjonssystemer, M.: Mir, 1994.

Wikimedia Foundation. 2010 .

I teknologi, en vitenskapelig og teknisk retning knyttet til utvikling av metoder og konstruksjon av systemer (inkludert på grunnlag av en datamaskin) for å etablere tilhørigheten til et objekt (emne, prosess, fenomen, situasjon, signal) til en av de før ... ... Stor encyklopedisk ordbok

En av de nye regionene kybernetikk. Innholdet i teorien til R. om. er ekstrapolering av egenskapene til objekter (bilder) som tilhører flere klasser til objekter som er nær dem på en eller annen måte. Vanligvis, når du lærer en automat R. om. det er ... ... Geologisk leksikon

Engelsk anerkjennelse, bilde; tysk Gestalt alterkennung. En gren av matematisk kybernetikk som utvikler prinsipper og metoder for å klassifisere og identifisere objekter beskrevet av et begrenset sett med funksjoner som kjennetegner dem. Antinazi. Encyclopedia ... ... Encyclopedia of Sociology

Mønstergjenkjenning- metode for å studere komplekse objekter ved hjelp av en datamaskin; består i valg av funksjoner og utvikling av algoritmer og programmer som lar datamaskiner automatisk klassifisere objekter i henhold til disse funksjonene. For eksempel for å finne ut hvilken ... ... Økonomisk og matematisk ordbok

- (teknisk), en vitenskapelig og teknisk retning knyttet til utvikling av metoder og konstruksjon av systemer (inkludert datamaskinbaserte) for å fastslå tilhørigheten til et objekt (emne, prosess, fenomen, situasjon, signal) til en av før ... ... encyklopedisk ordbok

MØNSTERGJENKJENNING- en seksjon av matematisk kybernetikk som utvikler metoder for å klassifisere, samt identifisere objekter, fenomener, prosesser, signaler, situasjoner for alle disse objektene som kan beskrives av et begrenset sett av visse funksjoner eller egenskaper, ... ... Russisk sosiologisk leksikon

mønstergjenkjenning- 160 mønstergjenkjenning: Identifikasjon av skjemarepresentasjoner og konfigurasjoner ved hjelp av automatiske midler

Bildet forstås som en strukturert beskrivelse av objektet eller fenomenet som studeres, representert av en egenskapsvektor, hvor hvert element representerer den numeriske verdien til en av funksjonene som karakteriserer det tilsvarende objektet.

Den generelle strukturen til gjenkjenningssystemet er som følger:

Meningen med gjenkjennelsesproblemet er å fastslå om de studerte objektene har et fast begrenset sett med funksjoner som gjør at de kan tilordnes en bestemt klasse. Gjenkjenningsoppgaver har følgende karakteristiske trekk:

1. Dette er informasjonsoppgaver som består av to trinn:

en. Å bringe kildedataene til et skjema som er praktisk for gjenkjenning.

b. Selve gjenkjennelsen er en indikasjon på at et objekt tilhører en bestemt klasse.

2. I disse oppgavene kan man introdusere begrepet analogi eller likhet av objekter og formulere begrepet objekts nærhet som grunnlag for å tilordne objekter til samme klasse eller ulike klasser.

3. I disse oppgavene er det mulig å operere med et sett med presedenser – eksempler hvis klassifisering er kjent og som i form av formaliserte beskrivelser kan presenteres for gjenkjennelsesalgoritmen for å tilpasse seg oppgaven i læringsprosessen.

4. For disse problemene er det vanskelig å bygge formelle teorier og anvende klassiske matematiske metoder: ofte er informasjonen for en nøyaktig matematisk modell eller gevinsten ved å bruke modellen og matematiske metoder uforenlig med kostnadene.

5. I disse oppgavene er "dårlig informasjon" mulig - informasjon med hull, heterogen, indirekte, uklar, tvetydig, sannsynlighet.

Det anbefales å skille mellom følgende typer gjenkjenningsoppgaver:

1. Oppgaven med anerkjennelse, det vil si tildelingen av det presenterte objektet i henhold til beskrivelsen til en av de gitte klassene (opplæring med en lærer).

2. Oppgaven med automatisk klassifisering er delingen av et sett med objekter (situasjoner) i henhold til deres beskrivelser i et system av ikke-overlappende klasser (taksonomi, klyngeanalyse, uovervåket læring).

3. Problemet med å velge et informativt sett med funksjoner i gjenkjennelse.

4. Problemet med å redusere de opprinnelige dataene til en form som er praktisk for gjenkjenning.

5. Dynamisk gjenkjenning og dynamisk klassifisering - oppgave 1 og 2 for dynamiske objekter.

6. Prognoseoppgaven - oppgave 5, der løsningen må referere til et øyeblikk i fremtiden.

Konseptet med et bilde.

Et bilde, en klasse er en klassifiseringsgruppering i systemet som forener (selger ut) en bestemt gruppe objekter i henhold til en eller annen egenskap. Bilder har en rekke karakteristiske egenskaper, manifestert i det faktum at bekjentskap med et begrenset antall fenomener fra samme sett gjør det mulig å gjenkjenne et vilkårlig stort antall av dets representanter.


Som et bilde kan man også betrakte et visst sett av tilstander til kontrollobjektet, og hele dette settet av tilstander er preget av at det kreves samme innvirkning på objektet for å oppnå et gitt mål. Bilder har karakteristiske objektive egenskaper i den forstand at ulike mennesker som lærer av forskjellig observasjonsmateriale, for det meste, klassifiserer de samme objektene på samme måte og uavhengig av hverandre.

Generelt består problemet med mønstergjenkjenning av to deler: trening og gjenkjennelse.

Utdanning utføres ved å vise individuelle objekter med en indikasjon på at de tilhører et eller annet bilde. Som et resultat av trening må gjenkjenningssystemet tilegne seg evnen til å reagere med de samme reaksjonene på alle objekter av samme bilde og forskjellige reaksjoner på alle objekter av forskjellige bilder.

Det er veldig viktig at læringsprosessen bare skal avsluttes ved å vise et begrenset antall objekter uten andre spørsmål. Læringsobjektene kan enten være visuelle bilder eller ulike fenomener i den ytre verden og andre.

Trening etterfølges av prosessen med gjenkjennelse av nye objekter, som kjennetegner driften av et allerede trent system. Automatiseringen av disse prosedyrene er problemet med trening i mønstergjenkjenning. I tilfelle når en person selv gjetter eller oppfinner, og deretter pålegger datamaskinen klassifiseringsreglene, er gjenkjennelsesproblemet delvis løst, siden hoved- og hoveddelen av problemet (trening) overtas av personen.

Problemstillingen med trening i mønstergjenkjenning er interessant både fra et anvendt og fra et grunnleggende synspunkt. Fra et anvendt synspunkt er løsningen av dette problemet viktig, for det første, fordi det åpner for muligheten for å automatisere mange prosesser som til nå bare har vært assosiert med aktiviteten til en levende hjerne. Den grunnleggende betydningen av problemet er knyttet til spørsmålet om hva en datamaskin prinsipielt kan og ikke kan gjøre.

Når du løser problemer med å administrere metoder for mønstergjenkjenning, brukes begrepet "tilstand" i stedet for begrepet "bilde". Tilstand - visse former for å vise de målte nåværende (momentane) egenskapene til det observerte objektet, settet med tilstander bestemmer situasjonen.

En situasjon kalles vanligvis et bestemt sett med tilstander til et komplekst objekt, som hver er preget av samme eller lignende egenskaper ved objektet. For eksempel, hvis et bestemt kontrollobjekt betraktes som et observasjonsobjekt, kombinerer situasjonen slike tilstander for dette objektet der de samme kontrollhandlingene skal brukes. Hvis objektet for observasjon er et spill, forener situasjonen alle tilstander i spillet.

Valget av den innledende beskrivelsen av objekter er en av de sentrale oppgavene i problemet med læringsmønstergjenkjenning. Med et vellykket valg av den innledende beskrivelsen (funksjonsrom), kan gjenkjennelsesoppgaven vise seg å være triviell. Motsatt kan en mislykket innledende beskrivelse enten føre til en svært vanskelig viderebehandling av informasjon, eller til ingen løsning i det hele tatt.

Geometriske og strukturelle tilnærminger.

Ethvert bilde som oppstår som et resultat av å observere et objekt i lærings- eller eksamensprosessen kan representeres som en vektor, og dermed som et punkt i noen funksjonsrom.

Hvis det hevdes at det ved visning av bilder er mulig entydig å tilskrive dem til ett av to (eller flere) bilder, så hevdes det dermed at det i noen rom er to eller flere regioner som ikke har felles punkter, og at bildet av et punkt er fra disse regionene. Hvert punkt i et slikt område kan tildeles et navn, det vil si gi et navn som tilsvarer bildet.

La oss tolke prosessen med å lære mønstergjenkjenning i form av et geometrisk bilde, og begrense oss foreløpig til tilfellet med å gjenkjenne bare to mønstre. Det eneste som er kjent på forhånd er at det er påkrevd å skille to regioner på et sted og at kun punkter fra disse områdene vises. Disse områdene i seg selv er ikke forhåndsbestemt, det vil si at det ikke er informasjon om plasseringen av deres grenser eller regler for å avgjøre om et punkt tilhører et bestemt område.

I løpet av opplæringen presenteres tilfeldig utvalgte punkter fra disse områdene, og det rapporteres om hvilket område de presenterte punktene tilhører. Ingen tilleggsinformasjon om disse områdene, det vil si plasseringen av deres grenser under trening, rapporteres.

Målet med læring er enten å bygge en overflate som vil skille ikke bare punktene som vises i læringsprosessen, men også alle andre punkter som tilhører disse områdene, eller å bygge overflater som avgrenser disse områdene slik at hver av dem bare inneholder punkter av det samme bildet. Målet med læring er med andre ord å konstruere slike funksjoner fra bildevektorer som for eksempel vil være positive på alle punkter i ett bilde og negative på alle punkter i et annet bilde.

På grunn av at regionene ikke har felles punkter, er det alltid et helt sett med slike skillefunksjoner, og som et resultat av læring må en av dem bygges. Hvis de presenterte bildene ikke tilhører to, men et større antall bilder, så er oppgaven å bygge, i henhold til punktene vist i løpet av treningen, en overflate som skiller alle områder som tilsvarer disse bildene fra hverandre.

Dette problemet kan løses for eksempel ved å konstruere en funksjon som tar samme verdi over punktene til hver av regionene, og verdien av denne funksjonen over poeng fra ulike regioner bør være forskjellig.

Det kan virke som at det ikke er nok å kjenne til et visst antall punkter fra området for å skille hele området. Faktisk kan man spesifisere et utallig antall forskjellige regioner som inneholder disse punktene, og uansett hvordan overflaten som velger regionen er bygget opp fra dem, er det alltid mulig å spesifisere en annen region som skjærer overflaten og samtidig inneholder poeng vist.

Imidlertid er det kjent at problemet med å approksimere en funksjon fra informasjon om den i et begrenset sett med punkter er mye smalere enn hele settet som funksjonen er gitt på, og er et vanlig matematisk problem med tilnærmelse av funksjoner. Selvfølgelig krever løsningen av slike problemer innføring av visse begrensninger på klassen av funksjoner som vurderes, og valget av disse begrensningene avhenger av arten av informasjonen som læreren kan legge til læringsprosessen.

Et slikt hint er antagelsen om bildenes kompakthet.

Sammen med den geometriske tolkningen av problemet med å lære å gjenkjenne mønstre, er det en annen tilnærming, som kalles strukturell eller språklig. La oss vurdere den språklige tilnærmingen til eksemplet med visuell bildegjenkjenning.

Først skilles et sett med innledende konsepter - typiske fragmenter som finnes i bildet, og kjennetegn ved den relative plasseringen av fragmentene (venstre, bunn, innvendig, etc.). Disse innledende konseptene danner et vokabular som lar deg bygge ulike logiske utsagn, noen ganger kalt setninger.

Oppgaven er å velge fra et stort antall utsagn som kan konstrueres ved hjelp av disse konseptene, de mest betydningsfulle for denne spesielle saken. Videre, ser på et begrenset og, hvis mulig, et lite antall objekter fra hvert bilde, er det nødvendig å konstruere en beskrivelse av disse bildene.

De konstruerte beskrivelsene må være så fullstendige at de løser spørsmålet om hvilket bilde det gitte objektet tilhører. Ved implementering av den språklige tilnærmingen oppstår to oppgaver: oppgaven med å konstruere en innledende ordbok, det vil si et sett med typiske fragmenter, og oppgaven med å konstruere beskrivelsesregler fra elementene i en gitt ordbok.

Innenfor rammen av språklig tolkning trekkes det en analogi mellom bildenes struktur og syntaksen til et språk. Ønsket om denne analogien var forårsaket av muligheten for å bruke apparatet til matematisk lingvistikk, det vil si at metodene er syntaktiske. Bruken av matematisk lingvistikk-apparat for å beskrive strukturen til bilder kan bare brukes etter at segmenteringen av bilder i komponentdeler er gjort, det vil si at ord er utviklet for å beskrive typiske fragmenter og metoder for deres søk.

Etter forarbeidet, som sikrer valg av ord, oppstår egentlige språklige oppgaver, bestående av oppgaver med automatisk grammatisk parsing av beskrivelser for bildegjenkjenning.

kompakthetshypotese.

Hvis vi antar at funksjonsrommet i læringsprosessen dannes basert på den planlagte klassifiseringen, så kan vi håpe at spesifikasjonen av funksjonsrommet i seg selv setter en egenskap, under handlingen som bildene i dette rommet lett skilles fra. Det er disse håpene som, etter hvert som arbeidet innen mønstergjenkjenning utviklet seg, stimulerte fremveksten av kompakthetshypotesen, som sier at kompakte sett i funksjonsrommet tilsvarer mønstre.

Med et kompakt sett vil vi forstå visse klumper av punkter i bilderommet, forutsatt at det er sjeldenheter som skiller dem mellom disse klumpene. Imidlertid har denne hypotesen ikke alltid blitt bekreftet eksperimentelt. Men de oppgavene der kompakthetshypotesen var godt oppfylt fant alltid en enkel løsning, og omvendt, de oppgavene som hypotesen ikke ble bekreftet for ble enten ikke løst i det hele tatt, eller ble løst med store vanskeligheter og tilleggsinformasjon.

Selve kompakthetshypotesen har blitt et tegn på muligheten for tilfredsstillende løsning av gjenkjennelsesproblemer.

Formuleringen av kompakthetshypotesen bringer oss nær begrepet et abstrakt bilde. Hvis koordinatene til rommet er valgt tilfeldig, vil bildene i det bli distribuert tilfeldig. De vil være tettere i noen deler av rommet enn i andre.

La oss kalle et tilfeldig valgt rom et abstrakt bilde. I dette abstrakte rommet vil det nesten helt sikkert være kompakte sett med punkter. Derfor, i samsvar med kompakthetshypotesen, kalles settet med objekter som kompakte sett med punkter tilsvarer i et abstrakt rom vanligvis abstrakte bilder av et gitt rom.

Trening og egentrening, tilpasning og trening.

Hvis det var mulig å legge merke til en viss universell egenskap som ikke avhenger verken av bildenes natur eller av bildene deres, men bare bestemmer evnen til separerbarhet, så sammen med den vanlige oppgaven med å lære gjenkjennelse ved å bruke informasjon om tilhørigheten til hver objekt fra treningssekvensen til et eller annet bilde, kan man det ville være bedre å stille et annet klassifiseringsproblem - det såkalte problemet med å lære uten en lærer.

En slik oppgave på det beskrivende nivået kan formuleres som følger: objekter presenteres for systemet samtidig eller sekvensielt uten noen indikasjon på at de tilhører bilder. Inndataenheten til systemet kartlegger et sett med objekter på et sett med bilder, og ved å bruke noen egenskap for bildeseparerbarhet innebygd i det på forhånd, lager en uavhengig klassifisering av disse objektene.

Etter en slik prosess med selvlæring bør systemet tilegne seg evnen til å gjenkjenne ikke bare allerede kjente objekter (objekter fra treningssekvensen), men også de som ikke har blitt presentert før. Prosessen med selvlæring av et bestemt system er en slik prosess, som et resultat av at dette systemet, uten hjelp fra en lærer, får evnen til å utvikle de samme reaksjonene på bilder av objekter av samme bilde og forskjellige reaksjoner på bilder av forskjellige bilder.

Lærerens rolle i dette tilfellet består bare i å gi systemet en objektiv egenskap som er den samme for alle bilder og bestemmer muligheten til å dele et sett med objekter i bilder.

Det viser seg at en slik objektiv egenskap er egenskapen til bilders kompakthet. Det gjensidige arrangementet av punkter i det valgte rommet inneholder allerede informasjon om hvordan settet med punkter skal deles. Denne informasjonen bestemmer egenskapen til mønsterseparerbarhet, som er tilstrekkelig for selvlæring av mønstergjenkjenningssystemet.

De fleste av de velkjente selvlærende algoritmene er i stand til å velge bare abstrakte bilder, det vil si kompakte sett i gitte rom. Forskjellen mellom dem ligger i formaliseringen av begrepet kompakthet. Dette reduserer imidlertid ikke, og noen ganger øker til og med verdien av selvlærende algoritmer, siden bildene i seg selv ofte ikke er forhåndsbestemt av noen, og oppgaven er å bestemme hvilke undergrupper av bilder i et gitt rom som er bilder.

Et eksempel på en slik problemstilling er sosiologisk forskning, når grupper av mennesker skilles ut i henhold til et sett med spørsmål. I denne forståelsen av problemet genererer selvlærende algoritmer a priori ukjent informasjon om eksistensen i et gitt rom av bilder som ingen hadde noen anelse om før.

I tillegg karakteriserer resultatet av egenlæring egnetheten til det valgte rommet for en spesifikk anerkjennelseslæringsoppgave. Hvis de abstrakte bildene som er tildelt i rommet for selvlæring faller sammen med de virkelige, har plassen blitt valgt med hell. Jo mer abstrakte bilder skiller seg fra ekte, desto mer upraktisk er den valgte plassen for en spesifikk oppgave.

Læring kalles vanligvis prosessen med å utvikle i et system en spesiell reaksjon på grupper av eksterne identiske signaler ved gjentatte ganger å påvirke det eksterne korreksjonssystemet. Mekanismen for å generere denne justeringen bestemmer nesten fullstendig læringsalgoritmen.

Selvlæring skiller seg fra læring ved at her ikke rapporteres tilleggsinformasjon om riktigheten av reaksjonen på systemet.

Tilpasning er prosessen med å endre parametrene og strukturen til systemet, og eventuelt kontrollere handlinger, basert på gjeldende informasjon for å oppnå en viss tilstand av systemet med initial usikkerhet og skiftende driftsforhold.

Læring er en prosess, som et resultat av at systemet gradvis får evnen til å reagere med de nødvendige reaksjonene på visse sett av ytre påvirkninger, og tilpasning er justeringen av parametrene og strukturen til systemet for å oppnå den nødvendige kvaliteten på kontroll under forhold med kontinuerlige endringer i ytre forhold.


Talegjenkjenningssystemer.

Tale fungerer som det viktigste kommunikasjonsmiddelet mellom mennesker og derfor anses talekommunikasjon som en av de viktigste komponentene i det kunstige intelligenssystemet. Talegjenkjenning er prosessen med å konvertere et akustisk signal generert ved utgangen av en mikrofon eller telefon til en sekvens av ord.

En vanskeligere oppgave er oppgaven med å forstå tale, som er forbundet med identifiseringen av betydningen av det akustiske signalet. I dette tilfellet tjener utgangen fra talegjenkjenningsundersystemet som inngangen til ytringsforståelsesundersystemet. Automatisk talegjenkjenning (APP-systemer) er et av områdene innen naturlig språkbehandlingsteknologi.

Automatisk talegjenkjenning brukes når du automatiserer inntasting av tekster til en datamaskin, når du danner muntlige forespørsler til databaser eller informasjonsinnhentingssystemer, når du danner muntlige kommandoer til ulike intelligente enheter.

Grunnleggende konsepter for talegjenkjenningssystemer.

Talegjenkjenningssystemer er preget av mange parametere.

En av hovedparametrene er ordgjenkjenningsfeilen (ORF). Denne parameteren er forholdet mellom antall ukjente ord og det totale antallet talte ord.

Andre parametere som karakteriserer automatiske talegjenkjenningssystemer er:

1) ordbokstørrelse,

2) talemodus,

3) talestil,

4) fagområde,

5) høyttaleravhengighet,

6) nivået av akustisk støy,

7) kvaliteten på inngangskanalen.

Avhengig av størrelsen på ordboken er APP-systemer delt inn i tre grupper:

Med en liten ordbokstørrelse (opptil 100 ord),

Med en gjennomsnittlig ordbokstørrelse (fra 100 ord til flere tusen ord),

Med en stor ordbokstørrelse (mer enn 10 000 ord).

Talemodus karakteriserer måten ord og setninger uttales på. Det finnes systemer for å gjenkjenne kontinuerlig tale og systemer som tillater å gjenkjenne kun isolerte taleord. Isolert ordgjenkjenningsmodus krever at høyttaleren pauser kort mellom ordene.

I henhold til talestilen er APP-systemer delt inn i to grupper: deterministiske talesystemer og spontane talesystemer.

I deterministiske talegjenkjenningssystemer gjengir taleren tale etter språkets grammatiske regler. Spontan tale er preget av brudd på grammatiske regler og er vanskeligere å gjenkjenne.

Avhengig av fagområdet finnes det APP-systemer fokusert på applikasjon innen høyt spesialiserte områder (for eksempel tilgang til databaser) og APP-systemer med ubegrenset omfang. Sistnevnte krever et stort vokabular og skal gi gjenkjennelse av spontan tale.

Mange automatiske talegjenkjenningssystemer er høyttaleravhengige. Dette innebærer å forhåndsinnstille systemet til særegenhetene ved uttalen til en bestemt høyttaler.

Kompleksiteten ved å løse problemet med talegjenkjenning forklares av den høye variasjonen til akustiske signaler. Denne variasjonen skyldes flere årsaker:

Først forskjellig implementering av fonemer - de grunnleggende enhetene i språkets lydsystem. Variasjonen i implementeringen av fonemer er forårsaket av påvirkningen av nabolyder i talestrømmen. Nyansene av realiseringen av fonemer, på grunn av lydmiljøet, kalles allofoner.

For det andre, plasseringen og egenskapene til akustiske mottakere.

For det tredje, endringer i parametrene for talen til den samme høyttaleren, som skyldes den forskjellige følelsesmessige tilstanden til høyttaleren, tempoet i talen hans.

Figuren viser hovedkomponentene i talegjenkjenningssystemet:

Det digitaliserte talesignalet går inn i forbehandlingsenheten, hvor funksjonene som er nødvendige for lydgjenkjenning trekkes ut. Lydgjenkjenning gjøres ofte ved hjelp av kunstige nevrale nettverksmodeller. De valgte lydenhetene brukes deretter til å søke etter en sekvens av ord som passer best til det inngående talesignalet.

Søket etter en rekkefølge av ord utføres ved hjelp av akustiske, leksikalske og språklige modeller. Modellparametrene bestemmes fra treningsdataene basert på de respektive læringsalgoritmene.

Syntese av tale etter tekst. Enkle konsepter

I mange tilfeller krever opprettelsen av kunstige intelligenssystemer med elementer av hennes kommunikasjon utdata av meldinger i taleform. Figuren viser et blokkdiagram av et intelligent spørsmål-svar-system med talegrensesnitt:

Bilde 1.

Ta et stykke forelesninger fra Oleg

Vurder egenskapene til den empiriske tilnærmingen til eksemplet med gjenkjennelse av deler av tale. Oppgaven er å tilordne etiketter til ordene i setningen: substantiv, verb, preposisjon, adjektiv og lignende. I tillegg er det nødvendig å definere noen tilleggstrekk ved substantiver og verb. For et substantiv er det for eksempel et tall, og for et verb er det en form. Vi formaliserer oppgaven.

La oss representere setningen som en sekvens av ord: W=w1 w2…wn, der wn er tilfeldige variabler, som hver mottar en av de mulige verdiene som tilhører språkordboken. Sekvensen av etiketter tilordnet ordene i setningen kan representeres av sekvensen X=x1 x2 … xn, der xn er tilfeldige variabler hvis verdier er definert på settet med mulige etiketter.

Da er problemet med orddelsgjenkjenning å finne den mest sannsynlige sekvensen av etiketter x1, x2, …, xn gitt rekkefølgen av ord w1, w2, …, wn. Med andre ord er det nødvendig å finne en slik sekvens av etiketter X*=x1 x2 … xn som gir den maksimale betingede sannsynligheten P(x1, x2, …, xn| w1 w2.. wn).

La oss omskrive den betingede sannsynligheten P(X| W) som P(X| W)=P(X,W) / P(W). Siden det kreves å finne den maksimale betingede sannsynligheten P(X,W) for variabelen X, får vi X*=arg x maks P(X,W). Fellessannsynligheten P(X,W) kan skrives som et produkt av betingede sannsynligheter: P(X,W)=produkt over u-1 til n fra P(x i |x1,…,x i -1 , w1,…, w i -1) P(wi |xl,…,xi-1, w1,…,wi-1). Direkte søk etter maksimum av dette uttrykket er en vanskelig oppgave, siden for store verdier på n blir søkerommet veldig stort. Derfor er sannsynlighetene som er skrevet i dette produktet tilnærmet med enklere betingede sannsynligheter: P(x i |x i -1) P(w i |w i -1). I dette tilfellet antas det at verdien av etiketten x i bare er assosiert med den forrige etiketten x i -1 og ikke er avhengig av tidligere etiketter, og at sannsynligheten for ordet w i bare bestemmes av den nåværende etiketten x i. Disse antakelsene kalles Markovian, og teorien om Markov-modeller brukes for å løse problemet. Med tanke på Markov-antakelsene, kan vi skrive:

X*= arg x1, …, xn maks П i =1 n P(x i |x i -1) P(wi|wi-1)

Hvor betingede sannsynligheter estimeres på et sett med treningsdata

Søket etter en sekvens av etiketter X* utføres ved hjelp av Viterbi dynamisk programmeringsalgoritme. Viterbi-algoritmen kan betraktes som en variant av tilstandsgrafsøkealgoritmen, hvor toppunktene tilsvarer ordetiketter.

Karakteristisk, for alle gjeldende toppunkter, er settet med underordnede etiketter alltid det samme. Dessuten, for hvert underordnede toppunkt, faller også settene med overordnede toppunkter sammen. Dette forklares av det faktum at overganger gjøres på tilstandsgrafen, under hensyntagen til alle mulige kombinasjoner av etiketter. Markovs antakelse gir en betydelig forenkling av problemet med gjenkjennelse av deler av tale samtidig som den opprettholder høy nøyaktighet ved å tilordne etiketter til ord.

Så med 200 tagger er tildelingsnøyaktigheten omtrent 97 %. I lang tid ble imperialanalyse utført ved bruk av stokastiske kontekstfrie grammatikker. Imidlertid har de en betydelig ulempe. Det ligger i det faktum at de samme sannsynlighetene kan tilordnes forskjellige parser. Dette skyldes det faktum at sannsynligheten for parsing er representert som et produkt av sannsynlighetene til reglene som er involvert i parsingen. Hvis det under analysen brukes forskjellige regler, preget av de samme sannsynlighetene, gir dette opphav til det angitte problemet. De beste resultatene er gitt av en grammatikk som tar hensyn til språkets vokabular.

I dette tilfellet inkluderer reglene nødvendig leksikalsk informasjon som gir forskjellige sannsynlighetsverdier for samme regel i forskjellige leksikalske miljøer. Imperial parsing er mer i tråd med mønstergjenkjenning enn tradisjonell parsing i klassisk forstand.

Sammenlignende studier har vist at riktigheten av imperial parsing av naturlige språkapplikasjoner er høyere sammenlignet med tradisjonell parsing.

Metoder for automatisk mønstergjenkjenning og deres implementering i optiske tegngjenkjenningssystemer (Optical Character Recognition - OCR-systemer) er en av de mest avanserte kunstig intelligens-teknologiene. I utviklingen av denne teknologien inntar russiske forskere ledende posisjoner i verden.

Et OCR-system forstås som et system for automatisk mønstergjenkjenning som bruker spesialprogrammer for å avbilde tegn i trykt eller håndskrevet tekst (for eksempel lagt inn i en datamaskin gjennom en skanner) og konvertere den til et format som er egnet for behandling av tekstbehandlere, tekstredigerere , etc.

Forkortelsen OCR blir noen ganger dechiffrert som Optical Character Reader - en enhet for optisk tegngjenkjenning eller automatisk tekstlesing. For tiden behandler slike enheter i industriell bruk opptil 100 000 dokumenter per dag.

Industriell bruk innebærer inntasting av dokumenter av god til middels kvalitet - dette er behandling av folketellingsskjemaer, selvangivelser mv.

Vi lister opp funksjonene i fagområdet som er viktige fra OCR-systemers synspunkt:

  • font og størrelse forskjellige tegn;
  • forvrengninger i bildene av symboler (brudd i bildene av symboler);
  • forvrengninger under skanning;
  • utenlandske inneslutninger i bilder;
  • kombinasjon av tekstfragmenter på forskjellige språk;
  • et bredt utvalg av karakterklasser som bare kan gjenkjennes med ekstra kontekstuell informasjon.

Automatisk lesing av trykte og håndskrevne tekster er et spesielt tilfelle av automatisk visuell oppfatning av komplekse bilder. Tallrike studier har vist at for å løse dette problemet fullt ut, er intellektuell anerkjennelse, det vil si "anerkjennelse med forståelse", nødvendig.

Det er tre prinsipper som alle OCR-systemer er basert på.

  • 1. Prinsippet om integriteten til bildet. I objektet som studeres er det alltid vesentlige deler som det er relasjoner mellom. Resultatene av lokale operasjoner med deler av bildet tolkes kun i fellesskap i prosessen med å tolke integrerte fragmenter og hele bildet som helhet.
  • 2. Prinsippet om målrettethet. Gjenkjennelse er en målrettet prosess for å generere og teste hypoteser (finne ut hva som forventes av et objekt).
  • 3. Prinsippet om tilpasningsevne. Gjenkjenningssystemet må være i stand til å lære seg selv.

Ledende russiske OCR-systemer: FineReader; FineReader-manuskript; formReader; CunieForm (kognitive teknologier), kognitive former (kognitive teknologier) .

FineReader-systemet er produsert av ABBYY, som ble grunnlagt i 1989. ABBYY utvikler seg i to retninger: maskinsyn og anvendt lingvistikk. Den strategiske retningen for vitenskapelig forskning og utvikling er det naturlige språkaspektet ved teknologier innen maskinsyn, kunstig intelligens og anvendt lingvistikk.

CuneiForm GOLD for Windows er verdens første selvlærende intelligente OCR-system, som bruker den nyeste adaptive tekstgjenkjenningsteknologien og støtter mange språk. For hvert språk leveres en ordbok for kontekstuell kontroll og forbedring av kvaliteten på gjenkjenningsresultater. Gjenkjenner alle polygrafiske, maskinskrevne skrifttyper og fonter mottatt fra skrivere, med unntak av dekorative og håndskrevne, samt tekster av svært lav kvalitet.

Kjennetegn ved mønstergjenkjenningssystemer. Blant OSL-teknologier er spesielle teknologier for å løse visse klasser av problemer med automatisk mønstergjenkjenning av stor betydning:

  • søk etter personer etter bilder;
  • søke etter mineralforekomster og værvarsling basert på flyfotografering og satellittbilder i ulike områder av lysstråling;
  • kompilere geografiske kart basert på den første informasjonen som ble brukt i forrige oppgave;
  • analyse av fingeravtrykk og tegninger av iris i rettsmedisinske, sikkerhets- og medisinske systemer.

På stadiet med forberedelse og behandling av informasjon, spesielt ved databehandling av en bedrift, automatisering av regnskap, oppstår oppgaven med å legge inn en stor mengde tekstlig og grafisk informasjon på en PC. De viktigste enhetene for å legge inn grafisk informasjon er: en skanner, et faksmodem og sjeldnere et digitalkamera. I tillegg, ved å bruke optiske tekstgjenkjenningsprogrammer, kan du også legge inn (digitalisere) tekstinformasjon på en datamaskin. Moderne programvare- og maskinvaresystemer gjør det mulig å automatisere inntasting av store mengder informasjon til en datamaskin, ved å bruke for eksempel en nettverksskanner og parallell tekstgjenkjenning på flere datamaskiner samtidig.

De fleste OCR-programmer fungerer med en punktgrafikk som mottas gjennom et faksmodem, skanner, digitalkamera eller annen enhet. I det første trinnet må OSA-systemet dele opp siden i tekstblokker, basert på funksjonene til høyre og venstre justering og tilstedeværelsen av flere kolonner. Den gjenkjente blokken deles deretter opp i linjer. Til tross for den tilsynelatende enkelheten, er ikke dette en så åpenbar oppgave, siden det i praksis er uunngåelig forvrengning av sidebildet eller dets fragmenter når det er brettet. Selv en liten skråning fører til at venstre kant av en linje er lavere enn høyre kant av neste, spesielt når linjeavstanden er liten. Som et resultat er det et problem med å bestemme linjen som dette eller det fragmentet av bildet tilhører. For eksempel for bokstaver

Linjene blir deretter brutt opp i sammenhengende områder av bildet som tilsvarer individuelle bokstaver; gjenkjennelsesalgoritmen gjør antagelser om korrespondansen mellom disse områdene og tegn, og deretter velges hvert tegn, som et resultat av at siden gjenopprettes i tegn med tekst, og som regel i et gitt format. OCR-systemer kan oppnå den beste gjenkjenningsnøyaktigheten – over 99,9 % for rene bilder som består av vanlige fonter. Ved første øyekast virker denne gjenkjenningsnøyaktigheten perfekt, men feilraten er fortsatt deprimerende, for hvis det er omtrent 1500 tegn per side, så selv med en gjenkjenningssuksessrate på 99,9 %, er det én eller to feil per side. I slike tilfeller bør du bruke ordboksjekkmetoden, det vil si at hvis et bestemt ord ikke er i systemordboken, vil det prøve å finne et lignende i henhold til spesielle regler. Men dette tillater fortsatt ikke 100 % av feilene å bli rettet og krever menneskelig kontroll av resultatene.

Tekster man møter i det virkelige liv er vanligvis langt fra perfekte, og prosentandelen av gjenkjenningsfeil for «urene» tekster er ofte uakseptabelt høy. Skitne bilder er det mest åpenbare problemet fordi selv små flekker kan skjule definerende deler av en karakter eller forvandle hverandre til en annen. Unøyaktig skanning er også et problem på grunn av den "menneskelige faktoren", siden operatøren som sitter ved skanneren ganske enkelt ikke er i stand til å jevne ut hver skannede side og justere den nøyaktig med kantene på skanneren. Hvis dokumentet ble fotokopiert, er det ofte brudd og sammenslåing av tegn. Enhver av disse effektene kan føre til at systemet feiler fordi noen av OSD-systemene antar at et sammenhengende område av et bilde må være et enkelt tegn. En side utenfor grensen eller skjev side skaper litt skjeve karakterbilder som kan forvirres av OSA-systemet.

OSL-systemprogramvaren fungerer vanligvis med en stor bitmap av siden mottatt fra skanneren. Bilder med standard oppløsningsgrad oppnås ved skanning med en nøyaktighet på 9600 p/d. Et A4-ark med denne oppløsningen tar opp omtrent 1 MB minne.

Hovedformålet med OCR-systemer er å analysere rasterinformasjon (skannet tegn) og tilordne et tilsvarende tegn til et bildefragment. Etter at gjenkjenningsprosessen er fullført, må OCR-systemer kunne bevare formateringen av kildedokumenter, tildele et avsnittsattributt på rett sted, lagre tabeller, grafikk osv. Moderne gjenkjenningsprogrammer støtter alle kjente tekst- og grafikkformater og regnearkformater, samt HTML og PDF.

Arbeid med OCR-systemer bør som regel ikke forårsake noen spesielle vanskeligheter. De fleste av disse systemene har den enkleste automatiske modusen "skann og gjenkjenne" (Skann og les), og de støtter også modusen for gjenkjenning av bilder fra filer. For å oppnå best mulig resultater for et gitt system, er det imidlertid ønskelig (og ofte nødvendig) å forhåndstilpasse det manuelt til en bestemt type tekst, brevhodeoppsett og papirkvalitet. En side utenfor grensen eller skjev skaper litt forvrengte tegnbilder som kan forvirres av OCR-systemet.

Når du arbeider med et OCR-system, er det svært viktig å velge gjenkjenningsspråk og type materiale som skal gjenkjennes (skrivemaskin, faks, matriseskriver, avis osv.), samt intuitiviteten til brukergrensesnittet. Når du gjenkjenner tekster der flere språk brukes, avhenger gjenkjenningseffektiviteten av OCR-systemets evne til å danne grupper av språk. Samtidig har noen systemer allerede kombinasjoner for de mest brukte språkene, som russisk og engelsk.

For øyeblikket er det et stort antall programmer som støtter tekstgjenkjenning som en av mulighetene. Lederen på dette området er FineReader-systemet. Den siste versjonen av programmet (6.0) har nå verktøy for å utvikle nye systemer basert på FineReader 6.0-teknologi. FineReader 6.0-familien inkluderer: FineReader 6.0 Professional, FineReader 6.0 Corporate Edition, FineReader Scripting Edition 6.0 og FineReader Engine 6.0. FineReader 6.0-systemet har i tillegg til å kjenne til et stort antall formater for lagring, inkludert PDF, muligheten til å gjenkjenne direkte fra PDF-filer. Den nye intelligente bakgrunnsfiltreringsteknologien (intelligent bakgrunnsfiltrering) lar deg filtrere ut informasjon om teksturen til dokumentet og bakgrunnsstøyen til bildet: noen ganger brukes en grå eller farget bakgrunn for å fremheve tekst i et dokument. Dette hindrer ikke en person i å lese, men konvensjonelle tekstgjenkjenningsalgoritmer har alvorlige problemer når du arbeider med bokstaver plassert på toppen av en slik bakgrunn. FineReader kan oppdage soner som inneholder slik tekst ved å skille teksten fra bakgrunnen til dokumentet, finne prikker som er mindre enn en viss størrelse og fjerne dem. Samtidig bevares konturene til bokstavene, slik at bakgrunnspunkter som ligger nær disse konturene ikke introduserer interferens som kan forringe kvaliteten på tekstgjenkjenningen.

Ved å bruke egenskapene til moderne layoutprogrammer lager designere ofte objekter med kompleks form, for eksempel å pakke tekst med flere kolonner rundt et ikke-rektangulært bilde. FineReader 6.0 støtter gjenkjenning av slike objekter og lagring av dem i MS Word-filer. Nå vil komplekse layoutdokumenter bli nøyaktig gjengitt i denne tekstredigereren. Selv tabeller gjenkjennes med maksimal nøyaktighet, samtidig som alle muligheter for redigering opprettholdes.

ABBYY FormReader er et av ABBYYs gjenkjenningsprogrammer basert på ABBYY FineReader Engine. Dette programmet er utviklet for å gjenkjenne og behandle skjemaer som kan fylles ut manuelt. ABBYY FormReader kan behandle skjemaer med fast layout like godt som skjemaer hvis struktur kan endres. Den nye ABBYY FlexiForm-teknologien ble brukt til gjenkjenning.

Ledende programvareprodusenter har lisensiert russisk informasjonsteknologi for bruk med produktene deres. De populære programvarepakkene Corel Draw (Corel Corporation), FaxLine/OCR & Business Card Wizard (Inzer Corporation) og mange andre har CuneiForm OCR-biblioteket innebygd. Dette programmet ble det første OCR-systemet i Russland som mottok den MS Windows-kompatible logoen.

Readiris Pro 7 er et profesjonelt tekstgjenkjenningsprogram. Ifølge produsentene skiller dette OCR-systemet seg fra analoger i den høyeste nøyaktigheten ved å konvertere vanlige (hverdagslige) trykte dokumenter, som brev, fakser, magasinartikler, avisutklipp, til redigerbare objekter (inkludert PDF-filer). Hovedfordelene med programmet er: muligheten til mer eller mindre nøyaktig gjenkjenne bilder komprimert "til det maksimale" (med maksimalt tap av kvalitet) ved bruk av JPEG-formatmetoden, støtte for digitale kameraer og automatisk gjenkjenning av sideretning, støtte for opptil 92 språk (inkludert russisk).

OmniPage 11 er et ScanSoft-produkt. En begrenset versjon av dette programmet (OmniPage 11 Limited Edition, OmniPage Lite) følger vanligvis med nye skannere (i Europa og USA). Utviklerne hevder at programmet deres gjenkjenner trykte dokumenter med nesten 100 % nøyaktighet, og gjenoppretter formateringen, inkludert kolonner, tabeller, orddeling (inkludert orddeling av deler av ord), overskrifter, kapitteltitler, signaturer, sidetall, fotnoter, avsnitt, nummererte lister , røde linjer, grafer og bilder. Det er mulig å lagre til Microsoft Office, PDF og 20 andre formater, gjenkjenne fra PDF-filer og redigere i dette formatet. Det kunstige intelligenssystemet lar deg automatisk oppdage og korrigere feil etter den første manuelle korrigeringen. En ny spesialutviklet programvaremodul "Dcspeckle" lar deg gjenkjenne dokumenter med redusert kvalitet (fakser, kopier, kopier av kopier, etc.). Fordelen med programmet er muligheten til å gjenkjenne farget tekst og korrigere med stemmen. En versjon av OmniPage finnes også for Macintosh-datamaskiner.

  • cm.: Bashmakov A. I., Bashmakov I. A. Intelligent informasjonsteknologi.

Send ditt gode arbeid i kunnskapsbasen er enkelt. Bruk skjemaet nedenfor

Studenter, hovedfagsstudenter, unge forskere som bruker kunnskapsbasen i studiene og arbeidet vil være deg veldig takknemlig.

postet på http://www.allbest.ru/

Utdannings- og vitenskapsdepartementet i Den russiske føderasjonen

Novosibirsk State University of Economics and Management "NINH"

Fakultet for informasjonsteknologi

Institutt for anvendt informasjonsteknologi

disiplin Fuzzy logikk og nevrale nettverk

Mønstergjenkjenning

Retning: Bedriftsinformatikk (elektronisk virksomhet)

Fullt navn på studenten: Ekaterina Vitalievna Mazur

Sjekket av: Pavlova Anna Illarionovna

Novosibirsk 2016

  • Introduksjon
  • 1. Begrepet anerkjennelse
    • 1.1 Utviklingshistorie
    • 1.2 Klassifisering av mønstergjenkjenningsmetoder
  • 2. Metoder for mønstergjenkjenning
  • 3. Generelle kjennetegn ved mønstergjenkjenningsproblemer og deres typer
  • 4. Problemer og utsikter for utvikling av mønstergjenkjenning
    • 4.1 Anvendelse av mønstergjenkjenning i praksis
  • Konklusjon

Introduksjon

I ganske lang tid ble problemet med mønstergjenkjenning bare vurdert fra et biologisk synspunkt. Samtidig ble bare kvalitative egenskaper utsatt for observasjoner, som ikke tillot å beskrive funksjonsmekanismen.

Konseptet introdusert av N. Wiener på begynnelsen av 1900-tallet kybernetikk(vitenskapen om de generelle lovene for prosessene for kontroll og overføring av informasjon i maskiner, levende organismer og samfunn), tillot innføringen av kvantitative metoder i spørsmål om anerkjennelse. Det vil si å presentere denne prosessen (faktisk - et naturfenomen) ved matematiske metoder.

Teorien om mønstergjenkjenning er en av hoveddelene av kybernetikk, både teoretisk og anvendt. Dermed innebærer automatisering av noen prosesser å lage enheter som er i stand til å svare på endrede egenskaper til det ytre miljøet med et visst antall positive reaksjoner.

Grunnlaget for å løse problemer på dette nivået er resultatene av den klassiske teorien om statistiske løsninger. Innenfor rammen ble det bygget algoritmer for å bestemme klassen som et gjenkjennelig objekt kan tilordnes.

Hensikten med dette arbeidet er å bli kjent med begrepene mønstergjenkjenningsteori: å avsløre hoveddefinisjonene, å studere historien om forekomsten, å fremheve teoriens hovedmetoder og prinsipper.

Relevansen til emnet ligger i det faktum at for øyeblikket er mønstergjenkjenning et av de ledende områdene innen kybernetikk. Så de siste årene har det blitt stadig mer brukt: det forenkler interaksjonen mellom en person og en datamaskin og skaper forutsetninger for bruk av forskjellige kunstige intelligenssystemer.

bildegjenkjenningsapplikasjon

1. Konseptet med anerkjennelse

I lang tid vakte problemet med anerkjennelse oppmerksomheten til bare forskere innen anvendt matematikk. Som et resultat ble verkene til R. Fischer, skapt i 20-årene, førte til dannelsen av diskriminantanalyse - en av delene av teorien og praksisen om mønstergjenkjenning. PÅ 40-tallet A. N. Kolmogorov og A. Ya. Khinchin satte seg som mål å skille en blanding av to distribusjoner. Og i 50-60-talletår av det tjuende århundre, på grunnlag av et stort antall verk, dukket teorien om statistiske beslutninger opp. Innenfor rammen av kybernetikk begynte en ny retning å ta form, knyttet til utviklingen av teoretiske grunnlag og praktisk implementering av mekanismer, samt systemer designet for å gjenkjenne objekter og prosesser. Den nye disiplinen ble kalt "Mønstergjenkjenning".

Mønstergjenkjenning(objekter) er oppgaven med å identifisere et objekt ved dets bilde (optisk gjenkjenning), lydopptak (akustisk gjenkjenning) eller andre egenskaper. Bilde– Dette er en klassifiseringsgruppering som lar deg kombinere en gruppe objekter etter noen kriterier. Bilder har et karakteristisk trekk som manifesterer seg i det faktum at bekjentskap med et begrenset antall fenomener fra ett sett gjør det mulig å gjenkjenne et stort antall av dets representanter. I den klassiske formuleringen av gjenkjennelsesproblemet er settet delt inn i deler.

En av de grunnleggende definisjonene er også konseptet settene. I en datamaskin er et sett et sett med ikke-repeterende elementer av samme type. "Ikke-repeterende" betyr at et element enten er tilstede i settet eller ikke. Det universelle settet inneholder alle mulige elementer, det tomme settet inneholder ingen.

Metoden for å tilordne et element til et bilde kalles vedtaksregel. Et annet viktig konsept er beregninger- bestemmer avstanden mellom elementene i settet. Jo mindre denne avstanden er, jo mer like gjenstander (symboler, lyder osv.) som vi gjenkjenner. Som standard er elementene spesifisert som et sett med tall, og metrikken er spesifisert som en slags funksjon. Effektiviteten til programmet avhenger av valg av representasjon av bilder og implementeringen av metrikken: den samme gjenkjennelsesalgoritmen med forskjellige beregninger vil gjøre feil med forskjellige frekvenser.

læring vanligvis kalt prosessen med å utvikle i et system en spesiell reaksjon på faktorer av eksterne lignende signaler ved deres gjentatte innvirkning på systemet. selvlærende skiller seg fra trening ved at her ikke rapporteres tilleggsinformasjon om reaksjonen til systemet.

Eksempler på problemer med mønstergjenkjenning er:

Brevgjenkjenning;

Strekkodegjenkjenning;

Gjenkjennelse av skilt;

Gjenkjenning av ansikter og andre biometriske data;

Talegjenkjenning osv.

1.1 Historie utvikling

På midten av 1950-tallet sådde R. Penrose tvil om den nevrale nettverksmodellen til hjernen, og påpekte den essensielle rollen til kvantemekaniske effekter i dens funksjon. Basert på dette utviklet F. Rosenblatt en læringsmodell for visuell mønstergjenkjenning kalt perceptron.

Bilde1 - Skjematisk av perceptronen

Videre ble forskjellige generaliseringer av perceptronen oppfunnet, og funksjonen til nevroner var komplisert: nevroner kunne ikke bare multiplisere inngangstall og sammenligne resultatet med terskelverdier, men også bruke mer komplekse funksjoner på dem. Figur 2 viser en av disse komplikasjonene:

Ris. 2 Diagram over det nevrale nettverket.

I tillegg kan topologien til det nevrale nettverket være enda mer komplisert. For eksempel slik:

Figur 3 - Diagram over Rosenblatts nevrale nettverk.

Nevrale nettverk, som er et komplekst objekt for matematisk analyse, med riktig bruk, gjorde det mulig å finne svært enkle datalover. Men denne fordelen er også en kilde til potensielle feil. Vanskeligheten for analyse, i det generelle tilfellet, forklares bare av den komplekse strukturen, men som et resultat av de praktisk talt uuttømmelige mulighetene for å generalisere en lang rekke regelmessigheter.

1.2 KlassifiseringmetoderAnerkjennelseBilder

Som vi allerede har bemerket, er mønstergjenkjenning oppgaven med å etablere ekvivalensrelasjoner mellom visse bilder-modeller av objekter i den virkelige eller ideelle verden.

Disse relasjonene bestemmer tilhørigheten til gjenkjennelige objekter til noen klasser, som anses som uavhengige uavhengige enheter.

Når du konstruerer gjenkjennelsesalgoritmer, kan disse klassene spesifiseres av en forsker som bruker sine egne ideer eller bruker tilleggsinformasjon om likheten eller forskjellen mellom objekter i sammenheng med en gitt oppgave. I dette tilfellet snakker man om «anerkjennelse med læreren». I en annen, dvs. når et automatisert system løser et klassifiseringsproblem uten å involvere tilleggsinformasjon, snakker man om "uovervåket anerkjennelse".

I verkene til V.A. Duke gir en akademisk gjennomgang av anerkjennelsesmetoder og bruker to hovedmåter for å representere kunnskap:

Intensjonell (i form av et diagram over forhold mellom attributter);

Utvidelse ved hjelp av spesifikke fakta (objekter, eksempler).

Den intensjonelle representasjonen fanger opp mønstrene som forklarer strukturen til dataene. Når det gjelder diagnostiske oppgaver, består slik fiksering i å bestemme operasjoner på funksjonene til objekter som fører til ønsket resultat. Intensjonelle representasjoner implementeres gjennom operasjoner på verdier og involverer ikke operasjoner på spesifikke objekter.

I sin tur er utvidelsesrepresentasjoner av kunnskap assosiert med beskrivelse og fiksering av spesifikke objekter fra fagområdet og implementeres i operasjoner, hvis elementer er objekter som uavhengige systemer.

Klassifiseringen av anerkjennelsesmetoder foreslått av V.A. Hertug, grunnleggende regelmessigheter er lagt ned som ligger til grunn for den menneskelige erkjennelsesmåten i prinsippet. Dette setter denne inndelingen i klasser i en særstilling sammenlignet med andre mindre kjente klassifiseringer, som på denne bakgrunn ser kunstige og ufullstendige ut.

2. Metodermønstergjenkjenning

Iterasjonsmetode. I denne metoden blir det gjort en sammenligning med en bestemt database, hvor det for hvert av objektene er forskjellige alternativer for å endre visningen. For eksempel, for optisk bildegjenkjenning, kan du bruke iterasjonsmetoden i forskjellige vinkler eller skalaer, forskyvninger, deformasjoner osv. For bokstaver kan du iterere over skriften eller dens egenskaper. Når det gjelder lydmønstergjenkjenning, er det en sammenligning med noen kjente mønstre (et ord som snakkes av mange mennesker). Videre utføres en dypere analyse av egenskapene til bildet. Ved optisk gjenkjenning kan dette være definisjonen av geometriske egenskaper. Lydprøven i dette tilfellet blir utsatt for frekvens- og amplitudeanalyse.

Den neste metoden er bruk av kunstige nevrale nettverk(INS). Det krever enten et stort antall eksempler på gjenkjenningsoppgaven, eller en spesiell nevrale nettverksstruktur som tar hensyn til detaljene ved denne oppgaven. Men ikke desto mindre er denne metoden preget av høy effektivitet og produktivitet.

Metoder basert på estimater av fordelingstetthetene til funksjonsverdier. Lånt fra den klassiske teorien om statistiske beslutninger, der studieobjektene betraktes som realiseringer av en flerdimensjonal tilfeldig variabel fordelt i funksjonsrommet i henhold til en lov. De er basert på det Bayesianske beslutningsskjemaet, som appellerer til de opprinnelige sannsynlighetene for objekter som tilhører en bestemt klasse og betingede funksjonsfordelingstettheter.

Gruppen av metoder basert på estimering av fordelingstetthetene til funksjonsverdier er direkte relatert til metodene for diskriminant analyse. Den Bayesianske tilnærmingen til beslutningstaking er en av de mest utviklede parametriske metodene i moderne statistikk, der det analytiske uttrykket av distribusjonsloven (normalloven) anses å være kjent og bare et lite antall parametere (gjennomsnittsvektorer og kovariansmatriser) ) må estimeres. Hovedvanskene ved å bruke denne metoden anses å være behovet for å huske hele treningsutvalget for å beregne tetthetsestimater og høy følsomhet for treningsutvalget.

Metoder basert på antakelser om klassen av beslutningsfunksjoner. I denne gruppen anses typen beslutningsfunksjon som kjent og dens funksjonelle kvalitet er gitt. Basert på denne funksjonen finner man den optimale tilnærmingen til beslutningsfunksjonen fra treningssekvensen. Beser vanligvis forbundet med en feil. Hovedfordelen med metoden er klarheten i den matematiske formuleringen av gjenkjennelsesproblemet Muligheten for å trekke ut ny kunnskap om et objekts natur, spesielt kunnskap om mekanismene for attributters interaksjon, er her fundamentalt begrenset av en gitt struktur av interaksjon, fast i den valgte formen for beslutningsfunksjoner.

Prototype sammenligningsmetode. Dette er den enkleste utvidelsesgjenkjenningsmetoden i praksis. Det gjelder når de gjenkjennelige klassene vises som kompakte geometriske klasser. Deretter velges midten av den geometriske grupperingen (eller objektet nærmest sentrum) som prototypepunkt.

For å klassifisere et ubestemt objekt, blir prototypen nærmest funnet, og objektet tilhører samme klasse som det. Det dannes åpenbart ingen generaliserte bilder i denne metoden. Ulike typer avstander kan brukes som mål.

k nærmeste nabo metode. Metoden ligger i det faktum at når man klassifiserer et ukjent objekt, finner man et gitt antall (k) av geometrisk nærmeste trekkrom av andre nærmeste naboer med allerede kjent tilhørighet til en klasse. Beslutningen om å tildele et ukjent objekt tas ved å analysere informasjon om dets nærmeste naboer. Behovet for å redusere antall objekter i treningsutvalget (diagnostiske presedenser) er en ulempe ved denne metoden, siden dette reduserer representativiteten til treningsutvalget.

Basert på det faktum at ulike gjenkjenningsalgoritmer oppfører seg forskjellig på samme prøve, oppstår spørsmålet om en syntetisk beslutningsregel som vil bruke styrken til alle algoritmer. For dette er det en syntetisk metode eller sett med beslutningsregler som kombinerer de mest positive aspektene ved hver av metodene.

Som konklusjon av gjennomgangen av anerkjennelsesmetoder presenterer vi essensen av ovenstående i en sammendragstabell, og legger til noen andre metoder som brukes i praksis.

Tabell 1. Klassifikasjonstabell over gjenkjennelsesmetoder, sammenligning av deres bruksområder og begrensninger

Klassifisering av gjenkjennelsesmetoder

Bruksområde

Begrensninger (ulemper)

Intensive gjenkjenningsmetoder

Metoder basert på tetthetsestimater

Problemer med kjent fordeling (normal), behov for å samle inn store statistikker

Behovet for å telle opp hele treningssettet under gjenkjennelse, høy følsomhet for ikke-representativitet av treningssettet og artefakter

Forutsetningsbaserte metoder

Klassene bør være godt atskilt

Vedtaksfunksjonens form skal være kjent på forhånd. Umuligheten av å ta hensyn til ny kunnskap om sammenhenger mellom funksjoner

boolske metoder

Problemer av liten dimensjon

Når du velger logiske beslutningsregler, er en fullstendig oppregning nødvendig. Høy arbeidsintensitet

Språklige metoder

Oppgaven med å bestemme grammatikken for et bestemt sett med utsagn (beskrivelser av objekter) er vanskelig å formalisere. Uløste teoretiske problemer

Utvidede metoder for anerkjennelse

Prototype sammenligningsmetode

Problemer med liten dimensjon av funksjonsplass

Høy avhengighet av klassifiseringsresultater på metrikken. Ukjent optimal beregning

k nærmeste nabo metode

Høy avhengighet av klassifiseringsresultater på metrikken. Behovet for en fullstendig oppregning av treningsutvalget under anerkjennelse. Beregningsmessig kompleksitet

Algoritmer for karakterberegning (ABO)

Problemer med liten dimensjon når det gjelder antall klasser og funksjoner

Avhengighet av klassifiseringsresultater på metrikken. Behovet for en fullstendig oppregning av treningsutvalget under anerkjennelse. Høy teknisk kompleksitet av metoden

Kollektive beslutningsregler (CRC) er en syntetisk metode.

Problemer med liten dimensjon når det gjelder antall klasser og funksjoner

Svært høy teknisk kompleksitet av metoden, det uløste antallet teoretiske problemer, både når det gjelder å bestemme kompetanseområdene til bestemte metoder, og i de spesielle metodene i seg selv

3. Generelle kjennetegn ved mønstergjenkjenningsproblemer og deres typer

Den generelle strukturen til gjenkjenningssystemet og dets stadier er vist i figur 4:

Figur 4 - Strukturen i gjenkjenningssystemet

Gjenkjennelsesoppgaver har følgende karakteristiske stadier:

Transformasjon av innledende data til en praktisk form for gjenkjenning;

Gjenkjennelse (som indikerer at et objekt tilhører en bestemt klasse).

I disse oppgavene kan man introdusere begrepet likhet av objekter og formulere et sett med regler basert på hvilke et objekt er tilordnet en eller forskjellige klasser.

Det er også mulig å operere med et sett med eksempler, hvis klassifisering er kjent og som i form av gitte beskrivelser kan deklareres til gjenkjennelsesalgoritmen for å tilpasses oppgaven i læringsprosessen.

Vansker med å løse gjenkjennelsesproblemer er assosiert med manglende evne til å anvende klassiske matematiske metoder uten korrigeringer (ofte er det ingen informasjon tilgjengelig for en nøyaktig matematisk modell)

Det finnes følgende typer gjenkjenningsoppgaver:

Oppgaven med anerkjennelse er tildelingen av det presenterte objektet i henhold til beskrivelsen til en av de gitte klassene (trening med en lærer);

Oppgaven med automatisk klassifisering er å dele settet inn i et system av ikke-overlappende klasser (taksonomi, klyngeanalyse, selvlæring);

Problemet med å velge et informativt sett med attributter i gjenkjennelse;

Oppgaven med å bringe de første dataene til en praktisk form;

Dynamisk gjenkjenning og klassifisering;

Oppgaven med prognoser - det vil si at beslutningen må referere til et bestemt øyeblikk i fremtiden.

Det er to vanskeligste problemer i eksisterende gjenkjenningssystemer:

Problemet med "1001 klasser" - å legge til 1 klasse til 1000 eksisterende fører til vanskeligheter med å omskolere systemet og sjekke dataene innhentet før;

Problemet med "korrelasjon av ordforråd og kilder" kommer sterkest til uttrykk i talegjenkjenning. Dagens systemer kan gjenkjenne enten et stort antall ord fra en liten gruppe individer, eller få ord fra en stor gruppe individer. Det er også vanskelig å gjenkjenne et stort antall ansikter med sminke eller grimaser.

Nevrale nettverk løser ikke disse problemene direkte, men på grunn av deres natur tilpasser de seg mye lettere til endringer i inngangssekvenser.

4. Problemer og utsikterutviklingmønstergjenkjenning

4.1 Anvendelse av mønstergjenkjenning i praksis

Generelt består mønstergjenkjenningsproblemet av to deler: læring og gjenkjennelse. Læring gjennomføres ved å vise selvstendige objekter med sin oppgave til en eller annen klasse. Som et resultat av trening må gjenkjennelsessystemet tilegne seg evnen til å reagere med de samme reaksjonene på alle objekter i ett bilde og forskjellige på alle andre. Det er viktig at i læringsprosessen kun objektene selv og deres tilhørighet til bildet er indikert. Trening etterfølges av en gjenkjennelsesprosess som kjennetegner handlingene til et allerede trent system. Automatisering av disse prosedyrene er problemet.

Før du starter analysen av et objekt, er det nødvendig å få viss, på en eller annen måte ordnet, nøyaktig informasjon om det. Slik informasjon er et sett med egenskaper til objekter, deres visning på settet med oppfattende organer i det gjenkjennende systemet.

Men hvert observasjonsobjekt kan opptre forskjellig, avhengig av persepsjonsforholdene. I tillegg kan objekter av samme bilde være svært forskjellige fra hverandre.

Hver kartlegging av et objekt til de oppfattende organene i det gjenkjennende systemet, uavhengig av dets posisjon i forhold til disse organene, kalles vanligvis et bilde av objektet, og sett med slike bilder, forent av noen vanlige egenskaper, er bilder. Med et vellykket valg av den første beskrivelsen (funksjonsrom), kan gjenkjennelsesoppgaven vise seg å være ganske enkel, og omvendt kan en mislykket valgt en føre til svært vanskelig videre behandling av informasjon, eller til og med til fravær av en løsning .

Gjenkjennelse av objekter, signaler, situasjoner, fenomener er den vanligste oppgaven som en person trenger å løse hvert sekund. For dette brukes enorme hjerneressurser, som er estimert av en slik indikator som antall nevroner, lik 10 10 .

Også gjenkjennelse er stadig påtruffet i teknologi. Beregninger i nettverk av formelle nevroner minner på mange måter om informasjonsbehandling i hjernen. I det siste tiåret har nevrodatabehandling blitt ekstremt populært og har klart å bli en ingeniørdisiplin knyttet til produksjon av kommersielle produkter. Et stort arbeid pågår for å lage en elementbase for nevrodatabehandling.

Deres viktigste karakteristiske trekk er evnen til å løse ikke-formaliserte problemer som av en eller annen grunn ingen løsningsalgoritmer er ment. Nevrodatamaskiner tilbyr en relativt enkel teknologi for å skaffe algoritmer gjennom trening. Dette er deres viktigste fordel. Derfor er nevrodatabehandling aktuelt akkurat nå – i multimedias storhetstid, når global utvikling krever utvikling av nye teknologier som er nært knyttet til mønstergjenkjenning.

Et av hovedproblemene i utviklingen og anvendelsen av kunstig intelligens er fortsatt problemet med å gjenkjenne lyd og visuelle bilder. Alle andre teknologier er allerede klare til å finne sin anvendelse innen medisin, biologi, sikkerhetssystemer. I medisin hjelper mønstergjenkjenning leger med å stille mer nøyaktige diagnoser; i fabrikker brukes det til å forutsi defekter i varepartier. Biometriske identifikasjonssystemer, som deres algoritmiske kjerne, er også basert på gjenkjenningsresultater. Videreutvikling og design av datamaskiner som er i stand til mer direkte kommunikasjon med en person på naturlige språk for mennesker og gjennom tale er uløselig uten gjenkjennelse. Her oppstår allerede spørsmålet om utvikling av robotikk, kunstige kontrollsystemer, som inneholder gjenkjenningssystemer som vitale undersystemer.

Konklusjon

Som et resultat av arbeidet ble det laget en kort oversikt over hoveddefinisjonene av begrepene til en slik del av kybernetikk som mønstergjenkjenning, gjenkjenningsmetoder identifisert og oppgaver formulert.

Selvfølgelig er det mange retninger for utviklingen av denne vitenskapen. I tillegg, som det ble formulert i et av kapitlene, er anerkjennelse et av de sentrale utviklingsområdene for tiden. Dermed kan programvare i løpet av de kommende tiårene bli enda mer attraktivt for brukeren og konkurransedyktig i det moderne markedet dersom det anskaffer seg et kommersielt format og begynner å bli distribuert til et stort antall forbrukere.

Videre forskning kan rettes mot følgende aspekter: en dyp analyse av de viktigste prosessmetodene og utvikling av nye kombinerte eller modifiserte metoder for gjenkjennelse. Basert på forskningen som er utført, vil det være mulig å utvikle et funksjonelt gjenkjenningssystem, med hvilket det er mulig å teste de utvalgte gjenkjenningsmetodene for effektivitet.

Bibliografi

1. David Formais, Jean Pons Datasyn. Moderne tilnærming, 2004

2. Aizerman M.A., Braverman E.M., Rozonoer L.I. Metode for potensielle funksjoner i teorien om maskinlæring. - M.: Nauka, 2004.

3. Zhuravlev Yu.I. Om en algebraisk tilnærming til å løse problemer med gjenkjennelse eller klassifisering // Problemer med kybernetikk. M.: Nauka, 2005. - Utgave. 33.

4. Mazurov V.D. Committees of Systems of Inequalities and the Problem of Recognition // Kybernetikk, 2004, nr. 2.

5. Potapov A.S. Mønstergjenkjenning og maskinoppfatning. - St. Petersburg: Polytechnic, 2007.

6. Minsky M., Papert S. Perceptrons. - M.: Mir, 2007.

7. Rastrigin L. A., Erenshtein R. Kh. Metode for kollektiv anerkjennelse. M. Energoizdat, 2006.

8. Rudakov K.V. Om den algebraiske teorien om universelle og lokale begrensninger for klassifiseringsproblemer // Gjenkjennelse, klassifisering, prognose. Matematiske metoder og deres anvendelse. Utgave. 1. - M.: Nauka, 2007.

9. Fu K. Strukturelle metoder i mønstergjenkjenning. - M.: Mir, 2005.

Vert på Allbest.ru

...

Lignende dokumenter

    Grunnleggende begreper om mønstergjenkjenningsteori og dens betydning. Essensen av den matematiske teorien om mønstergjenkjenning. Hovedoppgavene som oppstår i utviklingen av mønstergjenkjenningssystemer. Klassifisering av sanntids mønstergjenkjenningssystemer.

    semesteroppgave, lagt til 15.01.2014

    Konseptet og funksjonene ved konstruksjonen av algoritmer for mønstergjenkjenning. Ulike tilnærminger til typologi av gjenkjennelsesmetoder. Studiet av de viktigste måtene å representere kunnskap på. Karakterisering av intensjonelle og ekstensjonelle metoder, evaluering av deres kvalitet.

    presentasjon, lagt til 01.06.2014

    Teoretisk grunnlag for mønstergjenkjenning. Funksjonsdiagram av gjenkjenningssystemet. Anvendelse av Bayesianske metoder for å løse problemet med mønstergjenkjenning. Bayesiansk bildesegmentering. TAN-modell for å løse problemet med bildeklassifisering.

    avhandling, lagt til 13.10.2017

    Gjennomgang av oppgaver som oppstår i utviklingen av mønstergjenkjenningssystemer. Trenbare bildeklassifiserere. Perceptron-algoritme og dens modifikasjoner. Oppretting av et program designet for å klassifisere bilder ved å bruke metoden med minste gjennomsnittlige kvadratfeil.

    semesteroppgave, lagt til 04.05.2015

    Metoder for mønstergjenkjenning (klassifikatorer): Bayesiansk, lineær, metode for potensielle funksjoner. Utvikling av et program for å gjenkjenne en person på fotografiene hans. Eksempler på arbeidet til klassifikatorer, eksperimentelle resultater på nøyaktigheten til metodene.

    semesteroppgave, lagt til 15.08.2011

    Opprettelse av et programvareverktøy som utfører visuell bildegjenkjenning basert på kunstige nevrale nettverk. Metoder som brukes for mønstergjenkjenning. Pandemonium Selfridge. Perceptron Rosenblatt. Regel for dannelse av kjedekode.

    avhandling, lagt til 04.06.2014

    Mønstergjenkjenning er oppgaven med å identifisere et objekt eller bestemme dets egenskaper ut fra bilde- eller lydopptaket. Historie om teoretisk og teknisk utvikling innen feltet. Metoder og prinsipper brukt i databehandling for gjenkjenning.

    sammendrag, lagt til 04.10.2010

    Konsept av mønstergjenkjenningssystem. Klassifisering av gjenkjenningssystemer. Utvikling av et system for å gjenkjenne formen til mikroobjekter. Algoritme for å lage et system for å gjenkjenne mikroobjekter på et krystallogram, funksjoner ved implementeringen i et programvaremiljø.

    semesteroppgave, lagt til 21.06.2014

    Velge type og struktur av det nevrale nettverket. Valg av gjenkjennelsesmetode, et blokkskjema over Hopfield-nettverket. Trening av mønstergjenkjenningssystemet. Funksjoner ved å jobbe med programmet, dets fordeler og ulemper. Beskrivelse av brukergrensesnitt og skjermskjemaer.

    semesteroppgave, lagt til 14.11.2013

    Fremveksten av tekniske systemer for automatisk gjenkjenning. Mennesket som et element eller ledd i komplekse automatiske systemer. Muligheter for automatiske gjenkjenningsenheter. Stadier for å lage et bildegjenkjenningssystem. Måle- og kodeprosesser.