*Er korrekturlesningsevnen di god?
Resultater fra SCARRIE

Victoria Rosén og Koenraad de Smedt
Universitetet i Bergen og HIT-senteret

Foredrag på MONS 8, Tromsø, 20. november 1999.

Publisert i:
Westvik, O.J. (ed.) Nordlyd: Tromsø University working papers of language and linguistics No 28, 214-228.


1  Innledning

SCARRIE er et EU-finansiert forskningsprosjekt om automatisk korrekturlesning for de skandinaviske språkene.  Partnere i prosjektet var WordFinder AB (Växjö), Institutionen för lingvistik ved Uppsala Universitet, Center for Sprogteknologi (København), HIT-senteret ved Universitetet i Bergen og Svenska Dagbladet (Stockholm). HIT-senteret hadde ansvar for den norske delen av prosjektet, som bare hadde midler til å ta for seg bokmål.  På MONS 7 ble utgangspunkter og mål for prosjektet presentert.  SCARRIE ble avsluttet våren 1999, og i denne artikkelen beskriver vi nærmere noen av metodene som ble brukt og resultatene som ble oppnådd.

Automatisk korrekturlesning er et komplisert foretakende, i likhet med andre former for maskinell skrivestøtte, jf. vår artikkel 'Datamaskinell skrivestøtte' (De Smedt og Rosén 1999a).  Noen av vanskelighetene som er involvert, illustreres av (1).

(1)  *Er korrekturlesningsevnen di god?

En menneskelig korrekturleser ville nok anta at en bokstav sannsynligvis er utelatt her, altså at di er en skrivefeil for din.  Dagens maskinelle systemer vil derimot ikke reagere på di, siden det er et eksisterende ord.  De er heller ikke i stand til å akseptere korrekturlesningsevnen med mindre hele denne sammensetningen finnes i systemets ordliste.  Ved å tilføre lingvistisk kunnskap har SCARRIE-prosjektet prøvd å la maskinen reagere litt mer intelligent.

Utelatelse av en bokstav og andre vanlige skrivefeil fører i noen tilfeller til ikke-eksisterende ord, som når frydefullt staves frydefult; når slike feil forekommer, vil et automatisk korrekturlesningsprogram prøve å foreslå et ord som ligner på det feilstavede ordet som korreksjon.  I andre tilfeller kan utelatelse av en bokstav føre til at et ord blir erstattet med et annet ord.  Alle ord i (1) er korrekt skrevne som enkeltord betraktet, men det er likevel en feil i setningen.  Denne typen feil er imidlertid mye vanskeligere å håndtere automatisk, for dette krever en grammatisk analyse av setningen.

En spesiell utfordring når det gjelder norsk er at den offisielle rettskrivningen tillater en stor grad av variasjon.  Selv om systemet er i stand til å identifisere mangelen på kongruens som problemet i (1), er det ikke opplagt hvordan korreksjonen bør skje.  Både korrekturlesningsevnen din og korrekturlesningsevna di er mulige korreksjoner.  For at systemet skal kunne velge riktig mellom disse alternativene, bør det i tillegg til grammatisk informasjon ha informasjon om ulike stilverdier, slik at en korreksjon i tråd med forfatterens stil kan velges.

I norsk, som i de fleste germanske språk, er sammensetning svært produktiv.  Som allerede nevnt er det et problem for automatiske systemer at nye sammensetninger som korrekturlesningsevne ikke finnes som oppslag i leksika.  Skal et program greie å gjenkjenne slike produktive sammensetninger, må det ha en velutviklet komponent for sammensetningsanalyse.

I det følgende presenterer vi hvordan vi har prøvd å takle disse utfordringene i SCARRIE.  I avsnitt 2 vil vi ta opp variasjon i bokmål og hvorfor det skaper problemer for automatisk korrekturlesning.  I avsnitt 3 rapporterer vi om det omfattende arbeidet med leksikonet.  Avsnitt 4 er særlig konsentrert om hvordan lingvistiske kunnskaper kan forbedre systemer for automatisk korrekturlesning. Vi diskuterer tre områder der slike kunnskaper kan bidra: morfologisk analyse, fonologisk analyse og syntaktisk analyse. Resultatene av testene som ble utført på SCARRIE ved prosjektslutt presenteres i avsnitt 5.

2  Variasjon i bokmål

Den offisielle rettskrivningen for bokmål tillater stor grad av variasjon. Man kan f.eks. skrive:
 
(2)  enten eller
annerledes  annleis
melk mjølk
gress gras
løv lauv
fløte fløyte

Denne variasjonen gjelder ikke bare stammer, men også bøyningsendelser, altså:
 
(3)  enten eller
melken  melka
mjølken mjølka
skapene  skapa
joiket joika
skjøv skauv

De fleste er klar over at det er en del valgmuligheter, men de færreste er kanskje klar over hvor mange valgmuligheter det er. Det er ikke alltid slik at det er bare to varianter å velge mellom. Særlig når det gjelder bøyde former av sammensetninger, kan det bli svært mange former, for eksempel:
 
(4)  fløtemelken
fløtemelka
fløytemelken
fløytemelka
fløtemjølken
fløtemjølka
fløytemjølken
fløytemjølka

Mange mener at denne variasjonsrikdommen er positiv.  For noen kan det sikkert oppleves slik. Men for automatiske systemer betyr variasjonen en stor utfordring. Se for eksempel på følgende setning:

(5)  De lavtlønte sykehjemsansatte ble helt utmattet og slukket tørsten med den surnete fløtemelken.

Denne setningen har hele 165.888 mulige stavemåter på bokmål.  Ikke alle disse kombinasjoner av godkjente ordformer vil imidlertid utgjøre naturlige norske setninger.  For eksempel er det lite sannsynlig at noen bokmålsforfattere vil velge kombinasjoner av former som i (6) og (7):

(6)  De lavlønna sjukehjemsansatte blei heilt utmattet og slukka tørsten med den surnede fløtemjølken.

(7)  De lågtlønnede sykeheimsansatte vart helt utmatta og sløkket tørsten med den surna fløytemelka.

I disse setningene er radikale og konservative ordformer kombinert hulter til bulter på en måte som ingen bokmålsbrukere vil finne naturlig.  Men det er ikke bare sammenstillingen av ordformer som virker rart.  Også noen av ordformene i seg selv vil de fleste reagere på, f.eks. lågtlønnede, der den radikale roten låg kombineres med den konservative endelsen -ede.  Dette ordet har faktisk seksten korrekte skrivemåter i bokmål.

Hvordan skal et automatisk system kunne velge en korreksjon for et feilstavet ord når det kan være så mange riktige stavemåter?  At bokmålsbrukere intuitivt velger former som passer sammen, må skyldes regler som er uskrevne men likevel akseptert i språksamfunnet.  For at et automatisk system ikke skal velge former som passer dårlig til den stilen forfatteren bruker, er det derfor nødvendig å synliggjøre stilverdien til alle ord som har mer enn én godkjent skrivemåte.  Når det er varianter av en ordform i bokmål, vil det nemlig nesten uten unntak være slik at variantene har ulik stilverdi på en skala fra radikalt til konservativt.  SCARRIEs koding av ordformer er basert på fem grunnleggende stiler som forfatteren kan velge mellom:

  1. nøytralt
  2. konservativt
  3. radikalt
  4. læreboknormalen
  5. 'fristil'
Radikalt bokmål og konservativt bokmål er nokså velkjente begreper, selv om norske ordbøker ikke inneholder informasjon om ordenes stilverdi.  I kodingen av disse stilene har vi forsøkt å holde oss til det folk vil oppfatte som typisk for dem.  Imidlertid skriver svært mange bokmålsbrukere verken spesielt konservativt eller radikalt, og prøver å unngå former som kan virker ekstreme i den ene eller andre retningen.  For slike brukere har vi laget en valgmulighet som vi kaller nøytralt bokmål.  Den nøytrale stilen tillater verken de mest radikale formene, som f.eks. lauv og arbeidde, eller de mest konservative formene, som f.eks. mave og røkte.  Det er også mulig å velge retting i henhold til læreboknormalen (stil 4), eller å unngå stilretting i det hele tatt (stil 5).

For en mer utførlig beskrivelse av stilene i SCARRIE se De Smedt og Rosén (1999a).  Vi er stor takk skyldig til Helge Dyvik, Jon Erik Hagen og Helge Sandøy for deres råd i forbindelse med stildefinisjonene.  Vi vil også gjerne gjøre oppmerksom på at alle som har vært med på koding av stilene har norsk som morsmål.

3  SCARRIE-leksikonet

3.1 Leksikonoppslag med erstatninger

Et automatisk korrekturlesningssystem trenger naturligvis et omfattende leksikon som inneholder flest mulig korrekte ord.  SCARRIE-ordlisten er et såkalt fullformsleksikon der alle bøyningsformer (unntatt genitiv) er oppført.  Ordlisten er sortert i lemmaer som grupperer alle bøyningsformer av en stamme.  Noen eksempler på lemmaer kan tjene til å illustrere hvordan ordlisten ser ut.  Tabell 1 viser lemmaet for stammen bok.
 
ordform frekvens stiltype sammensetningskoder erstatning grammatisk kode
bok 0 N N,sg,indef   N_f_sg_indef
boka 0 C2 N,sg boken N_f_sg_def
boken 0 C3 N,sg boka N_fm_sg_def
bøkene 0 N N,pl   N_f_pl_def
bøker 0 N N,pl,indef   N_f_pl_indef
Tabell 1
For hver ordform er det seks kolonner som inneholder ulike typer informasjon. I den første kolonnen står ordformen. I andre kolonnen kan det stå frekvensinformasjon, men siden det ikke var noe tagget korpus av bokmål tilgjengelig under prosjektperioden, var det ikke mulig for oss å ha frekvensinformasjon i leksikonet (kolonnen må imidlertid være der). I den tredje kolonnen står det informasjon om stilverdien til ordformen. For de fleste ordformer vil det stå N her, som står for 'normalt ord'. Hvis ordformen ikke er akseptabel i alle stiler, vil det stå C (for change) og tallet for den eller de stiler ordformen må erstattes i. I den femte kolonnen står den ordformen som er den korrekte erstatningen i vedkommende stil. I de øvrige kolonnene står det grammatisk informasjon: i den fjerde, det som er av betydning for sammensetningsanalysen, og i den sjette, det som brukes for syntaktisk analyse.

I dette eksemplet er det bare bøyningsendelsene i bestemt form entall som må ha erstatninger. Formen boka passer dårlig i konservativ stil, og boken passer dårlig i radikal stil. Begge formene går imidlertid bra i nøytral stil og i læreboknormalen, og de vil aldri erstattes der.

Vi kan også se på et eksempel der det er stammen som må erstattes. Formen kvit er ganske radikal, og erstattes i både konservativ og nøytral stil, som vist i tabell 2.
 
kvit C12  Adj,pos,indef,sg  hvit Adj_mf_pos_indef_sg
kvite 0 C12 Adj,pos hvite Adj_mfn_pos_e
kvitere 0 C12 Adj,sgpl hvitere Adj_mfn_comp_defindef_sgpl
kvitest 0 C12 Adj,indef,sg hvitest Adj_mfn_sup_indef_sg
kviteste  C12  Adj,sgpl hviteste  Adj_mfn_sup_def_sgpl
kvitt 0 C12 Adj,pos,indef,sg hvitt Adj_n_pos_indef_sg

Tabell 2
Det blir mer komplisert når både stamme og endelser skal erstattes, slik som i lemmaet for kvitbok i tabell 3.
 
kvitbok 0 C12 N,sg,indef  hvitbok N_f_sg_indef
kvitboka 0 C2 N,sg hvitboken N_f_sg_def
kvitboka 0 C1 N,sg hvitboka N_f_sg_def
kvitboken 0 C3 N,sg kvitboka N_fm_sg_def
kvitboken 0 C12 N,sg hvitboken N_fm_sg_def
kvitbøkene  C12  N,pl hvitbøkene  N_f_pl_def
kvitbøker C12  N,pl,indef  hvitbøker N_f_pl_indef
Tabell 3
På samme måte som i tabell 2 må alle former av stammen i tabell 3 erstattes i konservativ og nøytral stil, men for bestemt form entall, kvitboka, blir erstatningen forskjellig i disse stilene.  I tillegg må formen kvitboken erstattes i radikal stil.  Enda mer komplisert blir det hvis vi sammenligner med eksempler som botnskrape i tabell 4.  Dette er vel å merke bare oppslagene for én av stammene; i tillegg kommer formene av variantene bunnskrape og bonnskrape.
 
botnskrap 0 C12 V,pres,imp bunnskrap V_pres_imp_active_main_trans
botnskrapa 0 C2 Adj,pos,part bunnskrapede Adj_mfn_pos_e
botnskrapa 0 C1 Adj,pos,part bunnskrapete Adj_mfn_pos_e
botnskrapa 0 C12 Adj,pos,indef,sg,part  bunnskrapet Adj_mfn_pos_indef_sg
botnskrapa 0 C12 V bunnskrapet V_pastpart_indic_passive_main_intrans
botnskrapa 0 C12 V bunnskrapet V_pastpart_indic_active_main_trans
botnskrapa 0 C12 V,pret bunnskrapet V_pret_indic_active_main_trans
botnskrape 0 C12 V,inf bunnskrape V_inf_indic_active_main_trans
botnskrapede 0 C3 Adj,pos,part botnskrapa Adj_mfn_pos_e
botnskrapede 0 C12 Adj,pos,part bunnskrapede Adj_mfn_pos_e
botnskrapende  C12 endepart bunnskrapende  endepart_main_trans
botnskraper 0 C12 V,pres bunnskraper V_pres_indic_active_main_trans
botnskrapes C12  V bunnskrapes V_infpres_indic_passive_main_intrans
botnskrapet 0 C3 Adj,pos,indef,sg,part botnskrapa Adj_mfn_pos_indef_sg
botnskrapet 0 C3 V botnskrapa V_pastpart_indic_passive_main_intrans
botnskrapet 0 C3 V botnskrapa V_pastpart_indic_active_main_trans
botnskrapet 0 C3 V,pret botnskrapa V_pret_indic_active_main_trans
botnskrapet 0 C12 Adj,pos,indef,sg,part bunnskrapet Adj_mfn_pos_indef_sg
botnskrapet 0 C12 V bunnskrapet V_pastpart_indic_passive_main_intrans
botnskrapet 0 C12 V bunnskrapet V_pastpart_indic_active_main_trans
botnskrapet 0 C12 V,pret bunnskrapet V_pret_indic_active_main_trans
botnskrapete 0 C3 Adj,pos,part botnskrapa Adj_mfn_pos_e
botnskrapete 0 C2 Adj,pos,part bunnskrapede Adj_mfn_pos_e
botnskrapete 0 C1 Adj,pos,part bunnskrapete Adj_mfn_pos_e
botnskrapt 0 C3 Adj,pos,indef,sg,part botnskrapa Adj_mfn_pos_indef_sg
botnskrapt 0 C3 V botnskrapa V_pastpart_indic_passive_main_intrans
botnskrapt 0 C3 V botnskrapa V_pastpart_indic_active_main_trans
botnskrapt 0 C12 Adj,pos,indef,sg,part bunnskrapt Adj_mfn_pos_indef_sg
botnskrapt 0 C12 V bunnskrapt V_pastpart_indic_passive_main_intrans
botnskrapt 0 C12 V bunnskrapt V_pastpart_indic_active_main_trans
botnskrapte 0 C3 Adj,pos,part botnskrapa Adj_mfn_pos_e
botnskrapte 0 C3 V,pret botnskrapa V_pret_indic_active_main_trans
botnskrapte 0 C12 Adj,pos,part bunnskrapte Adj_mfn_pos_e
botnskrapte 0 C12 V,pret bunnskrapte V_pret_indic_active_main_trans
Tabell 4
Eksemplene illustrerer at det er betydelig variasjon.  Totalt inneholder SCARRIE-ordlisten 360.933 ordformsoppslag organisert i 72.626 lemmaer. Av ordformsoppslagene inneholder 135.863, altså mer enn en tredjedel, informasjon om erstatninger.

3.2 Problemer med grunnlagsmaterialet

SCARRIEs fullformsliste for bokmål ble konstruert på basis av materiale fra NorKompLeks-prosjektet. En preliminær stilkoding av stammer og bøyningsendelser ble gjort ved Institutt for lingvistikk ved NTNU. Under arbeidet med revisjonen av stilkodene og programmering oppdaget vi mange feil i leksikonmaterialet, noen av dem tilfeldige feil og noen mer systematiske. Det er forskjellige slags problemer som kan lede til feil. Her skal vi nevne noen av de viktigste.

Hull i leksikonet

NorKompLeks er basert på Bokmålsordboka (Landrø og Wangensteen, 1993), og denne ordboken inneholder mange uvanlige ord, som f.eks.: antimakassar, bommesi, griffelfot, uranolatri og ziggurat. Har man først sett slike ord i ordlisten, blir man ganske overrasket når man finner at ordformer som disse ikke finnes i NorKompLeks: oftere, påvirkning, nisselue og vanskeligere.  Ordet påvirkning finnes ikke i papirutgaven av Bokmålsordboka.  Man kan lure på hvorfor forfatterne har valgt å ta med ord som påvirke, påvirkelig og påvirkningsagent men ikke påvirkning. Ordet nisselue finnes derimot med i boken, sammen med de likestilte formene nisseluve, nissehue og nissehuve, men ikke i NorKompLeks. Det må virke rart på en bruker at et stavekontrollprogram ikke kjenner igjen et såpass vanlig ord som påvirkning, eller at programmet prøver å rette den korrekte og vanlige formen nisselue til nisseluve, nissehue eller nissehuve.

Ikke-eksisterende ordformer i leksikonet

Det er også et problem at det forekommer mange ikke-eksisterende ordformer i NorKompLeks. Her er noen få eksempler:  dønde, termitttuve, tidvassstrømen, skarvordn, skarvordr, skarvordne, vunnne, futurumt, futurumr, futurumne, undermunnn, undermunnr, undermunnne, abstraktst, kv (imperativ av verbet kvi), kva (pret., pastpart og adj. av kvi).  Feil som disse kommer som regel av at stammen er tildelt feil morfologikode.  I noen tilfeller er det selve morfologikoden som er blitt skrevet feil, som i tilfellet dønde, som skal være døende.  Det at ikke-eksisterende ord forekommer i ordlisten er selvfølgelig farlig i et korrekturlesningsprogram, for det gjør at man risikerer å foreslå ikke-eksisterende ord som korreksjoner for riktige ord.

Feil grammatisk informasjon

For noen ord oppgis feilaktig grammatisk informasjon. For eksempel står de oppført som preposisjon, og et som konjunksjon. Grunnen finner vi i oppslagene i (8) og (9), fra Bokmålsordboka.

(8)  de av, fra, i lat. uttr som de jure, de facto og i fr uttr som eau de cologne

(9)  et (lat.) i lat. uttr: og, &

Det gjør ikke så mye at disse oppslagene finnes i papirutgaven av boken, selv om det er vanskelig å argumentere for at disse er norske ord; de forekommer jo bare i flerordsuttrykk og har dermed aldri de kategoriene de står oppført med i norsk. Men at slik informasjon overføres til en elektronisk versjon av ordlisten er svært uheldig. Dette vil for eksempel føre til at en parser alltid vil prøve å analysere en frase som begynner med determinativen de som en preposisjonsfrase.

Eksempler på at bare ukorrekt stavemåte generes

Substantiv som slutter på  skal i følge offisiell rettskrivning ikke ha aksent i bøyde former, altså som i (10).  Men in NorKompLeks bøyes de som i (11).

(10)  idé, ideen, ideer, ideene.
(11)  idé, idéen, idéer, idéene.

Denne rettskrivningsregel virker svært lite kjent, for det forekommer sjelden at forfattere utelater aksentene i disse ordene.  Siden også de beste forfatterne skriver ordene slik, kan man diskutere om et stavekontrollprogram bør rette denne skrivemåten.  Men offisiell rettskrivning må i alle fall tillates, og det er bare mulig hvis den offiselle rettskrivningen er representert i ordlisten.

3.3 Ny leksikalsk database

På UiB/HIT ble det gjort et omfattende leksikonarbeid for å forbedre kvaliteten av materialet levert av NorKompLeks.  Stilkodingen for stammene og bøyningsendelsene ble grundig revidert, og mange feil i morfologikoder og tildelingen av disse ble rettet opp.  Vi bygget en egen leksikalsk database for å kunne generere ordformer med erstatning på en systematisk måte.  SCARRIE-ordlisten genereres så fra denne databasen ved hjelp av et program skrevet i programmeringsspråket COMMON LISP. Databasen er lett å søke i, og er dermed et effektivt redskap for utvikling av leksikonet. Også WEB-grensesnittet er skrevet i COMMON LISP, som er et av de kraftigste programmeringsspråkene for språkteknologisk utvikling.  Programmeringsarbeidet ble utført av Paul Meurer ved HIT-senteret.

4  Hvordan lingvistiske kunnskaper kan forbedre automatisk korrekturlesning

Som nevnt ovenfor har prosjektet særlig vært konsentrert om hvordan lingvistiske kunnskaper kan bidra til å forbedre automatisk korrekturlesning. I SCARRIE er det tre områder som er spesielt viktige: morfologisk analyse, fonologisk analyse og syntaktisk analyse.

4.1 Morfologisk analyse

Når SCARRIE finner et ord som ikke står i ordlisten, prøver systemet først å analysere ordet for å se om det kan være en sammensetning. Strengen deles på forskjellige steder, og delstrengene søkes i ordlisten. Dersom strengen kan splittes opp i delstrenger som finnes i ordlisten, sjekker SCARRIE kombinasjonen mot reglene for sammensetning, som ble utviklet av Janne Bondi Johannessen ved Tekstlaboratoriet i Oslo. For eksempel, for strengen problemløsningsforløpet finner SCARRIE en oppdeling av strengen som vist i (12).
 
(12) 
problem løsning s forløpet
N indef sgpl  N indef sg  N sg

Siden denne kombinasjon av kategorier og trekk tilfredsstiller en av sammensetningsreglene, analyseres hele ordet som en sammensetning, og den blir ikke markert av SCARRIE som et ukjent ord på tross av at den ikke finnes i ordlisten.

Det er imidlertid ikke til å unngå at en del stave- og skrivefeil blir analysert som sammensetninger. For eksempel er bildekomposisjonener en skrivefeil, men blir analysert som en sammensetning av SCARRIE: bilde+komposisjon+ener, altså som tre substantivstammer etter hverandre. Siden dette faktisk er en lovlig sammensetning, er det ikke mulig å forhindre denne analysen. Imidlertid produserer SCARRIE en liste av alle ord den har analysert som sammensetninger slik at brukeren kan sjekke denne listen for å se om noen skrivefeil har havnet her.

4.2 Fonologisk analyse

Hvis SCARRIE ikke klarer å analysere et ord som ikke finnes i ordlisten som en sammensetning (eller et egennavn), prøver systemet å foreslå en korreksjon. Dette gjøres ved å søke etter andre ord i leksikonet som har en stor grad av likhet med feilstrengen. Mange stavekontrollprogrammer sammenligner bare skrevne ord med hverandre, men SCARRIE sammenligner både ortografiske og fonetiske ord. Hvis ordet er sirka, finner programmet bl.a. de seks ortografiske strengene i (13) som ligner på sirka på den måten at de har forskjellige bokstaver initialt:
 
(13)  cirka [864]
dirka [751]
kirka [751]
lirka [751]
pirka [751]
virka [751]

Tallene etter ordene er mål på likhet med strengen sirka. Helt like strenger får 1000. I (13) ser vi at cirka har en klart høyere skåre enn de andre ordene. Dette er fordi sirka og cirka har samme transkripsjon. For en mer utførlig beskrivelse av mekanismen bak denne type korreksjon, henviser vi til vårt innlegg på MONS 7, 'SCARRIE: Automatisk korrekturlesning for skandinaviske språk' (Rosén og de Smedt 1998).

4.3 Syntaktisk analyse

Mange skrivefeil er vanskelig å oppdage fordi de resulterer i eksisterende ord. For eksempel:

(14)  Disse gutten ler.

Her kan man anta at forfatteren mente å skrive guttene. Men alle ordene i setningen er riktige i isolasjon, så den eneste måten å oppdage slike feil på er å foreta en syntaktisk analyse av setningen. I SCARRIE har vi skrevet en grammatikk som gjør det mulig å oppdage og automatisk korrigere slike feil i enkle setninger. Her er noen eksempler på korreksjoner SCARRIE foreslår, tatt fra testene som SCARRIE ble prøvet mot:
 
(15)  Feil Korreksjonsforslag
De nye prosjekter våre er interessante. De nye prosjektene våre er interessante.
Jeg vil gjerne administrerer testen. Jeg vil gjerne administrere testen.
Jeg har administrere testen. Jeg har administrert testen.

Når det gjelder stilerstatninger, er disse nært forbundet med grammatisk korreksjon. Erstatning av en form med en annen stilvariant kan nemlig forandre et ords grammatiske trekk. Dermed må SCARRIE ikke bare foreta de erstatninger som er spesifisert i ordlisten, men også sjekke om det erstattede ordet kongruerer med andre ord i setningen. Det følgende eksemplet blir korrigert på forskjellige måter i forskjellige stiler.
 
(16)  Feil Korreksjonsforslag
Tilpassingsevna din er dårlig. Tilpasningsevna di er dårlig. i stil 1
Tilpasningsevnen din er dårlig. i stil 2
Tilpassingsevna di er dårlig. i stil 3 og 4

I alle stilene blir altså kongruensfeilen korrigert. For en mer utførlig presentasjon av dette spesielle aspektet av prosjektet, se vårt innlegg ved NODALIDA 99 i Trondheim, 'Automatic proofreading for Norwegian: The challenges of lexical and grammatical variation' (De Smedt og Rosén 1999b).

5  Testresultater

SCARRIE-prosjektet ble avsluttet med testing av de viktigste funksjonene i systemet som var utviklet. Systemet ble testet både på testsett som var laget særskilt for å teste ulike funksjoner, og på autentiske tekster. For å ha et sammenligningsgrunnlag, ble noen av de samme testene kjørt mot korrekturlesningsprogrammet til Microsoft Word 98 for Macintosh. Resultatene av disse testene var oppløftende. På tross av at SCARRIE bare er en forskningsprototyp og Words stavekontrollprogram er et kommersielt produkt, fungerte SCARRIE enten like bra eller bedre enn Word.

Både SCARRIE og stavekontrollen til Microsoft Word 98 ble kjørt på en tekst på ca. 4000 ord tatt fra en lærebok i psykologi. Resultatene er oppsummert i figur 1.

recall.gif

Figur 1:  Feilmarkering
De første to søylene i figur 1 viser hvor mange ord som ikke gjenkjennes av SCARRIE (til venstre) og Word (til høyre). Her kan vi konkludere at SCARRIE fungerer mye bedre enn Word på ordgjenkjenning; det er nemlig mer enn dobbelt så mange ord i teksten som ikke blir gjenkjent av Word. Når det gjelder å finne ekte feil, er programmene omtrent like bra. I midten av figur 1 vises hvor mange feil som ble funnet og til høyre hvor mange som ikke ble funnet.

Vi må gjøre oppmerksom på at særlig antall feil som ikke er funnet (altså kolonnene til høyre i figur 1) er noe misvisende. Vi har automatisk sammenlignet begge programmene med resultatet av profesjonell korrekturlesning utført av et menneske. I denne testen er det slik at alle forandringer som foretas av den profesjonelle korrekturleseren betraktes som rettelser, og alle forandringer som korrekturleseren ikke har gjort betraktes som feil. Etterpå gjorde vi en manuell analyse av den menneskelige korrekturleserens forandringer og fant ut at de fleste av dem ikke var av den typen som kan korrigeres automatisk. Bare 13 av korrekturleserens 114 forandringer gjaldt rettelse av ortografiske og typografiske feil. Hele 65% av disse forandringene var av en type som er vanskelige eller umulige å korrigere automatisk, f.eks. stilistiske forandringer og tegnsettingsfeil. På den andre siden er det også slik at den menneskelige korrekturleseren rett og slett gjorde en del feil. Dette gjør at resultatene ser litt verre ut enn de faktisk er, både for SCARRIE og for Word.

Det at SCARRIE fungerer mye bedre enn Word når det gjelder gjenkjenning av korrekte ord er viktig. Det er irriterende for brukeren når stavekontrollprogrammet stopper opp på riktig skrevne ord som det ikke kjenner igjen. En av de viktigste grunnene til at SCARRIE fungerer bedre her, er at vi har en såpass god analyse av sammensetninger. Noen eksempler av sammensetninger fra teksten som Word ikke kjenner igjen, men som blir korrekt analysert av SCARRIE er gjengitt i (17).
 
(17) 
algebraoppgaver
benzenringstrukturen
bevissthetsfelt
definisjonskriterier
evolusjonsforskeren
fenomenrelevante
flyvingekonstruksjon
forhåndsaktivert
gradsspørsmål
informasjonsbehandlingssystem 
innsiktstypen
intuisjonsfenomenet
intuisjonsprosesser
kreativitetsforskeren
markørpenn
problemløsningprosess
problemløsningsarbeidet
problemløsningsforløpet
problemløsningsforskere
problemløsningsprosesser
problemløsningsstrategier 
problemsøkende
rebusfigurene
rebusoppgave
rebusoppgaver
reforhandle
reformulerer
responskonkurrerende
slutningsregler
stimulusordene
tankemåter
treningsprogrammer

Når det gjelder å ikke bare finne feil, men også å rette dem, har vi fått resultatene som vises i figur 2.

suggestion.gif

Figur 2:  Korreksjonsforslag
Til venstre i figur 2 ser vi at SCARRIE foreslår korrekte rettelser litt bedre enn Word. I midten ser vi at SCARRIE også foreslår relativt mange flere ikke-korrekte rettelser enn Word. Til gjengjeld er det flere tilfeller der Word ikke har noen forslag, som vi ser til høyre. Vi må gjøre oppmerksom på at dette er veldig små tall, og vi tror ikke at resultatene av testene er statistisk signifikante. Testingen var nokså begrenset pga. de begrensede ressursene som prosjektet disponerte.

Målet om å kunne finne og rette feil som krever grammatisk analyse, er ambisiøst. Her kan vi ikke sammenligne med Word siden Word ikke har denne funksjonen. Vi har kjørt SCARRIE på spesielt konstruerte tekster og resultatene er presentert i tabell 5.
 
feiltype
totalt antall feil
antall feil markert
antall korrekte forslag
NP-kongruens
20
20
20
VP-relaterte feil
12
12
12
stilbrudd
32
30
30

Tabell 5
I testene for grammatiske feil og stilavhengige feil får vi korrigert nesten alle. Disse feiltypene lar seg greit korrigere så lenge man kontrollerer for leksikalsk og syntaktisk tvetydighet. På autentiske tekster derimot produserer ikke systemet nyttige rettelser slik det er i dag. Resultatene blir faktisk verre når man bruker grammatisk korreksjon.  For en mer detaljert redegjørelse for grammatisk korreksjon i SCARRIE, se De Smedt og Rosén (1999b).

6  Konklusjoner

SCARRIE var et stort samarbeidsprosjekt med både forskningsinteresser og interesser rettet mot kommersielle anvendelser. Vi var interessert i å forske på hvorvidt ulike former for lingvistisk kunnskap kan bidra til mer sofistikert korrekturlesning. Etter å ha utviklet og testet et stort og komplisert system, kan vi konkludere følgende:
  1. Kvaliteten på det leksikalske grunnlagsmaterialet er avgjørende for prestasjonene til nesten alle komponentene i systemet.  Vi har investert mye i ordlisten og mener at den per i dag er blant de beste leksikalske kildene for bokmål.
  2. Stilverdi er en verdifull tilleggsressurs for stilriktig korreksjon av bokmål.
  3. Grammatisk korreksjon er utviklet slik at det fungerer noenlunde bra in vitro, men det er svært vanskelig å gjennomføre på en pålitelig måte i autentiske tekster.
  4. Avansert sammensetningsanalyse, derimot, kan bidra til en dramatisk forbedring av ordgjenkjenning og dermed mer tilfredsstillende automatisk korrekturlesning.
Vi mener at prototypen gir svært lovende resultater og kan være grunnlag for videre utvikling av et interessant produkt. Vi har også funnet at NorKompLeks-materialet var et nyttig utgangspunkt, men det bør ikke få det siste ordet. SCARRIE-ordlisten er unik på den måten at den utgjør en stor database over informasjon om stilverdien til variantene som finnes i den offisielle rettskrivningen for bokmål. Vi håper at språkressursene som er utviklet i SCARRIE vil kunne gjenbrukes i andre språkteknologiske prosjekter.

Referanser

De Smedt, Koenraad og Victoria Rosén. 1999a. 'Datamaskinell skrivestøtte'. I: Birgitta Lindgren (red.), Språk i Norden, s. 20-32, Novus, Oslo.

De Smedt, Koenraad og Victoria Rosén. 1999b. 'Automatic proofreading for Norwegian: The challenges of lexical and grammatical variation'. Foredrag holdt ved NODALIDA99 i Trondheim, desember 1999.

Landrø, Marit Ingebjørg og Boye Wangensteen. 1993. Bokmålsordboka (2. utg.). Universitetsforlaget, Oslo.

Rosén, Victoria og Koenraad De Smedt. 1998. 'SCARRIE: Automatisk korrekturlesning for skandinaviske språk'. I: Jan Terje Faarlund, Brit Mæhlum, og Torbjørn Nordgård (red.), Mons 7: Utvalde artiklar frå det 7. Møtet Om Norsk Språk i Trondheim 1997, s. 197-210, Novus, Oslo.

NorKompLeks, hjemmeside: http://benoni.hf.ntnu.no/nkl/

SCARRIE, hjemmeside: http://ling.uib.no/~desmedt/scarrie/

Tekstlaboratoriet ved Universitetet i Oslo, hjemmeside: http://www.hf.uio.no/tekstlab/


Victoria Rosén
Seksjon for lingvistiske fag
Institutt for lingvistikk og litteraturvitenskap
Sydnesplassen 7, 5007 Bergen
victoria@uib.no

Koenraad de Smedt
Seksjon for lingvistiske fag
Institutt for lingvistikk og litteraturvitenskap
Sydnesplassen 7, 5007 Bergen
desmedt@uib.no