2.1.1 Vi har konstatert (i 1.2) at koding er en form for meta-informasjon. I den offisielle beskrivelsen av SGML-standarden, ISO 8879, er "markup" definert som
2.1.2 Men vår definiendum, "markup", forekommer selv i annet ledd av definiens for "data". For å unngå regress må vi ignorere dette leddet, selv om det er grunn til å anta at "characters that are not recognized as markup" er mer enn bare et forklarende tillegg til "inherent information content". At uttrykket "document" forekommer i det gjenstående, første, leddet av definiens for "data" kompliserer også bildet. Resultatet av en fullstendig substitusjon blir følgende definiens for "markup":
2.1.3 Helt trivielt er resultatet likevel ikke. For det første er vi via tilsynelatende presise definisjoner kommet frem til et nokså enkelt utsagn. Dette er i seg selv et tegn på at vi har befattet oss med noen av feltets kjernebegreper, og at vi har greid å koke dem ned til udefinerte uttrykk. Blant disse ser "information" ut til å være det viktigste. For det andre ser det ut til at vi står igjen med den enkle, men likevel konsekvensrike påstand at merking er en form for meta-informasjon. For det tredje kan vi konstatere at det andre leddet i definisjonen av "data", som vi måtte sette ut av betraktning for å unngå regress, kanskje kan tyde på at meta-informasjonen forutsettes å være av en annen type enn den informasjonen som den er informasjon om, altså dokumentets "inherent information content".
2.1.4 Coombs, Renear og DeRose publiserte i 1987 en artikkel som nærmest er blitt en klassiker innenfor tekstkoding. I denne artikkelen, som i stor grad baserer seg på ISO 8879, hevder de at:
2.1.5 At tekstkoding er en form for meta-informasjon som er inkludert i den teksten som den inneholder informasjon om, synes så langt klart. Det ser også ut til at tekstkoding kanskje inneholder informasjon av en annen type enn den informasjonen som resten av teksten består av. Men hva slags type informasjon er det i så fall tale om? Lou Burnard sier
2.1.6 Mens Burnard her refererer til "tekst", refererer Sperberg-McQueen til "dokument". Det er ikke uten videre gitt at disse uttrykkene betyr det samme, noe vi vil komme tilbake til senere (i 2.4). Om vi ser bort fra dette, kan vi konstatere to ting: For det første regner Sperberg-McQueen all informasjon om et dokuments utforming og struktur som koding. Dette er rimeligvis en annen og langt sterkere påstand enn påstanden om at koding inneholder informasjon om utforming og struktur. For det andre regner både Sperberg-McQueen og Burnard all analytisk eller interpretativ informasjon som "markup", — ifølge Sperberg-McQueen gjelder dette endog per definisjon.
2.1.7 ISO-standarden avgrenser koding til informasjon som er angitt på en bestemt måte, nemlig som meta-informasjon. Den gir ingen nærmere bestemmelse av denne informasjonens innhold. Sperberg-McQueen og Burnard, derimot, gir en innholdsmessig bestemt definisjon av koding. Det er naturlig å anta at de mener de to definisjonene er koekstensjonale. Men det er det ikke uten videre gitt at de er.
2.1.8 Dette kan vi se om vi tar for oss følgende fem eksempler:
2.1.9 Dersom vi betrakter informasjonen om at Per uttalte ordene "klokken er ti" som meta-informasjon, kan vi konstatere at denne informasjonen i (a) er gitt implisitt gjennom ordinære verbalspråklige midler, i (b) gjennom tegnsetting, i (c) gjennom både verbalspråklige midler og koding, i (d) gjennom både tegnsetting og koding, og i (e) utelukkende gjennom koding. Ifølge ISO 8879 er det bare (c), (d) og (e) som er kodet. Ifølge Sperberg-McQueen og Burnard ser det ut til at også (a) og (b) må være kodet. Dermed blir skillet mellom informasjon og meta-informasjon problematisk.
2.1.10 Renear ser i første omgang ut til å unngå dette problemet. Han anser nemlig all den informasjonen et dokument inneholder som kodet:
2.1.11 Darrell Raymond kombinerer en typebestemt og en innholdsbestemt definisjon av tekstkoding, når han sier at
2.1.12 Som man ser er det visse felles trekk i disse definisjonene, — et av de mest påfallende er at de fleste hevder at kodingen ikke er en del av teksten, men noe som er føyd til den. Likevel ser det ut til at den informasjonen som bæres av kodingen er vesentlig for selve teksten: kodingen gir informasjon om tekstens grunnleggende struktur, om tolkningen av den osv. Det ser derfor ut til å være behov for en nærmere avklaring av forholdet mellom kodingen og det som kodes.
2.2.1 Coombs m.fl. foretar en klassifisering av kodesystemer som har vært retningsgivende for mye av det arbeidet som har vært gjort på feltet siden. [Coombs m.fl. 1987 s 934-937] De legger til grunn den betraktning at all tekst er kodet. Koding forekommer ifølge disse forfatterne altså ikke bare i elektronisk tekst, men også i f.eks. håndskrift og trykt tekst. De skiller mellom koding som er punctuational, presentational, procedural, descriptive, referential og metamarkup . I det følgende vil beskrivelsen av disse kategoriene gjengis kort, h.h.v. under betegnelsene setningstegnkoding, presentasjonell koding, prosedural koding, deskriptiv koding, refererende koding og metakoding.
2.2.2 Med setningstegnkoding menes bruk av et avgrenset og spesialisert tegnsett for å markere syntaktiske trekk i skriftlige uttrykk. Eksempler på setningstegnkoding er slikt som markering av ordgrenser med mellomrom, setningsstart med stor bokstav og setningsslutt med punktum, spørsmålstegn eller utropstegn, direkte tale med hermetegn osv. Slik koding er en del av skriftsystemet, men den er underlagt stor stilistisk variasjon og er gjennomgående flertydig. [5]
2.2.3 Presentasjonell koding er markering av tekstlige strukturer ved hjelp av typografi og formgivning, dvs. disponering av det grafiske skriftbildet på den trykte eller beskrevne siden (eller skjermen). Det Coombs m.fl. her sikter til, er altså bruken av selve skriftbildet til å markere strukturelle trekk ved teksten. Senere har uttrykket "presentasjonell" koding blitt bruk i en annen betydning, også av forfattere som refererer til Coombs m.fl. som sin kilde, nemlig i betydningen koding av elektronisk tekst med sikte på kontroll av dets visuelle utforming. I denne siste betydningen vil bruk av f.eks. koden <k> for å markere et skifte til kursiv skrift være presentasjonell. Det Coombs m.fl. kaller presentasjonell koding er imidlertid selve bruken av kursiv skrift, f.eks. for å markere utheving e.l. Denne utbredte misforståelsen vitner kanskje om noe kontraintiutivt i Coombs m.fl. sin påstand om at skriftbildet som sådan er en form for koding.
2.2.4 Setningstegnkoding og presentasjonell koding er ikke bundet til det elektroniske mediet, men forekommer ifølge Coombs m.fl. i all tradisjonell tekst (med unntak av såkalt scriptio continua (se 2.3)). De kalles derfor med en felles betegnelse for scribal markup . De resterende fire kategoriene, derimot, forekommer bare i forbindelse med elektronisk tekst.
2.2.5 Prosedural koding består av instruksjoner til et dataprogram om hva som skal gjøres på bestemte posisjoner i teksten. Det er f.eks. vanlig at man trykker lengre sitater i egne, innrykkede avsnitt, ofte med en annen linjeavstand enn resten av teksten. Før et slikt sitat kan man f.eks. plassere koden
.sk3 a;.in +10 -10;.ls 0;.cp 2som kan bety "hopp over tre linjer, rykk inn 10 punkter fra begge marger, sett linjeavstanden til 1 og sett inn sideskift hvis det er mindre enn to linjer igjen på siden". (Motsvarende koding må rimeligvis innsettes etter det aktuelle sitatet.) Slike koder forutsetter med andre ord helt bestemte prosesseringsmuligheter, og indikerer spesifikke prosesser.
2.2.6 Deskriptiv koding er ikke bundet til bestemte prosesseringsmuligheter, fordi den ikke sier noe om hva som skal gjøres med den teksten som er kodet. Derimot sier den noe om hva slags type objekt den aktuelle tekstdelen er. For å ta det eksemplet vi nettopp så på, vil man f.eks. ganske enkelt markere at den tekstdelen det gjelder er et lengre sitat, f.eks. ved å plassere en startkode <lq> før og en sluttkode </lq> etter. Kodingen sier dermed ikke noe om hvordan den aktuelle tekstdelen skal behandles, og er ikke bundet til noen bestemt prosessering eller presentasjon.
2.2.7 Referensiell koding brukes for det første for å referere til tegn som ikke finnes i det tegnsettet som brukes til å representere den elektroniske teksten, for det andre for å sikre konsistens og spare inntastingsarbeid i hyppig brukte fraser. Man kan f.eks. innføre en kode KdrV for uttrykket Kritik der reinen Vernunft dersom man ofte har behov for å referere til denne tittelen.
2.2.8 Metakoding er Coombs m.fl. sin betegnelse for det som i SGML kalles deklarasjoner [6]. De består av uttrykk formulert i et såkalt constraint language, og definerer hvordan koding skal utformes og hvilke kombinasjoner av koder som er lovlige i et gitt kodesystem.
2.2.9 Det er flere uklarheter og problemer med denne typologien. [7] Den siste kategorien kan vi i første omgang se bort fra. Metakoding har ikke først og fremst med koding av tekst å gjøre, men med definiering av og formulering av regler for kodesystemer. Den nest siste kategorien, referensiell koding, betegner en praktisk, men relativt triviell teknikk for strengsubstitusjon. De to første kategoriene, setningstegnkoding og presentasjonell koding, kan vi også se bort fra foreløpig.
2.2.10 Dermed står vi igjen med kategoriene prosedural og deskriptiv merking. Dette er også den distinksjonen som i ettertid har stått som det viktigste og mest innflytelsesrike bidraget fra Coombs m.fl. sin artikkel. I argumentasjonen for de mange fordelene ved deskriptiv fremfor prosedural koding underforstår Coombs m.fl. at deskriptiv koding alltid beskriver dokumenters grunnleggende, "logiske" struktur. Denne forutsetningen er problematisk, bl.a. fordi Coombs m.fl. ser ut til å overse at SGML-baserte systemer godt kan benyttes både til å beskrive og til å kontrollere dokumenters visuelle utforming. Det er heller ikke klart hva som menes med logisk struktur. Som eksempler på strukturelementer nevnes nemlig ofte slike komposisjonelle elementer som kapittel, avsnitt og overskrift. Dette er elementer som i mange sammenhenger vil fremstå som deler av teksters overflatestruktur, snarere enn deres dybdestruktur.
2.2.11 Raymond beskriver kort et av de forslagene som senere har vært fremmet til en alternativ typologi for kodesystemer [8] I følge dette forslaget skiller man på den ene siden mellom prosedural og deklarativ koding, og på den annen side mellom presentasjonell og analytisk koding. Noe tillempet kan man si at prosedural koding foreskriver operasjoner, mens deklarativ koding tilordner tekstelementer til klasser. Presentasjonell koding markerer et dokuments utseende, mens analytisk koding angir den underliggende strukturen. Dersom man ordner disse kategoriene i en firefeltstabell vil man stort sett lykkes med å finne eksempler på kodesystemer som faller i alle kategorier unntatt kombinasjonen prosedural - analytisk.
2.2.12 Kategorien deskriptiv koding, som er så viktig hos Coombs m.fl., har altså falt bort. Motsatsen til deskriptiv koding ville formodentlig være "normativ" eller "preskriptiv" koding. En slik distinksjon kunne kanskje være på sin plass. En deklarativ og presentasjonell koding av et dokument kan f.eks. indikere at et bestemt tekstelement har egenskapen "kursiv". Kodingen er deklarativ fordi den ikke refererer til noen bestemt operasjon eller prosedyre som skal utføres, og den er presentasjonell fordi den angir en egenskap som har med dokumentets utseende å gjøre. Men hvordan skal kodingen tolkes — som en beskrivelse av et eksisterende dokuments faktiske utseende, eller som en foreskrivelse av at presentasjoner av det aktuelle dokumentet skal eller bør ha kursiv skrift på det aktuelle stedet? Dette spørsmålet skal vi komme tilbake til (i 2.6.3).
2.3.1 Flere av forfatterne som ble referert i foregående avsnitt (2.1–2.2) hevder at all tekst faktisk er kodet. Tekstkoding er i følge disse forfatterne i prinsippet ikke noe nytt — det nye med kodesystemer for merking av elektronisk tekst er at kodingen er mer eksplisitt, entydig og systematisk enn tradisjonell koding av tekst.
2.3.2 For å belegge påstanden om at også tradisjonell tekst "egentlig" er kodet vises gjerne til tegnsetting og typografisk utforming. Derfor gjøres det også typisk unntak for en bestemt type tradisjonell tekst som mangler tegnsetting og typografiske distinksjoner, nemlig såkalt scriptio continua. Sperberg-McQueen sier for eksempel at
2.3.3 Det er interessant å merke seg at scriptio continua sannsynligvis er det nærmeste man i tradisjonell tekst kommer til den forestillingen om tekster som lineære tegnsekvenser som dominerer i elektronisk databehandling. Dermed har scriptio continua fått mange tekstkoderes oppmerksomhet som et særlig interessant og instruktivt grensetilfelle.
2.3.4 Typografiske egenskaper er da også blant de som kanskje oftest representeres ved tekstkoding når trykt tekst overføres fra konvensjonelle til digitale medier. Med presentasjonell koding vil man nøye seg med å registrere typografiens rent visuelle egenskaper, mens man ved analytisk koding vil forsøke å fange inn den underliggende strukturen som signaliseres av disse egenskapene. Et eksempel kan være på sin plass her.
2.3.5 Overskrifter med forskjellig skrifttype, størrelse og plassering markerer gjerne kapittel- og avsnittsinndeling. For leseren er det oftest uten videre klart at en overskrift av en bestemt utforming navngir og avgrenser en enhet, f.eks. et kapittel, som ikke bare omfatter overskriften selv, men all etterfølgende tekst til neste overskrift av samme type, evt. en overskrift av "overordnet" type eller slutten av dokumentet.
2.3.6 Når slike fenomener representeres i elektronisk form, kan man nøye seg med å markere selve overskriftene på en slik måte at man kan reprodusere de samme typografiske distinksjonene. [10] Det vil imidlertid ofte være av interesse å kunne bruke det elektroniske dokumentet for andre formål enn blott og bar typografisk gjengivelse. I slike tilfelle er man ofte avhengig av at dataprogrammer er i stand til å identifisere enheter som kapittel og avsnitt.
2.3.7 Det er mulig å skrive dataprogrammer som foretar denne identifiseringen på "samme måte" som den menneskelige leser, dvs. på grunnlag av overskriftenes type og rekkefølge. Men det er omstendelig og tungvint. Det er derfor blitt vanlig å markere ikke bare overskriften og dens type, men også start- og sluttpunkt for den tekstenheten som overskriften gjelder. [11] Man får dermed en koding som letter maskinell behandling av teksten, selv om den for den menneskelige leser ofte vil fortone seg overflødig.
2.3.8 Når det gjelder tegnsetting er praksis en noe annen. I moderne vestlig skrift inngår tegnene som brukes for å angi setningsgrenser, setningstype, direkte tale osv. (dvs. punktum, komma, kolon osv.) i skriftsystemet. Med skriftsystem menes et sett av skrifttegn og regler for utforming av språklige uttrykk på et fysisk medium. Moderne vestlige skriftsystemer består av de alfanumeriske og en del andre tegn (f.eks. setningstegnene) samt regler for hvordan disse kan kombineres på en overflate — dvs. etter hverandre fra venstre til høyre, linje for linje ovenfra og nedover osv.[Halliday 1985, jfr. TEI P3 s 679] Ingen av de forfatterne vi har vært innom hevder at tekstkoding er en del av skriftsystemet. Det ville da heller ikke virke særlig rimelig. Det er f.eks. ikke uvanlig at ett og samme dokument redigeres avvekslende med forskjellige tekstbehandingsprogrammer, som ofte benytter benytter vidt forskjellige kodesystemer. De fleste moderne tekstbehandlere kan også lese dokumentet fra eller lagre det i andre kodesystemer enn sitt eget. Det betyr ikke at vi i slike tilfeller veksler mellom forskjellige skriftsystemer.
2.3.9 Det er kanskje derfor omtrent ingen kodesystemer erstatter setningstegn med koder. [12] Selv om fenomener som setning, indirekte tale etc. markeres ved koding, beholder man gjerne konvensjonell tegnsetting i tillegg. Det viser seg nemlig vanskelig å benytte grammatikalsk eller annen analytisk merking av slike elementer, dvs. av de "underliggende" fenomenene, som grunnlag for reproduksjon av tegnsetting i samsvar med vanlige konvensjoner. Ifølge Coombs m.fl. skyldes dette at konvensjonell tegnsetting er inkonsistent, flertydig og ufullstendig. [Coombs ...] Det kan nok også skyldes at konvensjonell tegnsetting er en meget kompakt måte å representere relativt kompliserte strukturer på.
2.3.10 Vi har tidligere konstatert at tekstkoding er en form for metainformasjon. Dersom man tar utgangspunkt i en forestilling om at scriptio continua er "ukodet", kan vi definere metainformasjon som "informasjon gitt gjennom ikke-alfanumeriske midler". Dermed kan påstanden om at all tekst er kodet tolkes på følgende måter:
2.3.11 Som tidligere nevnt omfatter TEI da også et meget stort antall forskjellige teksttyper, og legger stor vekt på å kunne representere tekst i ulike skriftsystemer og språk. Med en slik ambisjon er det ikke til å undres over at TEI Guidelines legger vekt på at systemet skal kunne utvides og modifiseres etter behov. Slike muligheter er til stede i en slik grad at det innen visse rammer faktisk lar seg gjøre å omdefinere kodesystemet nærmest til det ugjenkjennelige.
2.3.12 Det kunne være nærliggende å anta at universalspråksambisjonen måtte bero på at man i TEIs kjernemodul (se 1.5) mente å ha identifisert en slags tekstlige universalia. Men også TEIs kjerne kan modifiseres nokså fritt. Kanskje er det snarere TEIs grunnleggende struktur som tenkes å kunne tjene til å representere "all kinds of features of all kinds of texts".
2.3.13 For så vidt som denne strukturen er bestemt av SGML kunne det være fristende å tro at universalspråksambisjonen er en rest fra prosjektets tidligste fase, da det var sterkt påvirket av tesen om at all tekst er hierarkisk organisert (OHCO-tesen, jfr 2.5). I så fall ville det være SGML, og ikke TEI, som var universalspråket. Men TEI erkjenner at det finnes tekstlige strukturer som ikke lett kan representeres i SGML. TEI Guidelines byr på et stort antall mekanismer nettopp for å håndtere slike strukturer. Derfor er heller ikke en slik antagelse rimelig. Spørsmålet om hvilke fellestrekk ved "all tekst" som skal kunne fanges inn av TEI står dermed ubesvart.
2.4.1 Dino Buzzetti hevder at en årsak til forvirring og uklarhet i diskusjoner om tekstkoding er at ordet "tekst" benyttes i forskjellige betydninger. Han hevder også at denne flertydigheten har forledet til en sammenblanding av tekster og tekststruktur med dokumenter og dokumentstruktur.
2.4.2 Om vi skal insistere på et slikt skille mellom dokument og tekst, er det i første omgang mest rimelig å tolke påstanden om at "all tekst er kodet" dit hen at det er ikke er tekster, men dokumenter, som er kodet.
2.4.3 I forbindelse med tradisjonelle tekstformer har man gjerne tenkt seg at forholdet mellom tekst og dokument er som forholdet mellom begrep og instans, eller som forholdet mellom objekt og representasjon, evt. som forholdet mellom klasse og individ. Skillet er i utgangspunktet ikke uten videre klart og greit. Det er noenlunde på det rene hva et dokument er: Det er en fysisk gjenstand, dvs. en bok, et papirark, en steintavle e.l. Derimot kan tekstbegrepet være nokså problematisk.
2.4.4 Prøver vi å anvende et lignende skille på elektronisk tekst, blir det også uklart hva et dokument er. Refererer vi til et bestemt mønster av f.eks. mikroskopiske groper på overflaten av det informasjonsbærende laget av en bestemt CD-ROM? Dersom vi overfører dokumentet til datamaskinens harddisk er dokumentet ikke representert av groper, men av elektromagnetiske spor. Har vi i så fall ikke lenger med samme dokument å gjøre? Kanskje har vi med to numerisk forskjellige, men forøvrig identiske dokumenter å gjøre? Men nøyaktig hva består denne identiteten i?
2.4.5 Dersom vi viser dem på skjerm eller trykker dem ut på papir, vil de to dokumentene se helt identiske ut — enten de er lagret på CD-ROM eller harddisk. Vi kan ikke inspisere hverken mikroskopiske groper eller elektromagnetiske spor direkte. Forsåvidt som to slike sett av spor alltid viser seg likedanne på skjerm og papir kan de kanskje være å regne som identiske dokumenter. [16] Hvordan datafiler viser seg avgjøres blant annet av hvordan de er kodet.
2.4.6 Den vanlige oppfatningen av skillet mellom tekst og dokument gjør det klart nok at ikke noe av det vi her har omtalt (groper, elektromagnetiske spor, visuelle, auditive eller taktile mønstre) er tekster — de hører alle hjemme på "dokumentsiden". Men dermed hjelper dette skillet oss heller ikke til å avklare forholdet mellom dem. Kanskje kan vi si at en datafil er en fysisk representasjon av et dokument, som i sin tur er en perseptuell representasjon av en tekst. Dette forholdet kompliseres i sin tur av at ikke bare kan én og samme tekst representeres av forskjellige dokumenter, i tillegg kan ett og samme dokument representeres av forskjellige datafiler. Én og samme datafil kan faktisk også representere forskjellige dokumenter. Relasjonen mellom tekst og dokument er vanligvis et en-til-mange-forhold, [17] mens relasjonen mellom dokument og datafil typisk er et mange-til-mange-forhold.
2.4.7 Som sagt, hvordan en datafil "viser seg" (hvilket dokument den representerer) avgjøres blant annet av hvordan den er kodet. I så fall inngår kodingen ikke i teksten, og heller ikke i dokumentet, men i en representasjonen av dokumentet.
2.4.8 Selv om det er problematisk å gjøre rede for nøyaktig hva et dokument er, kan det i det minste være nyttig å holde skillet mellom dokument og tekst så noenlunde på det rene. Det vil jeg så langt mulig forsøke å gjennomføre i resten av dette arbeidet. I noen sammenhenger, der skillet ikke synes relevant, vil jeg likevel bruke "tekst" i den vide, unyanserte betydningen. Når jeg heretter snakker om "tekstkoding", burde jeg egentlig snakke om "dokumentkoding". I stedet for "elektronisk tekst" burde jeg egentlig si noe slikt som "elektronisk representasjon av et dokument", eller rett og slett "elektronisk dokument". Uttrykkene "tekstkoding" og "elektronisk tekst" er imidlertid så innarbeidet i vanlig språkbruk at det vil være for tungvint å innføre nye og mindre villedende uttrykk.
2.5.1 Vi så i forrige kapittel (i 1.3, 1.5 og 1.8) at SGML-baserte kodesystemer har visse problemer med representasjon av ikke-hierarkiske strukturer, f.eks. overlappende eller diskontinuerlige elementer. Coombs m.fl. så ikke dette som noe problem. Tvert om hevdet de at SGML nettopp derfor egnet seg så godt til representasjon av tekst. Alle teksters grunleggende eller logiske struktur er nemlig hierarkisk. Dette var en både dristig og konsekvensrik påstand, - men det var ikke videre klart hva som var ment f.eks. med teksters "logiske struktur". Påstanden ble utdypet og begrunnet som et teoretisk synspunkt i en senere artikkel fra samme miljø med den ambisiøse tittelen What is Text, Really?. Her presenteres påstanden i form av den såkalte OHCO-tesen:
2.5.2 Allerede i utgangspunktet fantes det opplagte innvendinger mot tesen. [18] I trykte bøker er f.eks. den fysiske inndelingen i sider, kolonner og linjer riktignok en enkel hierarkisk struktur, og inndelingen i kapitler, avsnitt, underavsnitt og setninger en annen. Men de representerer to forskjellige hierarkier, og det er lett å finne eksempler på at elementer i de to hierarkiene overlapper hverandre. Til dette kunne Renear m.fl. svare at det her er tale om overlapping mellom en teksts logiske og dens fysiske struktur, og at innvendingen derfor er irrelevant fordi OHCO-tesen bare ble gjort gjeldende for teksters logiske struktur. [19] For så vidt kunne man hevde at det faktum at et element overlapper med dokumentets logiske struktur er et tegn på at elementet ikke hører til denne strukturen.
2.5.3 Man kom snart over andre og vanskeligere eksempler på ikke-hierarkiske tekstfenomener: I et drama på verseform vil man f.eks. finne at sceneanvisninger og replikker gjerne overlapper med metriske elementer som vers og verselinjer (jfr. f.eks. Peer Gynt-eksemplet i (1.3 og 1.7)). Begge typer elementer overlapper i sin tur ofte med den grammatiske strukturen (f.eks. setninger). I lys av denne innvendingen gjorde Renear m.fl. en elegant modifikasjon av sin teori [Renear m.fl. 1996]: De innrømmet at en og samme tekst kan ha flere sameksisterende hierarkiske strukturer, men hevdet at hvert hierarki i slike tilfelle tilsvarte forskjellige og uavhengige analytiske eller teoretiske perspektiv på teksten. (Sameksisterende hierarkier lar seg som nevnt i en viss forstand representere i SGML, se (1.3, 1.5 og 1.8))
2.5.4 Faktisk kunne det nå hevdes at det at to elementer overlapper er et kriterium på at de tilhører forskjellige teoretiske perspektiver på teksten. Intuitivt kunne dette synes som en tiltalende modifikasjon: Det virker unektelig naturlig å hevde at f.eks. narratologisk, metrisk og grammatikalsk analyse er teoretisk uavhengige perspektiver på en tekst. Det er også slående at overlapping mellom elementer faktisk er unntaket snarere enn regelen, og at når to elementer overlapper er de oftest av svært forskjellig art.
2.5.5 På den annen side lot det til å være litt drøyt å insistere på at de analytiske perspektivene som fremkommer på denne måten i enhver forstand er uavhengige av hverandre. I mange tekststudier vil det f.eks. nettopp være samspillet mellom den narratologiske og den metriske strukturen som er gjenstand for analyse. Og igjen lot det seg gjøre å finne eksempler som så ut til helt klart å avkrefte teorien: I manuskripter finner man f.eks. fenomener som understrekninger og overstrykninger av forskjellige typer. De overlapper ofte, men det er neppe naturlig å hevde at de hører til forskjellige analytiske perspektiver på teksten.
2.5.6 Disse innvendingene bragte Renear m.fl. til å gjøre nok en interessant modifikasjon i sin opprinnelige teori: De innrømmet at elementer som hørte til samme overordnede teoretiske perspektiv kunne overlappe, men hevdet også at dette var et kriterium på at de to elementene tilhørte teoretiske subperspektiver som hver i sær var hierarkisk ordnet.
2.5.7 Imidlertid ble man nå oppmerksom på at også elementer av samme type kan overlappe med hverandre. I manuskripter kan f.eks. to overstrykninger overlappe hverandre, i dialoger kan to setninger overlappe, i hypertekster kan ankere og pekere overlappe osv. Siden to elementer av samme type ikke med noen rimelighet kan hevdes å tilhøre forskjellige teoretiske perspektiver ble teorien om at alle tekster i ett og alt er hierarkisk strukturert oppgitt.
2.5.8 Det betyr ikke at OHCO-tesen var en blindgate. Det miljøet som opprinnelig fremmet tesen var forbilledlig åpne for innvendinger. De var altså ikke bare ivrige i forsvaret av tesen — de var like ivrige i letingen etter avkreftende eksempler. I dette arbeidet ble det levert viktige bidrag til forståelsen både av tekststrukturer og tekstkoding. Slik sett er OHCO-tesens vekst og fall en ypperlig illustrasjon av Poppers påstand om at vår innsikt øker når hypoteser gjendrives. Diskusjonen om sammenhengen mellom kodestrukturer og tekststrukturer har fortsatt med uforminsket styrke. [20]
2.5.9 Det bør heller ikke underslås at Renear m.fl. tross alt kan sies å ha lykkes i å vise at det er en sterk tendens til at tekstlige strukturer er hierarkiske. Kritikken av OHCO-tesen besto stort sett av henvisning til moteksempler. Overlapp kan altså sies å være unntaket snarere enn regelen. Det er unektelig også en interessant observasjon at fenomener som hører til samme "perspektiv" på en tekst vanligvis ikke overlapper (selv om vi fant unntak også fra denne regelen).
2.5.10 Det kritikken av OHCO-tesen kan sies å ha vist, er dermed at selv om hierarkiske strukturer er fremherskende, er overlapp såvidt hyppig at det må tas alvorlig i ethvert forsøk på å fremskaffe et system for representasjon av tekstlige strukturer. TEI Guidelines (jfr. 1.5) inneholder f.eks. en rekke forslag til mekanismer for å håndtere problemet med overlappende elementer [TEI P3, bl.a. kap 31].
2.5.11 Standard-eksemplene på overlappende fenomener er slike som hører til dokumenters fysiske organisering og teksters komposisjonelle struktur, altså slikt som sider, kolonner og linjer på den ene siden og kapitler, avsnitt og setninger på den andre. Slike fenomener overlapper i nær sagt alt som finnes av trykt eller skrevet tekst. Til standard-eksemplene hører også slikt som setninger og direkte tale i prosa. Verselinjer har en tendens til å overlappe med andre fenomener (f.eks. setninger) i poesi. Replikker har en tendens til å overlappe med hverandre og med andre fenomener i drama. Dermed viser overlapp seg altså å være tilstede i rikt monn i alle de tre tradisjonelle litterære hovedformene prosa, poesi og drama. [21] I tillegg viser det seg som nevnt at en moderne tekstform som hypertekst oppviser overlapp mellom pekere og ankere etc.
2.5.12 Overlapp ser ut til å oppstå spontant i situasjoner der det ikke settes sperre mot fenomenet. Et par eksempler kan illustrere dette. Ved Wittgensteinarkivet arbeidet man i over ti år med MECS-basert koding av over 20.000 sider manuskriptmateriale. Siden MECS ikke har restriksjoner mot overlapp, ble fenomenet heller ikke ofret særlig oppmerksomhet. Den enkelte transkribent registrerte knapt om han produserte overlapp eller ikke. Antall overlappende elementer i materialet har vist seg å være forholdsvis stort. Et annet eksempel er HTML. Siden HTML er et SGML-basert system, burde jo overlapp strengt tatt ikke kunne forekomme i HTML-dokumenter. Som vi tidligere har sett (i 1.4) tilrettelegges HTML-dokumenter imidlertid ofte uten bruk av validerende parsere, og HTML-lesere tolererer gjerne "slark" i form av f.eks. overlapp, stort sett uten at det fører til problemer av betydning for brukerne. Resultatet er at World Wide Web utgjør verdens kanskje største samling elektronisk tekst med overlappende elementer.
2.5.13 Både i HTML og MECS viser det seg riktignok at en god del av de overlappingene som finnes er "unødvendig" (spurious) overlapp. Når to elementer overlapper hverandre deler de teksten de avgrenser i tre deler. Dersom en av disse delene er tom, er det grunn til å tro at de to elementene like gjerne kunne ordnes sekvensielt eller hierarkisk. Med andre ord, mens [22]
... <a/ ... <b/ ... /a> ... /b> ... er et tilfelle av
"nødvendig" overlapp, vil i de fleste tilfelle
... <a/<b/ ... /a> ... /b> ...,
... <a/ ... <b//a> ... /b> ... og
... <a/ ... <b/ ... /a>/b> ...
være unødvendig overlapp, som like gjerne kunne representeres slik, henholdsvis:
... <b/<a/ ... /a> ... /b> ...,
... <a/ ... /a><b/ ... /b> ... og
... <a/ ... <b/ ... /b>/a> ...
altså uten overlapp. Om all unødvendig overlapp virkelig kan elimineres på denne
måten uten tap av informasjon, er en diskusjon vi ikke skal gå inn på her.
2.5.14 Av og til oppstår overlapp på grunn av tilsiktede konvensjonsbrudd fra forfatterens side.
Ett eksempel finner vi på side 470 i Trygve Bratteli: En fortelling av
Roy Jacobsen
[Jacobsen 1995].
Her kommer en kapitteloverskrift (Luseknekkerstriden) midt inne i en
setning. Setningen begynner altså i ett kapittel og slutter i det neste — den
overlapper begge kapitler. Effekten av dette retoriske grepet er påfallende, det bidrar til å
"drive" leseren videre fra foregående til neste kapittel. Dette er en virkning grepet får
nettopp i kraft av at tekstelementene overlapper hverandre. Virkningen forsterkes
gjennom overraskelsesmomentet — det kan altså hevdes at slike retoriske grep også
får noe av sin kraft på grunn av den fremherskende regelen om hierarkisk ordning.
[23]
2.5.15 Når ethvert tekstkodingssystem med pretensjoner om generell anvendelighet må kunne håndtere overlapp, er det altså av følgende grunner:
2.5.16 Men hva vil det egentlig si at et system kan "håndtere" overlapp? Det har fra enkelte hold [...] vært hevdet at det ikke er noe problem å representere overlappende elementer i SGML. Tvert om, blant andre TEI har vist at det finnes en hel rekke SGML-mekanismer som kan benyttes til dette formålet. At disse mekanismene rent teknisk er litt mer kompliserte og avviker noe fra representasjon av hierarkisk ordnede elementer er et teknisk problem — men bare et teknisk problem, og derfor uten prinsipiell betydning. Dette argumentet har unektelig noe for seg: Hvorfor skal vi bry oss med de rent tekniske sidene ved en underliggende representasjon, sålenge systemet "virker".
2.5.17 Til dette er det minst tre ting å si:
2.6.1 I semiotikken skilles gjerne mellom syntaks, semantikk og pragmatikk. Syntaks er studiet av de rent "ytre" eller formelle aspektene ved tegn og tegnsystemer, abstrahert fra tegnenes mening og bruk. Semantikk er studiet av tegn og tegnsystemer i relasjon til tegnenes mening, men abstrahert fra deres bruk. Pragmatikk er studiet av tegn og tegnsystemer i relasjon ikke bare til deres mening, men også til brukere og brukssituasjoner.
2.6.2 Forsåvidt som tekstkodingssystemer er en type semiotiske systemer, kan de gjøres til gjenstand for både syntaktiske, semantiske og pragmatiske studier. Da må vi imidlertid ikke glemme at det å studere tekstkoding som et eget semiotisk system innebærer en abstraksjon. Ettersom tekstkoding er en form for meta-informasjon forekommer den jo aldri alene — koding er alltid koding av noe.
2.6.1.1 Vi har allerede sett at kodesystemer skiller seg fra hverandre med hensyn til en del grunnleggende syntaktiske egenskaper. Det finnes systemer som bare tillater angivelse av punkter i et dokument, [24] det finnes systemer som tillater angivelse av punkter såvel som områder (f.eks. SGML-baserte systemer), og det finnes systemer som tillater markering av både punkter, områder og mer kompliserte strukturer (f.eks. MECS.)
2.6.1.2 Et studium av denne typen forskjeller mellom kodesystemer kan gjøres i lys av Chomskys typehierarki. De tre typene nevnt ovenfor kan se ut til å svare noenlunde til Chomsky skille mellom regulære, kontekstfrie og kontekst-sensitive språk. Derfor er det interessant å merke seg at regulære og kontekstfrie språks syntaks er godt kartlagt, mens kontekst-sensitive språk er mer uutforsket. Som nevnt tidligere (i 1.8) har det vært av betydning for utviklingen av kodesystemer at det finnes velkjente algoritmer for behandling av regulære og kontekstfrie språk, mens behandling av kontekst-sensitive språk er forbundet med betydelige metodologiske og tekniske problemer.
2.6.1.3 En annen type tilnærming til kodesystemers syntaks finner vi hos Darrell Raymond m.fl., som kartlegger syntaktiske [25] egenskaper som skyldes selve det mediet kodingen er nedfelt i. Raymond m.fl. konstaterer at koder er innskutte og atskillbare (embedded and separable) deler av de tekstfilene [26] de inngår i. At kodene er atskillbare betyr at kodingen kan studeres og behandles som et selvstendig system, at kodingen er innskutt i tekstfiler betyr at dette systemet deler tekstfilers grunnleggende egenskaper. Tekstfiler er symbolsystemer som baserer seg på en relativ ordning av diskrete tegn. De har dermed ifølge Raymond m.fl. en del grunnleggende egenskaper med hensyn til bl.a. ressurser, diskrimineringsnivå og ordning. [27]
2.6.1.4 En tekstfils ressurser er det råmateriale den er laget av — et tegnsett og et distribusjonsrom for tegn. Både tegn og plasser er knappe ressurser. Knapphet på tegn fører bl.a. til at man reserverer spesielle tegn for å skille mellom tegn som hører til kodingen og andre tegn, og til at man gjerne tilstreber at de hyppigst brukte kodene er de korteste. Knapphet på plasser fører bl.a. til at hvis to eller flere koder skal benyttes til å tilordne egenskaper til en og samme del av tekstfilen, er rekkefølgen av dem likegyldig. Likevel, siden det ikke er fysisk mulig å la kodene innta samme posisjon, må de ordnes. Koding kan også påvirke eller vanskeliggjøre beregningen av den relative avstanden mellom tekstelementer. Koding inne i ord gjør automatisk gjenfinning av ordene vanskelig.
2.6.1.5 En tekstfils diskrimineringsnivå er begrenset, fordi det er en funksjon av et endelig tegnsett og et endelig antall plasser. For kodesystemers vedkommende betyr det f.eks.at det bare er mulig å markere strukturer som er reduserbare til en funksjon av tekstsfilens deler. (Selv om det skulle være ønskelig å markere elementer med en "omtrentlig" plassering eller utstrekning, tvinges vi derfor likevel til å gi dem en eksakt plassering og utstrekning — det finnes ikke midler til å uttrykke at et element skal plasseres, begynne eller slutte "omtrent her".) Av lignende grunner kan koding av tegnsetting være problematisk. (Det kan f.eks. være vanskelig å avgjøre om et punktum som avslutter en setning som slutter med en forkortelse skal kodes som en markering av forkortelsen eller som en markering av setningsslutt.)
2.6.1.6 En tekstfils ordning er total, relativ og lineær. Den er total, fordi ethvert tegn har en bestemt posisjon i forhold til alle andre. Den er relativ, fordi hvert enkelt tegn bare er ordnet i forhold det forutgående og det etterfølgende. [28] Den er lineær, fordi den i tillegg har en orientering, dvs. en begynnelse og en slutt. Dette betyr at kodenes rekkefølge kan angi de kodede elementens struktur så lenge det er tale om hierarkiske strukturer, men også at man kan få problemer med å representere såvel overlappende som ikke-lineære fenomener (f.eks. tabeller, kryssreferanser, parallelle sekvenser og fotnoter).
2.6.1.7 Formal logikk utgjør en tredje type tilnærming til studiet av kodesystemers syntaks. Innenfor formal logikk har studiet av kunstige språk konsentrert seg om såkalte formale språk eller formale system. Et formalt system består av formasjonsregler og transformasjonsregler. Formasjonsreglene angir et sett av tegn og et sett av regler for kombinasjon av tegn til velformede uttrykk. Man skiller gjerne mellom på den ene siden operatorer og på den andre siden deskriptive uttrykk (konstanter og variable).
2.6.1.8 Transformasjonsreglene angir hvordan bestemte velformede uttrykk, eller sett av uttrykk, kan omformes til andre velformede uttrykk. I et formalt system skiller man derfor mellom aksiomer og teoremer. Teoremene avledes fra aksiomene i samsvar med transformasjonsreglene. Videre vil man skille mellom objektspråk og metaspråk. Ethvert aksiom eller teorem uttrykkes f.eks. i systemets objektspråk, mens enhver påstand om at et bestemt uttrykk er et aksiom eller et teorem må formuleres i systemets metaspråk. Såvel formasjonsregler som transformasjonsregler hører til et formalt systems metaspråk.
2.6.1.9 Også kodesystemer har egenskaper som kan gjøre det aktuelt å betrakte dem som formale systemer. Ethvert kodesystem vil f.eks. inneholde eksplisitte og presist angitte formasjonsregler. Det er følgelig mulig å finne ut ved rent mekaniske midler om et gitt uttrykk er et velformet uttrykk i vedkommende kodesystem eller ikke. Vi kan også finne korrelater til transformasjonsregler, f.eks. i form av regler for reduksjon eller utelatelse av koder. Disse er imidlertid oftest nokså trivielle.
2.6.1.10 SGML utmerker seg ved at det har et formalisert metaspråk som tillater oss å finne korrelater ikke bare til skillet mellom konstanter, variable og operatorer, men også til aksiomer og teoremer. En SGML DTD inneholder operatorer og tillater oss å definere konstanter (generiske identifikatorer) og variable (såkalte parameter entities).
2.6.1.11 De reglene som formuleres i en SGML DTD kan med litt godvilje sies å bestemme systemets teoremer. Et enkelt eksempel: Med en SGML DTD som definerer et dokument av følgende type:
<Element doc - - (front?, body, back?)>vil følgende elementkombinasjoner være lovlige, eller teoremer i systemet:
2.6.2.1 Vi har konstatert at tekstkodesystemer kan betraktes som formale systemer. Men kan vi uten videre anta at også semantiske betraktninger er på sin plass? Eller, for å spørre på en annen måte: Har koder noen form for mening? Det er ikke uten videre opplagt at svaret på dette spørsmålet er positivt, i alle fall ikke dersom vi med "mening" mener noe slikt som selvstendig språklig mening.
2.6.2.2 For det første ser det ut til at koder ofte ikke føyer mening til den som allerede bæres av de uttrykkene som kodes. Snarere markerer kodene disse uttrykkene for å lette maskinell bearbeiding av et dokument. Det ser vi klart i eksempler som følgende:
2.6.2.3 I logikken gis formelle systemer mening (interpreteres) ved å tilordne verdier, i form av referanser innenfor et eller annet domene, til språkets deskriptive uttrykk. Noen formell semantikk for kodesystemer er ikke utarbeidet. En viktig distinksjon i den generelle semantikken er skillet mellom ekstensjon og intensjon, eller referanse og betydning. Det er ikke uten videre lett å ta stilling til hva referansen eller betydningen til koder som <q type=ds> eller <person> ovenfor kan tenkes å være. Det er heller ikke lett å tenke seg eksempler på koder som har betydning, men ikke referanse.
2.6.2.4 Det å betrakte tekstkoding i analogi med førsteordens predikatlogikk kan likevel gis en viss plausibilitet. Vi kan da betrakte et dokuments innhold som et sett av strenger (singulære uttrykk, individer), og av koder (generelle uttrykk) som tilskriver egenskaper til disse individene. (Alternativt kan vi betrakte det å kode en streng som en erklæring om at strengen hører til en klasse av strenger.) Men hvilket domene hentes disse egenskapene fra? Det er ikke noe i veien for å tenke seg at forskjellige kodesystemer kan referere til ulike domener, eller at ett og samme kodesystem kan gis forskjellige interpretasjoner.
2.6.2.5 I lys av det som fremkom i typologi-diskusjonen ovenfor (2.2), ser formgivning, struktur og operasjoner ut til å være de mest aktuelle domenene. Koden <person> i eksemplet ovenfor kan f.eks. tolkes som tilskriving til strengen 'Per' av et bestemt utseende (f.eks. kursiv trykk), en grammatikalsk egenskap ("egennavn"), eller en bestemt operasjon ("aktiviser kursiv, inkluder i indeks").
2.6.2.6 En slik betraktningsmåte åpner for en rekke interessante observasjoner. For eksempel gir det i alle fall for visse tolkninger god mening å skille mellom sanne og usanne egenskapstilskrivinger. Dersom vi f.eks. tolker <person> som tilskriving av grammatikalsk kategori, kan vi konstatere at <person>Per</person> vanligvis vil være sann, mens <person>klokken er to</person> er opplagt usann. For andre typer koding er det mindre opplagt at vi kan skille mellom sanne og usanne tilskrivinger. Dersom en streng er kodet med koden <emph> ("emphasis") er den f.eks. i visse brukssammenhenger å betrakte som fremhevet eller vektlagt, og det er i så fall ikke på sin plass å spørre om vi har å gjøre med en (sann eller usann) egenskapstilskriving å gjøre. Dermed beveger vi oss imidlertid også over på pragmatikkens område, som vi straks skal komme tilbake til (i neste avsnitt.).
2.6.2.7 Videre kan vi spørre oss om attributter kvalifiserer egenskaper eller tilskriver egenskaper til egenskaper. (I sistnevnte tilfelle vil den mest aktuelle analogien ikke lenger være førsteordens, men høyereordens predikatlogikk.) Og sist, men ikke minst, kan vi konstatere at kjedede og nøstede koder reiser en rekke interessante problemstillinger under en slik betraktningsmåte.
2.6.2.8 Noen eksempler: Dersom to elementer følger umiddelbart etterhverandre, dersom de begge har samme generiske identifikator, og dersom denne identifikatoren tilskriver en bestemt font til sitt elementinnhold, vil kodingen oftest være betrakte som ekvivalent til en koding der de to elementene er slått sammen til ett. Dersom to avsnitts-elementer forekommer umiddelbart etter hverandre, vil de derimot ikke være å betrakte som ekvivalente med ett stort avsnitt, men nettopp markere to atskilte avsnitt. Dersom en en kode som angir font er nøstet innenfor en kode som angir språk, vil den riktige tolkningen sannsynligvis være at det innerste elementet har begge de angitte egenskapene. Dersom en kode som angir språk er nøstet innenfor en annen språk-kode vil det derimot være riktig å tolke det slik at den indre strengen bare er i ett av de to språkene.
2.6.2.9 Kodesystemers semantikk er som sagt et nokså uutforsket felt, og temaet skal ikke forfølges videre her. [29] Ovenstående bemerkninger skulle imidlertid være tilstrekkelig til å vise at dette feltet kan fortjene økt oppmerksomhet.
2.6.3.1 Vi har tidligere sett (i 2.2) at det kan være vanskelig å avgjøre om et kodesystem er å betrakte som på den ene side "deskriptivt", eller på den annen side "proseduralt", "preskriptivt" eller "normativt". Om vi i et dokument finner en streng som er merket med en kode som betyr "kursiv", er det ikke uten videre gitt om dette skal forstås slik at strengen faktisk er trykket i kursiv, eller om det er å oppfatte som en instruksjon om at den skal trykkes i kursiv.
2.6.3.2 Coombs m.fl. skiller mellom deskriptiv og prosedural koding, og argumenterer sterkt for at man bør benytte deskriptiv tekstkoding — faktisk insisterer de på at SGML er et deskriptivt kodesystem. Coombs m.fl. argumenterer forøvrig også for at man ikke bør kode teksters "overflatestruktur" eller utseende, men konsentrere seg om deres "logiske struktur". TEI Guidelines følger i stor grad disse anbefalingene. Derfor vil vi f.eks. i TEI ikke finne koder for slike fenomener som "kursiv", men derimot <emph>, for "emphasis". Til denne koden kan man imidlertid knytte attributten rend ("rendition", gjengivelse), som tar verdien italics (kursiv). Man kan dermed velge om man vil registrere dokumentets utseende eller ikke. [30]
2.6.3.3 Selv om der kan være uenighet om man skal legge vekt på koding av utseende eller struktur, fremstår disse i det minste som klare og uttømmende alternativer i de fleste av de sammenhengene der TEI Guidelines faktisk ble brukt i prosjektets tidligste fase. Dette var kort sagt sammenhenger der det var tale om å transkribere og kode tekster som allerede forelå i trykt eller håndskrevet form. Den kodede teksten var altså ikke den opprinnelige — man befattet seg stort sett med å representere allerede eksisterende tekster i et annet medium.
2.6.3.4 Det ble likevel tidlig pekt på at det forholder seg noe annerledes dersom man tenker seg dokumenter som opprinnelig blir skapt i elektronisk form — der det altså er forfatteren selv som er opphav til kodene såvel som alle andre aspekter ved teksten. I slike tilfelle kan f.eks. koden <emph> vanskelig betraktes som en beskrivelse av et foreliggende fenomen. Kanskje kan man betrakte den som en beskrivelse av et fremtidig dokument, et intendert dokument, e.l. Atskillig rimeligere virker det likevel å si at når forfatteren av en elektronisk tekst knytter koden <emph> til en streng, blir strengen fremhevet. <emph> er altså ikke å oppfatte som en beskrivelse, men derimot som resultatet av en handling, på linje med talehandlinger. Det betyr ikke at <emph> ikke uttrykker noe, og heller ikke at det som uttrykkes ikke kan være en beskrivelse. Men det minner oss om at koder, likesom andre språklige uttrykk, er resultat av handlinger som kan ha andre poenger enn det å beskrive noe.
2.6.3.5 Dette peker på noe som ikke har vært særlig i fokus for diskusjoner av tekstkoding, nemlig bruksaspektet. Studier av tekstkoding har i høy grad vært fortatt som studier av formelle systemer. Det pragmatiske aspektet har ikke vært fremherskende. I Renears senere arbeider finnes forsøk på å ta også dette aspektet i betraktning ved å analysere tekstkoding i analogi med talehandlinger a la Austin og Searle [Renear ...].
2.6.3.6 Resultatene av et slikt arbeid kan ikke foregripes her, men det er nærliggende å anta at man i ett og samme kodesystem kan finne koder som er å oppfatte som beskrivelser, erklæringer og instruksjoner. Dersom forfatteren av et elektronisk dokument markerer "klokken er ti" som et egennavn, er det f.eks. rimelig å tro at vi rett og slett har å gjøre med en feilaktig beskrivelse. Når han derimot setter inn koden <emph> eller en kode som markerer nytt avsnitt, kan handlingen være mer eller mindre vellykket — men knapt feilaktig. Og setter han inn en kode som rett og slett betyr "trykk dette i kursiv", har vi hverken å gjøre med en beskrivelse eller en erklæring, men en instruksjon om hvordan dokumentet skal trykkes.
2.6.3.7 Det er altså grunn til å tro at man i diskusjonen om og klassifiseringen av kodesystemer ikke har tatt tilstrekkelig hensyn til pragmatiske forhold. Kanskje kan ikke kodesystemer betraktet som formale språk, men bare deres ulike bruksmåter, klassifiseres som "deskriptiv", "prosedural", "normativ" etc.
2.6.3.8 Det er også verdt å merke seg at alle de typologiseringsforsøk som er nevnt her har sin oppmerksomhet rettet mot SGML. De kan vel også sies å være forsøk på å forklare hvorfor SGML har fortrinn fremfor andre måter å kode tekst på. Det er i den forbindelse påfallende hvor lite oppmerksomhet som ofres på analyse og karakteristikk av andre kodesystemer som fremdeles har stor utbredelse, nemlig de såkalte sidebeskrivelsesspråkene. Med sidebeskrivelsesspråk mener jeg slike kodesystemer som PostScript, PDF, RTF, TEX og Latex, for å nevne noen av de viktigste.
2.6.3.9 Grunnen til at disse nedprioriteres er kanskje at de ikke er særlig egnet til å støtte de bruksmåtene for tekst som ikke er spesifikke for det elektroniske mediet, så som automatisk indeksering, søking, "outlining" etc. På den annen side finnes det knapt bedre redskaper til å kontrollere teksters typografi og dokumenters skriftbilde. Det kan altså se ut til at det er i lys av visse interesser og prioriteringer at SGML fremstår som mer deskriptivt, mer objektivt, mer fleksibelt osv. enn f.eks. PostScript. Og disse interessene er først og fremst knyttet til bruk av elektroniske, ikke trykte, medier.
2.7.1 Blant de mange og tildels motstridende syn på tekstkoding vi har vært innom, er det i det minste ett det ser ut til å være enighet om, nemlig at tekstkoding er en slags meta-informasjon. Som sådan later den til å være definert i forhold til kodede dokumenters innhold — kodingen er ikke del av innholdet, men bærer informasjon om det.
2.7.2 Det later også til å være en utbredt oppfatning at det innholdet som kodes, er en språklig størrelse. Denne språklige størrelsen ser tidvis ut til nærmest å identifiseres med sin alfanumeriske representasjon, mens det i andre sammenhenger fremheves at denne i sin tur representerer et abstrakt objekt (en tekst), og at det derfor er dette som kodes.
2.7.3 Vi har sett at det lar seg gjøre å skille mellom hva jeg har kalt "typebestemte" og "innholdsbestemte" definisjoner av tekstkoding. Ifølge innholdsbestemte definisjoner bærer koding informasjon om hvordan dokumentets elementer skal presenteres visuelt, om hvordan de skal behandles (av dataprogrammer), eller om hvordan de skal kategoriseres i samsvar med en eller annen taksonomi. Under enhver omstendighet deler kodingen et dokument opp i atskillbare og innbyrdes ordnede elementer som tilsammen utgjør en klart identifiserbar struktur. Det hevdes da også ofte at det mest vesentlige med koding er at den bærer informasjon om struktur.
2.7.4 Uklarheten m.h.t. spørsmålet om hva det er som kodes, kan vi prøve å håndtere ved å gjennomføre et klart skille mellom tekst og dokument. Mens teksten er en abstrakt, innholdsmessig størrelse, er dokumentet en fysisk, uttrykksmessig størrelse. Når det hevdes at koding bærer informasjon om struktur, er det dermed vesentlig å holde rede på om det siktes til tekstens struktur eller dokumentets struktur.
2.7.5 Skillet mellom dokument og tekst kan sees som en anvendelse av et mer grunnleggende eller generelt skille mellom uttrykk og innhold. Dette innholdet sees imidlertid ofte også i motsetning til andre aspekter, som f.eks. form, struktur, og utseende. (Struktur og utseende anses i sin tur som polare begreper i visse sammenhenger.) Her kan det være en kilde til forvirring at såvel innhold som uttrykk kan sies å ha sin egen form og struktur, at det samme gjelder utseendet osv.
2.7.6 Vi har også sett at skillet mellom tekst og dokument er av begrenset verdi i vår sammenheng, fordi dokumentbegrepet selv blir komplisert og problematisk. Dette manifesterer seg klart ved at kriteriene for identifikasjon og reidentifikasjon av elektroniske dokumenter er langt mer problematiske enn hva tilfellet er for tradisjonelle dokumenter.
2.7.7 Tekstkoding består i anvendelse av et formelt apparat og formelle metoder og redskaper i representasjon og bearbeiding av en type objekter som knapt er blitt studert og håndtert med slike virkemidler før. Bruken av formelle metoder kan sies å ha vært en suksess, forsåvidt som det er dem som har gjort maskinell bearbeiding av dokumenter mulig. Metodene har også brakt frem spørsmål man knapt kunne tenkt seg å stille før tekstkodingens tid.
2.7.8 Et eksempel på dette er spørsmålet om alle tekster i ett og alt er hierarkisk organisert. Selv om svaret har vist seg å være negativt, er det et interessant og innsiktsgivende problem. På den annen side er det også et eksempel på faren ved enhver metode: Egenskaper ved metoden projiseres inn i forskningsobjektet og oppfattes som egenskaper ved dette. At alle dokumenter kan representeres i SGML, og SGML er hierarkisk organisert, betyr bare at alle dokumenter kan representeres som hierarkier. Det betyr ikke nødvendigvis at de ikke kan representeres på annen måte, eller at de i noen annen forstand "er" hierarkier.
2.7.9 Vi har støtt på problemer i forbindelse med forsøk på å klassifisere typer av tekstkoding. Det skilles gjerne mellom prosedural og deskriptiv koding; eller mellom prosedural og deklarativ koding på den ene siden og presentasjonell og analytisk koding på den andre siden. Samtidig som det hevdes at all tekst er kodet, hevdes det også at all koding er fortolkende, noe som skaper problemer for forestillingen om koding som middel til nøytral eller "objektiv" representasjon av dokumenter.
2.7.10 Vi fant at mye av denne forvirringen i skyldes to forhold: for det første at man blander sammen logiske, semantiske og pragmatiske aspekter ved spørsmålene det gjelder; for det andre at man legger for liten vekt på det pragmatiske aspektet.
2.7.11 Blant de grunnleggende spørsmål som bør stilles dersom vi ønsker å komme til klarhet om tekstkoding, er altså: Hvordan skiller vi mellom tekst og dokument, og hvordan kan vi best identifisere et dokument? Hvordan kan vil skille mellom form og innhold, utseende og struktur? Finnes det tekstlige universalia? Hvordan bør vi skille mellom representasjon og interpretasjon?