Een maat voor de betrouwbaarheid van transcripties door "ponding", 1-10-2000.

Iedere editeur kent het monnikenwerk van het transcriberen van teksten. Het betrouwbaar overnemen van een tekst is een zware opgave die tegenwoordig gelukkig verlicht wordt door de komst van tekstverwerkingsprogrammatuur. Met tekstverwerkers zijn we in staat correctieslagen te maken waarbij fouten gecorrigeerd kunnen worden zonder de correcte gedeelten tekst te bewerken of over te nemen. Iets dat vroeger alleen in staand zetsel enigszins mogelijk was.
Hoe makkelijk het tegenwoordig ook is om correcties aan te brengen, we weten eigenlijk nooit wanneer we daar mee kunnen ophouden. Wanneer is de tekst foutloos of vrijwel foutloos overgenomen? Na twee of drie correctieslagen? Hoe goed corrigeert iemand eigenlijk? Loont die vierde correctieslag nog de moeite? Dit zijn vragen die zich zeker bij omvangrijke teksten opdringen.

In zekere zin is het corrigeren van een transcriptie te vergelijken met het testen van software. Een programma wordt door de programmeur opgeleverd en is zelden direct foutloos. In het programma zitten fouten die men door testen probeert op te sporen. Wanneer heeft men alle fouten gevonden?
Er zijn situaties waarin het zeer belangrijk is dat een programma foutloos functioneert. Zo was de betrouwbaarheid van de software die in de eerste satellieten geladen werd van essentieel belang. Wanneer de satelliet eenmaal gelanceerd was, en feitelijk zou moeten werken, waren de fouten niet meer te herstellen. Een fout kon tot gevolg hebben dat een project van vele jaren en vele miljoenen te vergeefs was geweest. Tegenwoordig is software in satellieten vanaf aarde te corrigeren, maar in die begintijd deed NASA er alles aan om geen enkele fout door de testfase te laten komen. Daartoe ontwikkelde zij de "ponding"-methode.

De "ponding"-methode draagt haar naam door een analogie met het vissen in een vijver. Het verhaal is ongeveer als volgt: Er is een vijver met vissen. Het water is troebel en men weet niet hoeveel vissen in de vijver zitten. De visser wil alle vissen vangen. Aanvankelijk zal hij snel succes hebben, er zitten dan veel vissen in de vijver, maar het zal steeds langer duren voor hij een volgende heeft gevangen. Hoe weet de visser nu of hij de vijver heeft leeggevist? Deze vraag is analoog aan: Hoe komt de tester er achter of hij alle fouten heeft gevonden?
Nu is er een manier waarop de visser zijn resultaat meetbaar kan maken. De visser kan zelf vissen van dezelfde soort in de vijver uitzetten. Vóór het uitzetten kenmerkt hij deze, b.v. door met verf een stip op hun rug aan te brengen. Wanneer men er nu van uit gaat dat de uitgezette vissen even moeilijk te vangen zijn als de "wilde vissen", is het percentage gevangen gemerkte vissen een maat voor het percentage gevangen "wilde vissen". Als alle gemerkte vissen gevangen zijn, is de kans groot dat vrijwel alle "wilde vissen" er ook uit zijn.

Bij NASA werd deze methode als volgt toegepast. Het bouwteam leverde de software op. Een ander team bracht bewust fouten aan in de software en documenteerde deze, zodat zij later herkend en teruggevonden konden worden. Het derde team testte de software en rapporteerde de fouten aan het tweede team. Het tweede team kon constateren of de testers alle bewust aangebrachte fouten hadden gevonden. Zo lang dat niet het geval was, was de kans groot dat er ook nog "toevallige" fouten in de software zaten.
Deze gang van zaken kunnen wij vertalen naar ons onderwerp: het transcriberen van teksten. Ook daar hebben we idealiter drie partijen: degene die transcribeert, degene die bewuste fouten aanbrengt en degene die nakijkt.
De rol van degene die transcribeert is niet anders dan normaal. Hij levert een zo goed mogelijke transcriptie op in een digitaal formaat.
De rol van degene die de fouten aanbrengt is nieuw. Ik zal deze rol, niet geheel zuiver, met de term "saboteur" aanduiden. De saboteur moet de fouten op willekeurige plaatsen in de tekst aanbrengen en ook verschillende type fouten, zodat de bewust gemaakte fouten zo veel mogelijk lijken op de toevallige fouten. Er moeten dus fouten voorkomen tegen de spelling, tegen de interpunctie en tegen typografische eigenschappen van de tekst (b.v. romein waar het cursief moet zijn). Ook is het verstandig bepaalde deeltjes van de tekst te verwijderen of dubbel te laten voorkomen. Voor het genereren van willekeurige plaatsen waar fouten moeten worden aangebracht en eventueel ook voor het kiezen van het type fout, kan een zogenaamde random-generator gebruikt worden, die tegenwoordig met ieder spreadsheet-programma is te maken. Al deze fouten dienen zorgvuldig gedocumenteerd te worden.
De corrector heeft ook zijn klassieke rol, met dien verstande dat hij de gevonden fouten rapporteert aan de saboteur.
Deze laatste vergelijkt de gevonden fouten met zijn lijst en bepaalt de mate van correctheid op de volgende wijze: hij telt het totaal aantal gevonden fouten en stelt vast hoeveel hiervan bewust gemaakt zijn. Het aantal fouten dat door de corrector niet is opgemerkt is nu te benaderen met de volgende formule

Aantal onopgemerkte toevallige fouten =
(1 - aantal gevonden bewuste fouten / aantal bewust gemaakte fouten) *
(aantal gevonden fouten - aantal gevonden bewuste fouten) /
(aantal gevonden bewuste fouten / aantal bewust gemaakte fouten)

Ik zal dit met een voorbeeld toelichten, waarin deze berekening stapsgewijs wordt gemaakt. Stel er zijn 100 bewuste fouten aangebracht en de corrector vindt totaal 450 fouten, waarvan 90 bewuste. In dat geval zijn 90% van de bewuste fouten gevonden en waarschijnlijk ook 90% van de fouten die per ongeluk gemaakt zijn. We kunnen op basis hiervan een schatting maken van het aantal toevallige fouten dat door de corrector over het hoofd is gezien. Er zijn 450-90=360 toevallige fouten gevonden en deze representeren 90% van het totaal. Er zijn dus nog 10%*(360)/90%= 40 fouten blijven zitten.

Op deze wijze slaagt men er dus in een gefundeerd oordeel te geven over de mate van correctheid van een transcriptie en kan men op grond daarvan besluiten al of niet een volgende correctieslag uit te voeren.

Idealiter zijn de drie rollen (transcribent, saboteur en corrector) steeds over verschillende personen verdeeld. Wanneer dit om praktische redenen niet haalbaar is zou men eventueel de rol van de transcibent en die van de saboteur kunnen laten samenvallen. Als men de tijd heeft, zou men zelfs alle drie de rollen in één persoon kunnen verenigen. In dat geval moet men het werk na het aanbrengen en documenteren van de fouten enige tijd laten rusten, zodat men vergeet waar men de fouten zelf heeft aangebracht.

Vanzelfsprekend kost deze methode de nodige tijd, maar anderzijds geeft zij toch sturing bij het effectief inzetten van middelen. Bovendien levert de methode een indicatie van het geaccepteerde "restrisico" en daarmee van de betrouwbaarheid van het uiteindelijke resultaat.

Zelf gebruik ik deze methode bij de transcriptie van teksten van Willem Godschalck van Focquenbroch. Een project dat ik met een aantal gelijkgestemden ter hand heb genomen. Het betreft een vrij omvangrijk corpus.
In ons geval zijn de drie rollen steeds aan verschillende personen toegewezen. Wij werken met een totaal aantal bewuste fouten van 1 per 300 woorden tekst, die met een random-generator op basis van een Excel-spreadsheet worden verdeeld over de tekst en over de fouttypen. De feitelijke fouten worden daarna met de hand in de tekst aangebracht en gelijktijdig gedocumenteerd in de spreadsheet.
In de meeste gevallen blijken drie zorgvuldig uitgevoerde correctieslagen te volstaan. Hierbij kunnen wij aan de hand van de berekeningen het aflopend restrisico volgen. Wij stoppen wanneer het restrisico minder is dan één fout op de 15.000 woorden. Deze mate van betrouwbaarheid komt overeen met bijvoorbeeld 1 à 2 fouten in de transcriptie van de Afrikaense Thalia, een bundel poëzie en proza van 224 pagina's octavo.

De door ons gehanteerde normen zijn arbitrair. Bij een hogere fractie bewuste fouten worden de mazen van het net waarmee men naar onbewuste fouten vist fijner. Bij breder gebruik van de "ponding"-methode zouden betere normen kunnen worden ontwikkeld voor de fractie bewuste fouten en het te accepteren restrisico.

Ik denk dat het goed is hier ook kort in te gaan op een alternatieve methode voor het corrigeren van transcripties. Redelijk gevestigd is de methode van het vergelijken van onafhankelijk van elkaar gemaakte transcripties. Een tekst wordt daarbij door verschillende personen getranscribeerd, waarna de transcripties met behulp van een computerprogramma worden vergeleken. Waar verschillen tussen de transcripties zichtbaar worden, wordt aan de hand van het origineel besloten welke lezing correct is. Hoewel deze methode uitermate geschikt is voor het opsporen van varianten in verschillende versies van een tekst, acht ik haar voor het zuiver krijgen van een transcriptie minder geschikt.
Deze methode gaat er van uit dat twee onafhankelijke personen slechts toevallig een zelfde fout maken. Dat is echter niet juist. Zeker bij personen die de taal beheersen die zij transcriberen, zijn er typen fouten die zeer voor de hand liggen en waarschijnlijk door beide worden gemaakt. Dit zijn bijvoorbeeld fouten waarbij de transcribent een fout in het origineel over het hoofd ziet en deze onbewust corrigeert, of wanneer een transcribent een minder gangbare spelling aanpast voor een gangbare. Mijn ervaring met de transcriptie van 17de-eeuwse teksten leert dat bepaalde fouten door iedere transcribent en in hoge frequentie worden gemaakt. Het is dus zeker niet uit te sluiten dat bij het vergelijken van transcripties een fout niet gevonden wordt, doordat deze door beide transcribenten is gemaakt.
Daarnaast is het natuurlijk veel werk om een tekst in zijn geheel voor een tweede keer te transcriberen. Het is zeker meer werk dan het bewust aanbrengen van fouten volgens de "ponding"-methode. Ook het vergelijken van de twee transcripties met elkaar, en bij verschillen, met het origineel, kost meer tijd dan het corrigeren van een tekst met een aantal extra (bewuste) fouten. Zelfs wanneer die vergelijking van transcripties door middel van een computerprogramma wordt ondersteund.
Tenslotte, en dat is misschien wel het belangrijkste verschil, levert de "ponding"-methode een numerieke maat op voor de betrouwbaarheid van het resultaat na correctie. De methode van het vergelijken van onafhankelijke transcripties geeft die niet. Daarbij kan men, zelfs na het vergelijken van twee of meerdere transcripties, slechts gissen hoeveel fouten er in het resultaat zijn overgebleven.

De hier geschetste "ponding"-methode voor het vinden van fouten is niet nieuw. Bij mijn weten zijn wij echter de eersten die haar op teksten toepassen. De methode zou een welkome aanvulling kunnen zijn op het instrumentarium van de editeur in een tijd van tekstverwerkers en digitale publicaties.