Benutzer-Werkzeuge

Webseiten-Werkzeuge


Seitenleiste

tustep:loesungen:tustep_und_xml:kontrolle

Zurück zur Übersichtsseite - TUSTEP und XML


Halbautomatische Kontrolle von automatischem Tagging

- ms.tru ms.tru - [ wilhelmott | wilhelmott ]

Vorbemerkung:
Nach der automatischen Bearbeitung von Texten (Tagging, Umstrukturierung, z.B. Aufhebung von Worttrennungen am Zeilenende im Rahmen von Retrodigitalisierungen oder der Produktion von ePubs aus Satzdaten mit Umbrüchen) ist es sinnvoll, die Korrektheit der ausgeführten Prozedur zu überprüfen.
Beispielhaft soll hier veranschaulicht werden, wie automatisch aufgehobene Silbentrennungen (gekennzeichnet mit „<zsf>“ sowie „</zsf>„) überprüft werden können. Hierzu wurde ein Ausschnitt aus „Vom Kriege“ von Carl von Clausewitz aus dem Gutenberg-Projekt vorbereitet. Es wurden dazu einige Aufhebungen von Silbentrennugen eingebaut, darunter wenige fehlerhafte, die es herauszufinden gilt.
Bei der Sichtkontrolle des Ergebnisses der nachstehenden Prozeduren fallen diese Fehler sofort ins Auge.

Eine erste einfache und übersichtliche Möglichkeit für eine derartige Kontrolle ist die Benutzung einer Zeige-Anweisung im Editor, was insbesondere bei geringeren Textumfängen, die zu kontrollieren sind, schnell und sicher zu bewerkstelligen ist. Die erste der folgenden Anweisungen hebt die zu kontrollierenden Textpassagen inklusive des darin enthaltenen Textes, die zweite lediglich die Tags selbst hervor.

zn,,,~<zsf>*</zsf>~
zn,,,~<{0}/zsf>~


Eine weitere Kontrollmöglichkeit ist die Extraktion der zu kontrollierenden Stellen/Passagen, die über eine eindeutige Kennung (z.B. <zsf>) gekennzeichnet ist, ihre Zusammenstellung in einer alphabetisch sortierten und von Dopplungen bereinigten Kontrollliste und deren anschließende Sichtung.
Dieses Vorgehen soll im Folgenden mittels #RVORBEREITE, #RAUFBEREITE und #SORTIERE exemplarisch gezeigt werden:

vomkriegesil.tf [24 KB]

#an,vomkriegesil.tf
#rv,vomkriegesil.tf,-std-,mo=-,lo=+,pa=*
     * die mit <zsf> ... </zsf> markierten Textteile
       isolieren und zum Sortieren vorbereiten:
ea        |<zsf>|
ee        |</zsf>|
     * Sortierschlüssel mit der Länge 50 erstellen:
ssl       50
*eof

#-    Hier wird die Kontrolldatei alphabetisch sortiert
#-    und der Sortierschlüssel getilgt:
#so,-std-,-std-,so=1-50,ti=1-50,lo=+

#da,kontroll.tf,seq-ap

#- aufeinanderfolgende identische Datensätze zusammenfassen
#ra, -std-, kontroll.tf, mo=-, lo=+, pa=*, pr=-
ssl       0
*eof

#-    Aufruf der Kontrolldatei zur Sichtkontrolle
#e,kontroll.tf


Eine Alternative stellt die Nutzung der KOPIERE-Funktionalität von TUSTEP dar:

#an,vomkriegesil.tf
#da,ziel1.tf,fr=-
#ko,vomkriegesil.tf,ziel1.tf,lo=+,mo=-std-,pa=*
    * Aus dem Text werden die mit <zsf> ... </zsf>
     * markierten Textteile isoliert:
ak1       ~<zsf>~
ek1       ~</zsf>~
aei       13
*eof

#da,ziel2.tf,fr=-
#sv,ziel1.tf,ziel2.tf,mo=-,lo=+,pa=*
    * Sortierschlüssel mit der Länge 50 erstellen:
ssl       50

*eof

#da,ziel3.tf,fr=-
#-    Hier wird die Kontrolldatei alphabetisch sortiert
#-    und der Sortierschlüssel getilgt:
#so,ziel2.tf,ziel3.tf,so=1-50,ti=1-50,lo=+

#da,kontroll.tf,seq-ap

#-    Im folgenden Kopiere muss MODUS=+ angegeben werden,
#-    damit die Datei neu (d.h. aufsteigend) durchnummeriert wird.

#ko,ziel3.tf,kontroll.tf,lo=+,mo=+,pa=*
    * Bei identischen Datensätzen wird der zweite nicht in die
     * Zieldatei ausgegeben, sondern der nächste Datensatz eingelesen.
    * --> Doppelungen werden de facto gelöscht
vgl       1 0
spn       15
spj       0
sp5       3
*eof

#-    Aufruf der Kontrolldatei zur Sichtkontrolle
#e,kontroll.tf

Zurück zur Übersichtsseite - TUSTEP und XML

tustep/loesungen/tustep_und_xml/kontrolle.txt · Zuletzt geändert: 2021/03/16 05:34 (Externe Bearbeitung)