[[tustep:loesungen:tustep_und_xml|Zurück zur Übersichtsseite - TUSTEP und XML]]
----
====== Halbautomatische Kontrolle von automatischem Tagging ======
- {{files_open:benutzericons:ms.tru-lg.jpg?nolink&16x16|ms.tru}} ms.tru - [ wilhelmott | wilhelmott ]\\ \\ **Vorbemerkung:**\\ Nach der automatischen Bearbeitung von Texten (Tagging, Umstrukturierung, z.B. Aufhebung von Worttrennungen am Zeilenende im Rahmen von Retrodigitalisierungen oder der Produktion von ePubs aus Satzdaten mit Umbrüchen) ist es sinnvoll, die **Korrektheit der ausgeführten Prozedur zu überprüfen**.\\ Beispielhaft soll hier veranschaulicht werden, wie automatisch aufgehobene Silbentrennungen (gekennzeichnet mit **"" sowie ""**) überprüft werden können. Hierzu wurde ein Ausschnitt aus "Vom Kriege" von Carl von Clausewitz aus dem [[http://gutenberg.spiegel.de/buch/4072/4|Gutenberg-Projekt]] vorbereitet. Es wurden dazu einige Aufhebungen von Silbentrennugen eingebaut, darunter wenige fehlerhafte, die es herauszufinden gilt.\\ Bei der Sichtkontrolle des Ergebnisses der nachstehenden Prozeduren fallen diese Fehler sofort ins Auge.\\ \\ Eine erste einfache und übersichtliche Möglichkeit für eine derartige Kontrolle ist die Benutzung einer Zeige-Anweisung im Editor, was insbesondere bei geringeren Textumfängen, die zu kontrollieren sind, schnell und sicher zu bewerkstelligen ist. Die erste der folgenden Anweisungen hebt die zu kontrollierenden Textpassagen inklusive des darin enthaltenen Textes, die zweite lediglich die Tags selbst hervor.\\
zn,,,~*~
zn,,,~<{0}/zsf>~
\\ Eine weitere Kontrollmöglichkeit ist die **Extraktion** der zu kontrollierenden Stellen/Passagen, die über eine eindeutige **Kennung** (z.B. ) gekennzeichnet ist, ihre **Zusammenstellung in einer alphabetisch sortierten und von Dopplungen bereinigten Kontrollliste** und deren anschließende **Sichtung**.\\ Dieses Vorgehen soll im Folgenden mittels ''#RVORBEREITE'', ''#RAUFBEREITE'' und ''#SORTIERE'' exemplarisch gezeigt werden:
\\
\\ {{files_open:daten:vomkriegesil.tf|vomkriegesil.tf}} [24 KB]
\\
\\
#an,vomkriegesil.tf
#rv,vomkriegesil.tf,-std-,mo=-,lo=+,pa=*
* die mit ... markierten Textteile
isolieren und zum Sortieren vorbereiten:
ea ||
ee ||
* Sortierschlüssel mit der Länge 50 erstellen:
ssl 50
*eof
#- Hier wird die Kontrolldatei alphabetisch sortiert
#- und der Sortierschlüssel getilgt:
#so,-std-,-std-,so=1-50,ti=1-50,lo=+
#da,kontroll.tf,seq-ap
#- aufeinanderfolgende identische Datensätze zusammenfassen
#ra, -std-, kontroll.tf, mo=-, lo=+, pa=*, pr=-
ssl 0
*eof
#- Aufruf der Kontrolldatei zur Sichtkontrolle
#e,kontroll.tf
\\ Eine Alternative stellt die Nutzung der KOPIERE-Funktionalität von TUSTEP dar:\\
#an,vomkriegesil.tf
#da,ziel1.tf,fr=-
#ko,vomkriegesil.tf,ziel1.tf,lo=+,mo=-std-,pa=*
* Aus dem Text werden die mit ...
* markierten Textteile isoliert:
ak1 ~~
ek1 ~~
aei 13
*eof
#da,ziel2.tf,fr=-
#sv,ziel1.tf,ziel2.tf,mo=-,lo=+,pa=*
* Sortierschlüssel mit der Länge 50 erstellen:
ssl 50
*eof
#da,ziel3.tf,fr=-
#- Hier wird die Kontrolldatei alphabetisch sortiert
#- und der Sortierschlüssel getilgt:
#so,ziel2.tf,ziel3.tf,so=1-50,ti=1-50,lo=+
#da,kontroll.tf,seq-ap
#- Im folgenden Kopiere muss MODUS=+ angegeben werden,
#- damit die Datei neu (d.h. aufsteigend) durchnummeriert wird.
#ko,ziel3.tf,kontroll.tf,lo=+,mo=+,pa=*
* Bei identischen Datensätzen wird der zweite nicht in die
* Zieldatei ausgegeben, sondern der nächste Datensatz eingelesen.
* --> Doppelungen werden de facto gelöscht
vgl 1 0
spn 15
spj 0
sp5 3
*eof
#- Aufruf der Kontrolldatei zur Sichtkontrolle
#e,kontroll.tf
----
[[tustep:loesungen:tustep_und_xml|Zurück zur Übersichtsseite - TUSTEP und XML]]