Enkonduko en la aŭtomatan daten-prilaboradon

8 Kodado de datenaj tipoj: Aranĝitaj tekstoj

8 Kodierung von Datentypen: formatierte Texte

Tipografia aranĝo de tekstoj koncernas la uzon de diversaj signograndecoj kaj litertipoj (serifaj, sen-serifaj; grasaj, oblikvaj, kursivaj ktp.) kaj la dismeton al ĉapitroj, paragrafoj, kolumnoj, tabeloj ktp.

Die typographische Formatierung von Texten betrifft die Verwendung verschiedener Schriftgrößen und -typen (mit und ohne Serifen; fett, schräg, kursiv usw.) und die Unterteilung in Kapitel, Absätze, Spalten, Tabellen usw.

Atentu, ke kelkaj lingvoj uzas la vorton "formato" por "aranĝo". En Esperanto tio ne estas kutima; "formato" estas la grandeco de paperfolio aŭ libro.

Das Wort "Format", das auch (siehe unten) für die Größe von Papierblättern verwendet wird, bezeichnet hier einerseits die Platzierung und Darstellung von Textelementen und andererseits die Art der Kodierung.

Ekzistas multaj metodoj por stori (kodi) tiajn aranĝojn; nur malmultaj estas normigitaj aŭ konsidereblaj kiel normoj. Ekzemploj estas RTF (Rich Text Format), HTML, PostScript kaj PDF. Distingendas du klasoj de metodoj: tipografiaj metodoj kaj markaj (enhavaj) metodoj. Tipografiaj metodoj precize preskribas kiel aranĝi la tekstpartojn; enhavaj metodoj nur markas, al kiu enhava speco apartenas la tekstpartoj (titolo, tekstokorpo, piednoto, ktp.) kaj lasas al iu programo la decidon, kiel aranĝi ilin. Ekzemplo de tia marka lingvo estas HTML, uzata en la TTT-aj hipertekstoj.

Tekstoj aranĝitaj per ne-normigita aranĝo ofte estas dependaj de la programo, per kiu ili estis produktitaj. Se tiu programo ne plu estas disponebla, povas esti, ke la teksto fariĝas senvalora, ĉar ne plu vidigebla aŭ presebla.

Es gibt viele Arten, solche Formatierungen zu speichern (zu kodieren); nur wenige davon sind genormt oder können als Normen betrachtet werden. Beispiele sind die Formate RTF (Rich Text Format), HTML, PostScript und PDF. Zwei Klassen von Methoden lassen sich unterscheiden: typographische und markierende (auszeichnende, inhaltliche) Methoden. Typographische Methoden schreiben genau vor, wie die Textteile dargestellt werden sollen; inhaltliche Methoden markieren nur, zu welcher Art die Textteile inhaltlich gehören (zum Beispiel Titel, Textkörper, Fußnote usw.) und überlassen einem Programm die Entscheidung, wie sie formatiert werden sollen. Ein Beispiel für eine solche markierende Sprache ist HTML, das in Hypertexten im WWW verwendet wird.

[Hinweis: Das Wort "auszeichnen" wird hier im Sinne von "markieren" verwendet; es hat nicht die umgangssprachliche Bedeutung "lobend hervorheben".]

Texte, die nach einer nicht genormten Methode formatiert wurden, hängen oft von dem Programm ab, mit dem sie erzeugt wurden. Wenn dieses Programm einmal nicht mehr verfügbar ist, kann ein solcher Text wertlos werden, weil man ihn nicht mehr anzeigen oder drucken kann.

Tipografie aranĝitaj tekstoj kodas ne nur signojn, sed ankaŭ la informon, en kiu grandeco kaj per kiu tiparo (grasa, kursiva, ktp.) la signoj estu prezentataj.

Typographisch formatierte Texte kodieren nicht nur Zeichen, sondern auch die Information, in welcher Schriftgröße und mit welcher Schrifttype (fett, kursiv usw.) die Zeichen dargestellt werden sollen.

La du menciitajn metodojn por aranĝi tekstojn estas karakterizeblaj jene:

  1. Markado: la teksto enhavas markajn elementojn, kiuj indikas, kiuj estas la roloj de la tekst-pecoj; ili eĉ povas indiki, kiel prezenti la signojn. Ekzemploj:
    1. HTML (kiu havas ankaŭ tipografiajn elementojn)
    2. Tekstprilaboraj programoj kiaj WordPerfect, Word ktp. kodas la markajn elementojn per ne-preseblaj signoj (reg-signoj). Kaj tiuj signoj kaj la kodado de etno-lingvaj signoj kaj ne-latinaj signaroj estas proprietaj, tio estas specifaj por la koncerna programo.
  2. Tipografia kodado (paĝo-deskripto): Ĝi preskribas ekzakte, kie kaj kiel ĉiu signo estu presita sur la paperon.
    Iam la plej konata el la tipografiaj aranĝoj estis PostScript. Kelkaj modernaj presiloj kapablas rekte interpreti ĝin, tio signifas, ke eblas sendi al ili PostScript-ajn dosierojn, kiujn ili senpere komprenas kaj presas.
    PostScript nun estas, precipe por Uniksaj komputiloj, ofte uzata aranĝo por komunikado inter komputiloj kaj presiloj: Se oni generas pres-taskon el aplika programo, ofte la presota dosiero estas transformata al la aranĝo PostScript kaj tiel sendata al la presilo. Se oni elektas la instrukcion "presu al dosiero", ofte rezultas dosiero en PostScript.
    Alia daten-aranĝo por tipografie koditaj tekstoj estas PDF, nun eble la plej konata kaj tre multe uzata, ĉar firmao Adobe senkoste disdonas vidigilojn por PDF. PDF esence estas plu-evoluigaĵo de PostScript, kapabla kodi ekzemple kolorajn bildojn kaj formularojn.

Die beiden erwähnten Methoden zur Formatierung von Texten lassen sich folgendermaßen charakterisieren:

  1. Markierung (Auszeichnung): der Text enthält Markier-Elemente, die die Rollen von Text-Teilen angeben: Beispiele sind:
    1. HTML (das auch typographische Elemente enthält)
    2. Textverarbeitungsprogramme wie WordPerfect, Word usw. kodieren die Markierelemente mit nicht druckbaren Zeichen (Steuerzeichen). Sowohl diese Zeichen als auch die Kodierung von sprachabhängigen Sonderzeichen und nicht-lateinischen Schriften sind oft proprietär (hersteller-abhängig), gelten also nur für das betreffende Programm.
  2. Typographische Kodierung (Seitenbeschreibung): Eine solche Kodierung schreibt exakt vor, wo und wie jedes einzelne Zeichen auf dem Papeir gedruckt werden soll.
    Früher war PostScript das bekannteste typographische Format. Manche modernen Drucker können es direkt interpretieren; das heißt, dass man ihnen eine PostScript-Datei schicken kann, die sie direkt verstehen und ausdrucken.
    PostScript wird oft, vor allem auf UNIX-Rechnern, für die Datenübertragung zwischen Rechner und Druck eingesetzt: Wenn man aus einem Anwendungsprogramm einen Druckauftrag erzeugt, wird die zu druckende Datei in das Format PostScript umgewandelt und so an den Drucker geschickt.
    Inzwischen ist ein anderes typographisches Format, PDF, bekannter als PostScript; es ist derzeit vielleicht das bekannteste und wird sehr viel verwendet, da die Firma Adobe kostenlose Anzeigeprogramme für PDF verteilt. PDF ist im Wesentlichen eine Weiterentwicklung von PostScript und kann zum Beispiel farbige Bilder und auch Formulare kodieren.

8.1 Ekzemploj

8.1 Beispiele

lingvo speco ekzemplo klarigo Erklärung
Sprache Art Beispiel
PostScript tipografia kodado / typographisch
/Helvetica-bold findfont
18 scalefont
setfont
70.866 70.866 moveto
(Enkonduko) show
showpage
            
La ekzemplo uzas la tiparon "Helvetica" por grase skribi la vorton "Enkonduko" je distanco de 2,5 centimetroj (70,866 "punktoj") de la maldekstra kaj suba randoj. Ne estas informo, kial tiu vorto aperas grase. Das Beispiel benutzt die Schrifttype "Helvetica", um das Wort "Enkonduko" fett 2,5 Zentimeter (70,866 "Punkte") vom linken und unteren Rand entfernt zu schreiben. Es gibt keine Information darüber, warum das Wort fett gedruckt wird.
HTML markado / markierend
 <h2>Enkonduko</h2>
            
La ekzemplo indikas, ke la vorto "Enkonduko" estas sekcia titolo dua-nivela (titolo de sub-ĉapitro). Programo, kiu montras tiun tekston, eble decidas montri tiun vorton per grasa skribo. Sed la HTML-teksto ne preskribas tion; ĝi diras nur, ke temas pri titolo.
Pozicio ne estas donata. Ĝi rezultas el la pozicio de la antaŭa tekstoparto.
Das Beispiel gibt an, dass das Wort "Enkonduko" ein Abschnittstitel auf der zweiten Stufe (Überschrift eines Unterkapitels) ist. Ein Programm, das diesen Text anzeigt, entscheidet sich vielleicht, dieses Wort in Fettdruck anzuzeigen. Aber der HTML-Text schreibt das nicht vor; er sagt nur, dass es sich um einen Titel handelt.
Eine Druckposition wird nicht angegeben. Sie ergibt sich aus der Position des vorausgehenden Textteils.

Tiuj du ekzemploj povas aspekti simile: Ankaŭ la dua ekzemplo verŝajne aperigas la vorton "Enkonduko", kaj eble en grasa skribo. Sed la dua ekzemplo diras, kiun rolon havas la vorto "Enkonduko": Ĝi estas la titolo de sekcio aŭ ĉapitro en la teksto.

Diese beiden Beispiele können ähnlich aussehen: Auch das zweite Beispiel stellt wahrscheinlich das Wort "Enkonduko" dar, und vielleicht auch in Fettdruck. Aber das zweite Beispiel gibt an, welche Rolle das Wort "Enkonduko" hat: Es ist die Überschrift eines Abschnitts oder Kapitels im Text.

8.2 Avantaĝoj de la du sistemoj

8.2.1 Tipografia kodado

8.2 Vorteile der beiden Systeme

8.2.1 Typographische Kodierung

La avantaĝoj de tipografia kodado estas tre simplaj: Ĝi garantias certan aspekton de la teksto, kaj ne necesas koni la rolojn (funkciojn) de la tekstopartoj.

Difinita aspekto estas grava, se oni tre lerte aranĝis kombinon el tekstoj kaj bildoj, eble kun pluraj tekst-kolumnoj. Ĝi estas grava ankaŭ, se oni dissendas tekston al multaj personoj kaj volas esti certa, ke ĉiuj ricevas ekzakte la saman. Kaj ĝi estas esenca, se oni intencas presi la tekston sur papero de difinita formato, kie eble kelkaj tekstpartoj devas aperi en difinitaj lokoj (ekzemple la adreso de letero en fenestro de la koverto).

Se en malnovaj tekstoj la rolo de tekstopartoj ne estas konata, estas multkoste krei markan aranĝon. Tiam ofte eblas nur tipografia kodado, ekzemple per PDF. Tiun aspekton celis firmao Adobe per sia reklam-slogano "PDF – se vi volas laŭeble rapide rete publikigi viajn dokumentojn." Transformi ekzistantajn tekstojn al "inteligenta" HTML efektive estas pli kosta kaj pli longdaŭra ol transformi ilin al PDF.

Die Vorteile der typographischen Kodierung sind sehr einfach: Sie garantiert ein ganz bestimmtes Aussehen des Textes, und man braucht die Funktion der Textteile nicht zu kennen.

Ein bestimmtes Aussehen ist wichtig, wenn eine Kombination aus Text und Bildern geschickt arrangiert worden ist, vielleicht in mehreren Textspalten. Es ist auch dann wichtig, wenn man einen Text an viele Personen verschickt und sicher sein will, dass alle exakt dasselbe sehen. Und es ist von entscheidender Wichtigkeit, wenn man Text auf Papier in einem bestimmten Format drucken will, wo vielleicht manche Textteile an bestimmten Stellen erscheinen müssen (zum Beispiel die Adresse eines Briefes im Fenster eines Briefumschlages).

Wenn bei alten Texten die Funktionen der Textteile nicht bekannt sind, ist eine markierende Kodierung sehr aufwändig. Dann bleibt oft nur eine typographische Kodierung, zum Beispiel in PDF. Diesen Aspekt verfolgte die Firma Adobe mit ihrem Werbespruch "PDF – wenn Sie Ihre Dokumente so schnell wie möglich online publizieren wollen." Bestehende Texte in "intelligentes" HTML umzuwandeln ist tatsächlich teurer und zeitraubender, als sie in PDF umzuwandeln.

8.2.2 Markado

Markado donas la avantaĝojn de pli granda adaptebleco kaj pli preciza informo. Eblas, ke tri homoj legas la saman markitan tekston, kaj unu vidas siajn sekci-titolojn grasa, la dua kursiva kaj la tria substrekita. Blindulo, kiu laŭtlegigas al si la tekston, povas instrukcii, ke li aŭdu la vorton "ĉapitro" antaŭ ĉiu sekci-titolo, aŭ havu du-sekundan paŭzon.

8.2.2 Markierung

Markierung (Auszeichnung) hat den Vorteil, dass sie anpassungsfähiger ist und genauere Information gibt. Es kann sein, dass drei Menschen denselben Text lesen und der erste seine Kapitelüberschriften fett, der zweite kursiv und der dritte unterstrichen liest. Ein Blinder, der sich den Text vorlesen lässt, kann den Rechner anweisen, vor jedem Abschnittstitel das Wort "Kapitel" zu sagen oder eine Pause von zwei Sekunden einzufügen.

Sed markado subtenas ankaŭ la komputilan prilaboradon de teksto. Se ĉiu ĉapitro en teksto estas markita per <h1>, <h2> ktp., komputilo povas aŭtomate generi enhavo-liston kun la titoloj de ĉiuj ĉapitroj.

Markierung nützt aber auch bei der automatischen Verarbeitung eines Textes. Wenn jedes Kapitel eines Textes mit <h1>, <h2> usw. markiert ist, kann ein Rechner automatisch ein Inhaltsverzeichnis mit den Titeln aller Kapitel erzeugen.

Ĉar markitaj tekstoj ne scias pri paper-formatoj, ili estas adapteblaj al ajna formato. Tio povas esti avantaĝo, ĉar en la mondo ekzistas multaj paperformatoj, kaj almenaŭ du tre gravaj:

  • "Letter" en Usono (216 mm × 279 mm) kaj Kanado (215 mm × 280 mm)
  • "A4" (210 mm × 297 mm) en multaj aliaj landoj

Da markierte Texte nichts über Papierformate wissen, sind sie an jedes Format anpassbar. Das kann ein Vorteil sein, denn auf der Welt gibt es viele Papierformate, darunter zumindest zwei wichtige:

  • "Letter" in den USA (216 mm × 279 mm) und in Kanada (215 mm × 280 mm)
  • "A4" (210 mm × 297 mm) in vielen anderen Ländern
formato Letter estas pli larĝ kaj malpli alta ol A4

"Letter" (letero) estas iom pli larĝa ol A4, sed kiam oni presas sur A4-papero tekston, kiu estis aranĝita por "Letter", preskaŭ neniam io perdiĝas, ĉar la plej multaj tekstpaĝoj havas blankan randon. Inverse, kiam oni presas A4-aranĝitan tekston sur "Letter"-papero, povas okazi, ke perdiĝas ekzemple la paĝonumero sube de la paĝo. Sed markita teksto estas facile re-aranĝebla por iu ajn paper-formato.

La supra bildo komparas la du paper-formatojn. Pretere, iliaj mezuroj ekestis jene:

  • "Letter" mezuras en usonaj ("imperiaj") unuoj 8 colojn × 11,5 colojn. Unu colo estas 2,54 milimetroj.
  • Ĉiuj A-formatoj havas rilaton de 1:√2 inter larĝo kaj alto, tiel ili estas facile duonigeblaj. A0 mezuras precize unu kvadratan metron, A1 estas duono de A0, A2 estas duono de A1 kaj tiel plu.

"Letter" ist etwas breiter als A4, aber wenn man einen für Letter formatierten Text auf A4 druckt, geht fast nie etwas verloren, weil die meisten Texte einen weißen Rand haben. Wenn man dagegen Text, der für A4 formatiert ist, auf Letter-Papier druckt, kann es sein, dass unten zum Beispiel die Seitennummern verloren gehen. Markierter Text lässt sich dagegen leicht umformatieren und an ein anderes Papierformat anpassen.

Das Bild oben vergleicht die beiden Papierformate. Ihre Abmessungen entstanden ürigens folgendermaßen:

  • "Letter" misst in US-amerikanischen Einheiten 8 Zoll × 11½ Zoll. Ein Zoll = 2,54 cm.
  • Jedes A-Format hat ein Seitenverhältnis von 1:√2 zwischen Breite und Höhe, so dass man durch Halbierung das nächste A-Format erhält. A0 misst genau einen Quadratmeter, A1 ist die Hälfte von A0, A2 ist die Hälfte von A1 usw.

Specimenaj demandoj

  • Kio estas la diferenco inter "senaranĝa" kaj "aranĝita" tekstoj?
  • Kio estas la diferenco inter markado kaj tipografia kodado?
  • Kiu estas ekzemplo de tekst-markada lingvo?
  • Kiu estas ekzemplo de tipografia (paĝodeskripta) lingvo?
  • Kiu problemo povas ekesti, kiam oni presas ali-landan tekston sur papero?

Beispielfragen

  • Was ist der Unterschied zwischen einem "unformatierten" und einem "formatierten" Text?
  • Was ist der Unterschied zwischen markierender Kodierung und typographischer Kodierung?
  • Geben Sie ein Beispiel für eine markierende Sprache.
  • Geben Sie ein Beispiel für eine typographische Sprache (Seitenbeschreibungssprache).
  • Welches Problem kann entstehen, wenn man einen Text aus einem anderen Land auf Papier drucken will?