plu re

Enkonduko en la aŭtomatan daten-prilaboradon

3 Kiel eblas kodi datenojn en prilabora sistemo?

3 Wie werden Daten zur Verarbeitung kodiert?

Informoj, kiujn prilaboru komputilo, ofte ne troviĝas en formo komputil-taŭga. Por komputila prilaboro necesas kodi datenojn, tio estas, transformi ili al komputil-taŭga formo. Tia formo nomiĝas ankaŭ reprezentaĵo de la datenoj.

La uzo de taŭga kodo (= kod-maniero) estas tre grava por la prilaborado kaj precipe por la interŝanĝo de datenoj. Du komputiloj aŭ komputil-sistemoj povas komuniki nur, se ili havas komunan kodon, kiun ambaŭ komprenas.

Necesas klare distingi inter la nocioj "kodi" kaj "ĉifri". Ĉifrado havas la celon kaŝi (sekretigi) informojn. Kodado estas nur transformado al taŭga reprezento-maniero.

Informationen, die ein Rechner verarbeiten soll, liegen oft nicht in rechner-tauglicher Form vor. Zur Verarbeitung im Rechner müssen Daten kodiert, das heißt in eine rechner-taugliche Form umgewandelt werden. Eine solche Form heißt auch Darstellung der Daten.

Die Verwendung eines geeigneten Kodes (einer Kodierung) ist sehr wichtig für die Verarbeitung und vor allem für den Austausch von Daten. Zwei Rechner oder Rechner-Systeme können nur dann kommunizieren, wenn sie einen gemeinsamen Kode besitzen, den beide verstehen.

Wir müssen genau unterscheiden zwischen den Begriffen "kodieren" und "chiffrieren" (= verschlüsseln). Chiffrierung hat das Ziel, Informationen zu verbergen (geheim zu halten). Kodierung ist nur die Umwandlung in eine geeignete Darstellungsform.

3.1 Manieroj de kodado

Kodado de informoj ekzistas ankaŭ ekster komputiloj. Ĝenerale oni distingas inter du bazaj manieroj de kodado:

3.1 Arten der Kodierung

Kodierung von Informationen gibt es auch außerhalb von Rechnern. Im Allgemeinen unterscheidet man zwei grundlegende Arten der Kodierung:

  1. Analoga kodado
    Fizika grando sensalte (kontinue) ŝanĝiĝas proporcie al la reprezentata grando.
    Ekzemploj :
    • aŭtomobila rapidometro kun cirkla skalo kaj montrilo: ju pli rapide la aŭto veturas, des pli la montrilo foriras de la 0-pozicio.
    • klasika sonbendo: magneteco
    • telefono (ankoraŭ parte; la analogan telefonon pli kaj pli anstataŭas la cifereca ISDN-sistemo): elektraj tensio kaj kurento
    • televidilo (ankoraŭ parte, ekzistas cifereca televido): la elektron-radio frapanta la vandon de la katodradia tubo estas kontinue modulata de la krada tensio; ankaŭ la transsendo de la sendilo al la ricevilo estas analoga (frekvenc-variado de elektromagnetaj ondoj).
    • analoga horloĝo: angulo al la "norda" direkto
  2. Cifereca kodado (foje nomata "diĝita" kodado)
    Ekzistas aro da signoj, konsistanta el finia nombro da signoj, per kiuj eblas unike reprezenti la informon. La signoj estas skribataj unu post la alia sur difinitajn poziciojn. La ordo de la signoj estas grava.
    Ekzemploj:
    • cifereca horloĝo (signaro: la ciferoj 0 ĝis 9)
    • senstruktura teksto (signaro: majuskloj, minuskloj, ciferoj, interpunkcioj, spaceto)
    • morsa alfabeto (signaro: punkto, streko, spaco)
  1. Analoge Kodierung
    Eine physikalische Größe verändert sich ohne Sprünge (stetig, kontinuierlich) proportional zur dargestellten Größe. Beispiele:
    • Auto-Tachometer mit kreisförmiger Skala und Zeiger; je schneller das Auto fährt, desto weiter entfernt sich der Zeiger von der Nullstellung.
    • Klassisches Tonband: Magnetisierung.
    • Telefon (noch teilweise; die analoge Telefonie wird nach und nach durch das digitale ISDN-System und andere Systeme ersetzt): elektrische Spannung, elektrischer Strom.
    • Fernsehen (noch teilweise; es gibt auch digitales Fernsehen): der Elektronenstrahl, der das Innere der Kathodenstrahlröhre trifft, wird stetig von einer Gitterspannung moduliert; auch die Übertragung vom Sender zum Empfänger ist analog (Variierung der Frequenz elektromagnetischer Wellen).
    • analoge Uhr: Winkel der Zeiger zur "Nord"-Richtung.
    • Quecksilber- oder Alkohol-Thermometer: Die Länge der Flüssigkeitssäule wächst mit steigender Temperatur.
  2. Digitale Kodierung
    Bei digitaler Kodierung gibt es eine Zeichenmenge, die aus einer endlichen Anzahl von Zeichen besteht, mit denen man die Information eindeutig darstellen kann. Die Zeichen werden nacheinander an verschiedene Positionen geschrieben. Die Reihenfolge der Zeichen ist von Bedeutung. Beispiele:
    • Digital-Uhr, Digital-Thermometer (Zeichensatz: die Ziffern von 0 bis 9)
    • unstrukturierter Text (Zeichensatz: Groß- und Kleinbuchstaben, Ziffern, Satzzeichen, Zwischenraum)
    • Morse-Alphabet (Zeichensatz: Punkt, Strich, Zwischenraum)

Kiel montras la ekzemploj, eblas kodi la samajn valorojn analoge aŭ ciferece. Unuavide la cifereca kodado havas malavantaĝon: Ĝia precizeco estas strikte limigita. Se oni ekzemple havas ciferecan horloĝon kun kvar ciferoj (du por la horoj, du por la minutoj), tute ne eblas distingi la sekundojn, sed sur analoga horloĝo sen sekunda montrilo tamen eblas distingi duonajn, eble eĉ trionajn minutojn. La precizeco de analoga reprezentaĵo dependas de la mezura precizeco ĉe la legado.

Sed cifereca kodado havas la grandan avantaĝon, ke ĝi legado ne bezonas precizan mezuradon (kiu ofte estas tre kosta). Se ekzemple la minuta montrilo de analoga horloĝo estas kurbigita, la horloĝo montras malĝustan tempon. Se unu ciferon de cifereca horloĝo oni iom ŝanĝas, la tempo estas tamen tute precize legebla. Oni diras, ke ĉe cifereca kodado eblas korekti erarojn.

Jena ekzemplo montras, ke ŝanĝo en analoga reprezento perdigas precizecon: Se la montrilo iom kurbiĝas, ĝi montras al alia valoro (24 anstataŭ 23).

Wie die Beispiele zeigen, lassen sich dieselben Werte analog oder digital kodieren. Auf den ersten Blick hat die digitale Kodierung einen Nachteil: Ihre Genauigkeit ist streng begrenzt. Zum Beispiel kann man auf einer Digitaluhr mit vier Ziffern (zwei für die Stunden, zwei für die Minuten) die Sekunden überhaupt nicht ablesen; auf einer Analoguhr ohne Sekundenzeiger dagegen kann man dennoch halbe Minuten, vielleicht sogar Drittelminuten, unterscheiden. Die Genauigkeit der analogen Darstellung hängt von der Messgenauigkeit beim Ablesen ab.

Die digitale Kodierung hat aber den großen Vorteil, dass sie beim Ablesen keine präzise Messung (die teuer sein kann) erfordert. Wenn zum Beispiel der Minutenzeiger einer Analoguhr verbogen ist, zeigt die Uhr die falsche Zeit an. Wenn man eine Ziffer einer Digitaluhr etwas verändert, lässt sich die Zeit trotzdem ganz genau ablesen. Man sagt, die digitale Kodierung erlaubt eine Fehlerkorrektur.

Das folgende Beispiel zeigt, dass man durch eine Veränderung einer analogen Darstellung Genauigkeit verliert: Wenn sich der Zeiger etwas verbiegt, zeigt er auf einen anderen Wert (24 statt 23).

ŝanĝo en analoga valoro perdigas precizecon

Kontraŭe, malgranda ŝanĝo en cifereca valoro estas korektebla: Se ciferoj iom kurbiĝas, ili tamen estas bone rekoneblaj.

Dagegen ist eine kleine Änderung an einem digitalen Wert korrigierbar: Wenn man die Ziffern etwas verbiegt, sind sie dennoch gut erkennbar.

ŝanĝo en cifereca valoro estas korektebla

Tiu avantaĝo estas tre bone montrebla ĉe la kopiado de muziko: Se tradician muzik-kasedon (magnetbendan kasedon) oni cent-foje kopias de unu kasedo al alia, la kvalito de la muziko konsiderinde malboniĝas. Se oni centfoje kopias de unu kodisko (kompakta disko, CD) al alia, la kvalito restas senŝanĝa.

La kontinueco de analoga kodado signifas, ke la kodoj de similaj valoroj estas similaj, ekzemple la kodo de la mezumo de du valoroj estas inter la du kodoj. Por analoga horloĝo tio signifas, ke ekzemple je la oka horo la mallonga montrilo estas inter la pozicioj por la 7-a horo kaj la 9-a horo. Kontraŭe ĉe cifereca kodado la kodoj de similaj valoroj povas esti tute malsamaj: Kvankam la cifero "1" iom similas al la cifero "7", sed ĝia valoro tute ne estas proksima al ĝi. Same la nombroj "9999" kaj "9099" aspektas pli similaj ol "9999" kaj "10000", sed la diferenco de la unua paro estas 900, tiu de la dua nur 1.

Dieser Vorteil zeigt sich sehr deutlich, wenn man Musikaufnahmen kopiert: Kopiert man eine herkömmliche Musik-Kassette (Magnetband) hundertmal von einer Kassette auf eine andere, so verschlechtert sich die Qualität der Musik beträchtlich. Kopiert man hundertmal von einer Kompaktplatte (CD) auf eine andere, so bleibt die Qualität unverändert.

Die Stetigkeit der analogen Kodierung bedeutet, dass die Kodes ähnlicher Werte ähnlich sind, zum Beispiel liegt der Kode des Mittelwertes zweier Werte zwischen den beiden Kodes. Am Beispiel der Analoguhr bedeutet das, dass sich um 8 Uhr der kleine Zeiger zwischen den Stellungen für 7 Uhr und 9 Uhr befindet. Dagegen können bei digitaler Kodierung ähnliche Werte ganz unterschiedliche Kodes haben: Obwohl die Ziffer "1" der Ziffer "7" etwas ähnlich ist, sind ihre Werte ganz verschieden. Ebenso sehen sich die Zahlen "9999" und "9099" ähnlicher als die Zahlen "9999" und "10000", aber die Differenz des ersten Paares beträgt 900, die des zweiten nur 1.

3.2 Duuma (binara) kodado

La nunaj komputilo ĉiuj storas informojn en cifereca formo. (Antaŭ kelkaj jardekoj ankoraŭ ekzistis analogaj kaj hibridaj komputiloj, ĉi-lastaj kun analogaj kaj ciferecaj partoj.) Ili preskaŭ ekskluzive uzas signaron el du signoj, nomataj plej ofte 0 kaj 1 – temas do pri duuma (binara) alfabeto. (Alfabeto estas ordigita signaro; oni ordigas tiel, ke "1 > 0".) En maloftaj okazoj oni uzas triuman (tri-signan) alfabeton, ekzemple ĉe la informtranssendo per ISDN.

Binara informaci-unuo, povanta preni valoron de 0 aŭ 1, nomiĝas bito. (La vorto estas akronimo el la angla "binary digit", krome ĝi memorigas pri la angla "a bit" = malmulte, iom.) Multaj komputiloj grupigas po 8 bitojn al bajtobitoko.

La kapaciton de komputilaj memoroj oni indikas per

3.2 Binäre Kodierung (Zweiersystem)

Alle heutigen Rechner speichern ihre Informationen in digitaler Form. (Vor einigen Jahrzehnten gab es noch Analog- und Hybridrechner, letztere bestanden aus analogen und digitalen Teilen.) Sie benutzen fast ausschließlich einen Zeichensatz aus zwei Zeichen, die meist mit 0 und 1 bezeichnet werden – es liegt also ein binäres Alphabet vor. (Ein Alphabet ist eine geordnete Zeichenmenge; man ordnet hier so, dass "1 > 0" gilt.) In seltenen Fällen benutzt man ein ternäres Alphabet (aus drei Zeichen), zum Beispiel bei der Datenübertragung mittels ISDN.

Eine binäre Informations-Einheit, die einen Wert von 0 oder 1 annehmen kann, heißt Bit. Das Wort ist ein Kurzwort aus dem englischen "binay digit", außerdem erinnert es an das englische "a bit" = etwas, ein bisschen. Viele Rechner gruppieren je 8 Bits zu einem Byte oder Oktett.

Die Kapazität von Rechnerspeichern wird angegeben in:

KB, kilobajtoj, Kilobyte 210 = 1.024 ~ 10 3 mil tausend
MB, megabajtoj, Megabyte 220 = 1.048.576 ~ 10 6 miliono Million
GB, gigabajtoj, Gigabyte 230 = 1.073.741.824 ~ 10 9 miliardo Milliarde
TB, terabajtoj, Terabyte 240 = 1.099.511.627.776 ~ 10 12 biliono, duiliono Billion
PB, petabajtoj, Petabyte 250 = 1.125.899.906.842.624 ~ 10 15 biliardo, duiliardo Billiarde

Atentu ke la "K" de "KB" estas majuskla por distingi ĝin de "k", kiu signifas precize "1000". Ĉe la pli altaj faktoroj tiu distingo kutime mankas; por esti tute preciza oni anstataŭigas la duan parton de la dekuma prefikso per "bi", dirante "kibibajto", "mebibajto" ktp. Skribe oni esprimas tiun diferencon per minuskla "i": "KiB", "MiB", "GiB" usw. Sed tiu diferenco estas malmulte aplikata.

Dum la 1960-aj jaroj la tiamaj komputilegoj havis centran memoron de kelke da KB; nuntempe jam mezumaj personaj komputiloj (PK) posedas centran memoron de pluraj cent MB aŭ eĉ kelkaj GB. Ĉirkaŭ la jaro 1990 la inform-kvanto de tera-bajto estis preskaŭ neimagebla; nun ĝi estas kodebla en iom pli ol cent DVD-diskoj, teneblaj en ne tro granda skatolo.

De la komencaj tempoj de maŝina komputado ĝis la 80-aj jaroj trubendoj kaj trukartoj servis por enigi kaj stori datenojn. Sur ili la reprezento de informoj per bitoj estas senpere videbla: Estas diskretaj pozicioj, kiuj povas esti truitaj (bito = 1) aŭ sentruaj (bito = 0). La bitoj de unu kolumno (12 ĉe trukarto, 5 aŭ 8 ĉe trubendo) kodas po unu signon; ĉe trukarto la signo ofte estas presita supre en legebla formo. Tiu teksto estas destinita nur por homoj; por la komputilo ĝi estas sensignifa.

La evoluon de la memor-tekniko ilustras jena kalkulo: Klasika trukarto povis memori 80 signojn, moderna kompakt-disko ĉ 700.000.000 signojn. Por unu disko oni do bezonus plurajn milionojn da kartoj; ĉar tia karto kostis proksimume 1 €-cendon, la kostoj estus dekoj da miloj da eŭroj. (Kompreneble oni neniam uzis trukartojn por tiom granda inform-kvanto, ĉar jam en la trukarta epoko ekzistis magnet-bendoj.)

Es ist zu beachten, dass das "K" von "KB" ein großes "K" ist; es unterscheidet sich vom kleinen "k", das genau 1000 bedeutet. Bei den größeren Faktoren fehlt diese Unterscheidung gewöhnlich; will man genau sein, so ersetzt man die zweite Silbe des Dezimal-Präfixes durch "bi" und sagt also "Kibibyte", "Mebibyte" usw. Schriftlich drückt man diesen Unterschied durch ein kleines "i" aus: "KiB", "MiB", "GiB" usw. Diese Unterscheidung wird aber nur selten gemacht.

In den 1960-er Jahren hatten Rechner einen Arbeitsspeicher von einigen KB; jetzt besitzen bereits moderne PCs einen Arbeitsspeicher von mehreren 100 MB oder sogar einigen GB. Um das Jahr 1990 war die Informationsmenge von 1 TB fast unvorstellbar; jetzt lässt sie sich auf etwas mehr als 100 DVDs kodieren, die in eine mittelgroße Schachtel passen.

In den Anfangszeiten der maschinellen Datenverarbeitung dienten, bis in die 1980-er Jahre, Lochstreifen und Lochkarten zur Dateneingabe und -speicherung. Auf ihnen ist die Informationsdarstellung durch Bits unmittelbar zu sehen: Es gibt diskrete Positionen, die gelocht (1-Bit) oder ungelocht (0-Bit) sein können. Die Bits einer Spalte (12 bei der Lochkarte, 5 oder 8 beim Lochstreifen) kodieren jeweils ein Zeichen; bei der Lochkarte wurde das Zeichen oft zusätzlich an die Oberkante gedruckt. Dieser Text war nur für Menschen bestimmt und für den Rechner ohne Bedeutung.

Die Entwicklung der Speichertechnik lässt sich durch folgende Rechnung veranschaulichen: Eine klassische Lochkarte konnte 80 Zeichen speichern, eine moderne CD ca. 700.000.000 Zeichen. Für eine CD bräuchte man also mehrere Millionen Karten; da eine Karte etwa einen Euro-Cent kostete, wären die Kosten Zehntausende Euro. (Natürlich wurden nie Lochkarten für solche Informationsmengen benutzt, da es bereits zur Lochkartenzeit Magnetbänder gab.)


Specimenaj demandoj

  • Kio estas analoga kodado de datenoj?
  • Kio estas cifereca kodado de datenoj?
  • Ĉu personaj komputiloj uzas analogan aŭ ciferecan kodadon?
  • Per kiuj unuoj oni mezuras ciferecan memor-kapaciton?
  • Kiom da bajtoj (proksimume) estas unu KB?
  • Kiom da bajtoj (proksimume) estas unu MB?
  • Kiom da bajtoj (proksimume) estas unu GB?

Beispielfragen

  • Was ist analoge Datenkodierung
  • Was ist digitale Datenkodierung
  • Benutzen PCs analoge oder digitale Datenkodierung?
  • In welchen Einheiten misst man die Kapazität digitaler Speicher?
  • Wie viele Bytes sind (ungefähr) ein KB?
  • Wie viele Bytes sind (ungefähr) ein MB?
  • Wie viele Bytes sind (ungefähr) ein GB?