Die Migration zum mehrsprachigen Unicode-Computing wirkt sich auf eine Reihe von Verfahren zum Importieren und Exportieren von Daten aus.
Der Systemadministrator muss die Mount-Optionen codepage und iocharset für das Dateisystem FAT bzw. VFAT konfigurieren. Diese Dateisysteme werden normalerweise für Diskettenlaufwerke, Zip-Laufwerke und Wechselfestplatten unter Microsoft Windows verwendet. Bei einem Import von Daten aus einem Windows-System mit traditioneller chinesischer Sprachumgebung müssen die Einstellungen wie in der folgenden Tabelle gezeigt lauten, damit die Dateinamen in traditionellem Chinesisch korrekt angezeigt werden.
Mount-Option |
Einstellung für traditionelles Chinesisch |
---|---|
codepage |
950 |
iocharset |
big5 |
Beispieleinträge in /etc/fstab für traditionelles Chinesisch lauten wie folgt:
/dev/fd0h1440 |
/media/fd0h1440 |
vfat noauto,iocharset=big5,codepage=950 |
/dev/sda1 |
/media/iee1394disk |
vfat noauto,iocharset=big5,codepage=950 |
Zum Einhängen eines entfernten, über CIFS freigegebenen Microsoft Windows-Dateisystems oder eines über SMB von einem anderen System exportierten Dateisystems muss der Systemadministrator die Mount-Optionen codepage und iocharset entsprechend konfigurieren. Wenn Sie z. B. vorhandene, unter Windows mit big5 in traditionellem Chinesisch codierte Dateien importieren, muss der Parameter iocharset auf big5 und der Parameter codepage auf 950 gesetzt werden, damit die Dateinamen in traditionellem Chinesisch korrekt angezeigt werden. Ein Beispiel für einen /etc/fstab-Eintrag sehen Sie hier:
server:/data /data smbfs iocharset=big5,codepage=950,username=foo,password=bar |
Java Enterprise System
kann über SMB auf ein entferntes Dateisystem auf einem UNIX- bzw. Linux-System zugreifen. Auf dem Server, auf dem der Export durchgeführt wird, muss Samba oder ein entsprechendes Programm laufen, damit das entfernte Dateisystem exportiert werden kann. Auf dem Client kann eine Dateisystemcodierung angegeben werden, wenn die vorhandenen Daten in einer älteren Codierung gespeichert sind. Die Codesatzkonvertierung der Dateinamen erfolgt automatisch.
Microsoft Office
-Dateien sind in Unicode codiert. StarOffice
-Anwendungen können in Unicode codierte Dateien problemlos lesen und schreiben.
Mit HTML-Editoren wie Mozilla Composer
erstellte HTML-Dateien oder mit einem Webbrowser gespeicherte HTML-Dateien enthalten normalerweise ein charset-Tag. Nach dem Export bzw. Import können Sie solche HTML-Dateien mit dem Webbrowser Mozilla Navigator
anzeigen oder mit Mozilla Composer
bearbeiten, je nach Charset-Tag in der HTML-Datei.
Manche HTML-Dateien werden möglicherweise mit unverständlichen Zeichen angezeigt. Dies ist normalerweise auf folgende Ursachen zurückzuführen:
Das charset-Tag ist fehlerhaft.
Das charset-Tag fehlt.
Suchen Sie das charset-Tag in der HTML-Datei folgendermaßen:
Öffnen Sie die Datei mit Mozilla
.
Drücken Sie Strg + I oder klicken Sie auf Ansicht, um das Menü Ansicht aufzurufen.
Klicken Sie auf Seiteninfo.
Die charset-Informationen finden Sie unten auf der Registerkarte Allgemein. Beispiel: Content-Type text/html; charset=us-ascii
Wenn die Zeichenfolge charset=us-ascii nicht mit der tatsächlichen Codierung der Datei übereinstimmt, wird die Datei nicht richtig angezeigt. Gehen Sie wie folgt vor, um die Codierung der HTML-Datei zu bearbeiten:
Öffnen Sie die Datei mit Mozilla Composer
.
Öffnen Sie das Menü Datei.
Wählen Sie Als Zeichensatz speichern.
Wählen Sie die richtige Codierung. Mozilla Compose
konvertiert die Codierung und das charset-Tag automatisch.
E-Mails werden heutzutage mit dem MIME-Tag charset versehen. Die Mail-Anwendung von Java Desktop System
, Evolution
, akzeptiert das MIME-Tag charset. Eine Konvertierung der Codierung ist also nicht erforderlich.
Nur-Text-Dateien enthalten kein charset-Tag. Wenn die Dateien nicht mit UTF-8 codiert wurden, ist eine Konvertierung der Codierung erforderlich. Führen Sie z. B. folgenden Befehl aus, um eine mit big5 in traditionellem Chinesisch codierte Nur-Text-Datei in UTF-8 zu konvertieren: iconv -f big5 -t UTF-8 Eingabedateiname > Ausgabedateiname