Die Migration zum mehrsprachigen Unicode-Computing wirkt sich auf eine Reihe von Verfahren zum Importieren und Exportieren von Daten aus.
Die Dateisysteme FAT und VFAT werden in der Regel für Disketten, ZIP-Laufwerke und Wechseldatenträger unter Microsoft Windows verwendet. Der Systemadministrator muss die Einhängeoptionen codepage und iocharset für diese Dateisystemtypen konfigurieren. Bei einem Import von Daten aus einem Windows-System mit traditioneller chinesischer Sprachumgebung müssen die Einstellungen wie in der folgenden Tabelle gezeigt lauten, damit die Dateinamen in traditionellem Chinesisch korrekt angezeigt werden.
Einhängeoption |
Einstellung für traditionelles Chinesisch |
---|---|
codepage |
950 |
iocharset |
big5 |
Beispieleinträge in /etc/fstab für traditionelles Chinesisch lauten wie folgt:
/dev/fd0h1440 |
/media/fd0h1440 |
vfat noauto,iocharset=big5,codepage=950 |
/dev/sda1 |
/media/iee1394disk |
vfat noauto,iocharset=big5,codepage=950 |
Zum Einhängen eines entfernten, über CIFS freigegebenen Microsoft Windows-Dateisystems oder eines über SMB von einem anderen System exportierten Dateisystems muss der Systemadministrator die Mount-Optionen codepage und iocharset entsprechend konfigurieren. Wenn Sie z. B. vorhandene, unter Windows mit big5 in traditionellem Chinesisch codierte Dateien importieren, muss der Parameter iocharset auf big5 und der Parameter codepage auf 950 gesetzt werden, damit die Dateinamen in traditionellem Chinesisch korrekt angezeigt werden. Ein Beispiel für einen /etc/fstab-Eintrag sehen Sie hier:
server:/data /data smbfs iocharset=big5,codepage=950,username=foo,password=bar |
Java Desktop System kann über SMB auf ein entferntes Dateisystem auf einem UNIX- oder Linux -System zugreifen. Auf dem Server, auf dem der Export durchgeführt wird, muss Samba oder ein entsprechendes Programm laufen, damit das entfernte Dateisystem exportiert werden kann.. Auf dem Client kann eine Dateisystemcodierung angegeben werden, wenn die vorhandenen Daten in einer älteren Codierung gespeichert sind. Die Codesatzkonvertierung der Dateinamen erfolgt automatisch.
Microsoft Office
-Dateien sind in Unicode codiert. StarOffice
-Anwendungen können in Unicode codierte Dateien problemlos lesen und schreiben.
Mit HTML-Editoren wie Mozilla Composer
erstellte HTML-Dateien oder mit einem Webbrowser gespeicherte HTML-Dateien enthalten normalerweise ein charset-Tag. Sie können solche HTML-Dateien je nach Codierungs-Tag in der HTML-Datei mit dem Webbrowser Mozilla Navigator
anzeigen oder mit Mozilla Composer
bearbeiten.
Manche HTML-Dateien werden möglicherweise mit unverständlichen Zeichen angezeigt. Dies ist normalerweise auf folgende Ursachen zurückzuführen:
Das charset-Tag ist fehlerhaft.
Das charset-Tag fehlt.
Suchen Sie das charset-Tag in der HTML-Datei folgendermaßen:
Öffnen Sie die Datei mit Mozilla
.
Drücken Sie Strg + I oder klicken Sie auf Ansicht, um das Menü Ansicht aufzurufen.
Klicken Sie auf Seiteninfo.
Die charset-Informationen finden Sie unten auf der Registerkarte Allgemein. Beispiel: Content-Type text/html; charset=us-ascii
Wenn die Zeichenfolge charset=us-ascii nicht mit der tatsächlichen Codierung der Datei übereinstimmt, wird die Datei nicht richtig angezeigt. Gehen Sie wie folgt vor, um die Codierung der HTML-Datei zu bearbeiten:
Öffnen Sie die Datei mit Mozilla Composer
.
Öffnen Sie das Menü Datei.
Wählen Sie Als Zeichensatz speichern.
Wählen Sie die richtige Codierung. Mozilla Composer
konvertiert die Codierung und das charset-Tag automatisch.
E-Mails werden heutzutage mit dem MIME-Tag charset versehen. Die Mail-Anwendung von Java Desktop System, Evolution
, akzeptiert das MIME-Tag charset. Eine Konvertierung der Codierung ist also nicht erforderlich.
Nur-Text-Dateien enthalten kein charset-Tag. Wenn die Dateien nicht mit UTF-8 codiert wurden, ist eine Konvertierung der Codierung erforderlich. Führen Sie z. B. folgenden Befehl aus, um eine mit big5 in traditionellem Chinesisch codierte Nur-Text-Datei in UTF-8 zu konvertieren: iconv -f big5 -t UTF-8 inputfilename > outputfilename