Δημοσιεύτηκε: 20 Μάιος 2011, 17:24
από simosx
mariag έγραψε:Γεια σας, μετά από καιρό! Καταρχάς ελπίζω να ποστάρω στη σωστή θεματική... Τι θέλω να κάνω λοιπόν: έχω κατεβάσει ένα corpus (κείμενα) από web (190.000) τα οποία θέλω όλα να τα μετατρέψω σε utf8 format αν ήδη δεν είναι... Η γλώσσα με την οποία παλεύω να το κάνω είναι η perl, στην οποία και θα ήθελα να παραμείνω. Μήπως έχετε καμιά ιδέα; Γενικά έχω ψάξει για ανάλογα προγραμματάκια, δεν είναι ότι δεν έχω βρει τίποτα, απλά δεν είμαι και γκουρού στον προγραμματισμό, οπότε όποια βοήθεια μπορεί κάποιος να μου προσφέρει είναι καλοδεχούμενη και πολύτιμη!


Για μετατροπή κωδικοποίησης, χρησιμοποιείς το iconv.

Για παράδειγμα
Κώδικας: Επιλογή όλων

iconv -f iso-8859-7 -t utf-8 < mycorpus.txt


και θα δείξει το αποτέλεσμα. Μπορείς να διακόψεις με Ctrl+C. Αν το αποτέλεσμα είναι σωστό, τότε η αρχική κωδικοποίηση ήταν iso-8859-7. Αν υπάρχει πρόβλημα με το Ά, τότε δοκιμάζεις

Κώδικας: Επιλογή όλων

iconv -f windows-1253 -t utf-8 < mycorpus.txt


Αν όλα είναι μια χαρά, μπορείς να αποθηκεύσεις το αποτέλεσμα με

Κώδικας: Επιλογή όλων

iconv -f windows-1253 -t utf-8 < mycorpus.txt > myutf8output.txt


και παράγει το αρχείο myutf8output.txt που είναι UTF-8.

Μπορείς ακόμα να δοκιμάσεις τον Κειμενογράφο (gedit), όπου έχει μια εύκολη επιλογή να επιλέξεις την αρχική κωδικοποίηση.
Οπότε δοκιμάζεις με windows-1253 ή iso-8859-7. Αν όλα είναι καλά, αποθηκεύεις.