Δημοσιεύτηκε: 20 Μάιος 2011, 20:50
Να σας εξηγήσω γιατί μάλλον σας μπέρδεψα. Καταρχήν τα αρχεία αυτά είναι ένα corpus από documents τα οποία έχω κατεβασει απ το web, είναι δλδ σελίδες (στα ελληνικά, να συμπληρώσω, αν ακαι θα το έχετε ήδη καταλάβει). Για να κατεβάσω όλον αυτόν τον όγκο κειμένων (190.000*3) χρησιμοποίησα ένα πρόγραμμα γραμμένο σε java, το οποίο και μου δόθηκε έτοιμο. Το επόμενο βήμα είναι να "καθαρίσω" όλα αυτά τα αρχεία μετατρέποντάς τα όλα σε utf-8 και πετώντας ό,τι δεν έχει πληροφορία μέσα (κάποια urls δεν είναι πια διαθέσιμα). Όταν λοιπόν κοίταξα με το μάτι κάποια ενδεικτικά κείμενα που δεν είναι utf και δεν διαβάζονται, ανακάλυψα ότι παρόλα αυτά αναγνωρίζονται ως utf-8 ακόμα και κείμενα με φορμάτ iso... ή windows... Για να σας το δείξω μάλλον λίγο δύσκολο γιατί θα σας παρέθετα το url από το οποίο κατέβασα το κείμενο, το οποίο εσείς θα δείτε ότι δεν είναι στο format που θέλω, το utf-8. Επειδή λοιπόν κάτι έγινε και αφού τα κατέβασα όλα αυτά και τα έσωσα σε αρχεία, όταν πάω να τα διαβάσω, παρόλο που δεν είναι σε utf format, ο υπολογιστής θεωρεί ότι είναι μην μπορώντας να παρέμβω...
Μήπως καταλάβατε λίγο καλύτερα;
Μήπως καταλάβατε λίγο καλύτερα;