Archive Liste Typographie
Message : Mauvais codage : UTF-8 (du style 'accentué') ? Recette pour s'en tirer

(Alain LaBonté) - Jeudi 31 Janvier 2002
Navigation par date [ Précédent    Index    Suivant ]
Navigation par sujet [ Précédent    Index    Suivant ]

Subject:    Mauvais codage : UTF-8 (du style 'accentué') ? Recette pour s'en tirer
Date:    Wed, 30 Jan 2002 21:11:52 -0500
From:    Alain LaBonté <alb@xxxxxxxxxxx>

Pour ceux qui ne veulent que la recette pour convertir des textes en UTF-8 (de plus en plus lus malheureusement non-décodés, des textes du style « européen » : sauter mes commentaires jusqu'à la ligne d'étoiles (****)...

A 02:00 2002-01-31 +0100, typographie-request@xxxxxxxx a écrit :
From: Thierry Bouche <thierry.bouche@xxxxxxxxxxxxxxx>
Subject: Re[2]: Mauvais codages et prononciation du a-tilde

Bonjour Jacques,

Le mercredi 30 janvier 2002 à 13:46:00, vous écriviez :

JA> Le problème est que d'autres maileurs recevant charset=utf-8 s'y mettent aussi JA> et les réponses sont à leur tour illisibles (cf. les messages de Jef il y a qq
JA> jours).

je ne comprends pas quel est le problème !

Ne pas pouvoir poster en UTF-8 dans une liste de discussion qui cause à
satiété d'unicode me semble absurde...


[Alain] Ne pas oublier les lecteurs du condensé appelé « Sommaire », pour qui l'UTF-8 restera bien in[digest]e puisque le serveur, quel que soit le codage des messages individuels -- transmis sous forme brute -- indique :

>Content-Type: text/plain; charset=iso-8859-1
>Content-Disposition: inline
>Content-Transfer-Encoding: binary
>Content-Description: Sommaire
>MIME-Version: 1.0
>X-Mailer: MIME-tools 5.411 (Entity 5.404)

[Alain] Latin-9 (utilisé par certains dans ce forum, et c'est louable) est un moindre mal puisqu'il est lisible tel quel avec un lecteur Latin-1, bigotement « unilingue », sauf pour 8 caractères relativement peu fréquents... Mais UTF-8 reste mal soutenu par bien des logiciels, et demeure horrible dans beaucoup de cas où il est transmis de manière brute...

Quand tous les logiciels -- ou la plupart -- seront mis à niveau et capables de faire les conversions appropriées entre différents codages qui devraient pouvoir coexister harmonieusement dans un monde idéal [qui n'existera pas tant que la plupart des programmeurs seront unilingues anglais ou des adeptes de l'anglais tous azimuts] -- ce sera le temps de passer à UTF-8... D'ici là, ce n'est pas encore réaliste pour beaucoup de gens...

   *********************************************************************

Entre-temps un recette (un peu compliquée mais ça marche sans programmation, et si le texte est important, ça vous tirera relativement bien d'un mauvais pas) sous Windows et DOS pour convertir facilement en texte lisible à l'écran un fichier UTF=8 mal interprété comme du Latin-1 :

1) Copier le texte UTF-8 non-décodé dans le presse-papier.

2) Coller ce texte dans le bloc-notes de Windows. Le sauvegarder en
   le nommant TEMP1.TXT en prenant bien soin de dire à Windows que c'est
   un fichier codé en « ANSI » (fausse appellation, mais passons)...

3) Copier à demeure le fichier joint (que j'ai intitulé UTF8), qui ne
   comprend qu'un seul caractère (qui identifie à même un texte que tout
   ce qui suit est en UTF-8) dans le même dossier que le fichier
   TEMP1.TXT

4) Passer sous DOS (oui, hélas)... Effectuer la commande suivante, telle
   quelle sauf pour ce qui est entre crochets (pas d'espace excepté
   où j'en ai mis) :

   COPY [Dossier]UTF8+[Dossier]TEMP1.TXT [Dossier]TEMP2.TXT

    [Dossier] est le nom du dossier Windows (répertoire DOS)
     où vous avez placé les fichiers TEMP1.TXT et UTF8...

   (explication : ceci « concaténera » le fichier TEMP1.TXT après le
    caractère contenu dans le fichier UTF8 et placera le résultat dans
    un nouveau fichier, nommé TEMP2.TXT)

Repasser sous Windows et ouvrir le fichier TEMP2.TXT. Vous devriez pouvoir le lire en français à l'écran et le récupérer dans d'autres logiciels... Windows détermine que le fichier est en UTF-8 à cause du 1er caractère. Si vous tentez de sauvegarder ce fichier, vous allez noter que le codage a été reconnu par Windows automatiquement comme étant de l'UTF-8. Vous pouvez changer ce codage au moment de la sauvegarde.

   Une telle méthode transforme automatiquement le texte suivant :

« > Où peut-on trouver un guide de prononciation des lettres accentuées
  > européennes ? »

   en

« > Où peut-on trouver un guide de prononciation des lettres accentuées
  > européennes ? »


Alain LaBonté
Québec

P.-s. : Merci à François Yergeau qui m'a indiqué comment Windows faisait la différence entre un fichier UTF-8 et ce qu'il croit autrement être du code MS-1252 (appelé ANSI par Microsoft Windows). J'en ai déduit la recette que je vous livre... ce qui m'a évité de faire un programme...