Mauvais codage : UTF-8 (du style 'accentuĂŠ') ? Recette pour s'en tirer

Archive Liste Typographie
Message : Mauvais codage : UTF-8 (du style 'accentuĂŠ') ? Recette pour s'en tirer
(Alain LaBonté) - Jeudi 31 Janvier 2002

Navigation par date [ Précédent Index Suivant ]
Navigation par sujet [ Précédent Index Suivant ]

Subject:	Mauvais codage : UTF-8 (du style 'accentuĂŠ') ? Recette pour s'en tirer
Date:	Wed, 30 Jan 2002 21:11:52 -0500
From:	Alain LaBonté <alb@xxxxxxxxxxx>

Pour ceux qui ne veulent que la recette pour convertir des textes en UTF-8(de plus en plus lus malheureusement non-décodés, des textes du style «europÃ©en » : sauter mes commentaires jusqu'à la ligne d'étoiles (****)...


A 02:00 2002-01-31 +0100, typographie-request@xxxxxxxx a écrit :

From: Thierry Bouche <thierry.bouche@xxxxxxxxxxxxxxx>
Subject: Re[2]: Mauvais codages et prononciation du a-tilde

Bonjour Jacques,

Le mercredi 30 janvier 2002 à 13:46:00, vous écriviez :
JA> Le problème est que d'autres maileurs recevant charset=utf-8 s'ymettent aussiJA> et les réponses sont à leur tour illisibles (cf. les messages de Jefil y a qq
JA> jours).

je ne comprends pas quel est le problème !

Ne pas pouvoir poster en UTF-8 dans une liste de discussion qui cause à
satiété d'unicode me semble absurde...

[Alain] Ne pas oublier les lecteurs du condensé appelé « Sommaire », pourqui l'UTF-8 restera bien in[digest]e puisque le serveur, quel que soit lecodage des messages individuels -- transmis sous forme brute -- indique :


>Content-Type: text/plain; charset=iso-8859-1
>Content-Disposition: inline
>Content-Transfer-Encoding: binary
>Content-Description: Sommaire
>MIME-Version: 1.0
>X-Mailer: MIME-tools 5.411 (Entity 5.404)

[Alain] Latin-9 (utilisé par certains dans ce forum, et c'est louable) estun moindre mal puisqu'il est lisible tel quel avec un lecteur Latin-1,bigotement « unilingue », sauf pour 8 caractères relativement peufréquents... Mais UTF-8 reste mal soutenu par bien des logiciels, etdemeure horrible dans beaucoup de cas où il est transmis de manière brute...

Quand tous les logiciels -- ou la plupart -- seront mis à niveau etcapables de faire les conversions appropriées entre différents codages quidevraient pouvoir coexister harmonieusement dans un monde idéal [quin'existera pas tant que la plupart des programmeurs seront unilinguesanglais ou des adeptes de l'anglais tous azimuts] -- ce sera le temps depasser à UTF-8... D'ici là, ce n'est pas encore réaliste pour beaucoup degens...


   *********************************************************************

Entre-temps un recette (un peu compliquée mais ça marche sansprogrammation, et si le texte est important, ça vous tirera relativementbien d'un mauvais pas) sous Windows et DOS pour convertir facilement entexte lisible à l'écran un fichier UTF=8 mal interprété comme du Latin-1 :


1) Copier le texte UTF-8 non-décodé dans le presse-papier.

2) Coller ce texte dans le bloc-notes de Windows. Le sauvegarder en
   le nommant TEMP1.TXT en prenant bien soin de dire à Windows que c'est
   un fichier codé en « ANSI » (fausse appellation, mais passons)...

3) Copier à demeure le fichier joint (que j'ai intitulé UTF8), qui ne
   comprend qu'un seul caractère (qui identifie à même un texte que tout
   ce qui suit est en UTF-8) dans le même dossier que le fichier
   TEMP1.TXT

4) Passer sous DOS (oui, hélas)... Effectuer la commande suivante, telle
   quelle sauf pour ce qui est entre crochets (pas d'espace excepté
   où j'en ai mis) :

   COPY [Dossier]UTF8+[Dossier]TEMP1.TXT [Dossier]TEMP2.TXT

    [Dossier] est le nom du dossier Windows (répertoire DOS)
     où vous avez placé les fichiers TEMP1.TXT et UTF8...

   (explication : ceci « concaténera » le fichier TEMP1.TXT après le
    caractère contenu dans le fichier UTF8 et placera le résultat dans
    un nouveau fichier, nommé TEMP2.TXT)

Repasser sous Windows et ouvrir le fichier TEMP2.TXT. Vous devriezpouvoir le lire en français à l'écran et le récupérer dans d'autreslogiciels... Windows détermine que le fichier est en UTF-8 à cause du 1ercaractère. Si vous tentez de sauvegarder ce fichier, vous allez noter quele codage a été reconnu par Windows automatiquement comme étant de l'UTF-8.Vous pouvez changer ce codage au moment de la sauvegarde.


   Une telle méthode transforme automatiquement le texte suivant :

« > OÃ¹ peut-on trouver un guide de prononciation des lettres accentuÃ©es
  > europÃ©ennesÂ ? »

   en

« > Où peut-on trouver un guide de prononciation des lettres accentuées
  > européennes ? »


Alain LaBonté
Québec

P.-s. : Merci à François Yergeau qui m'a indiqué comment Windows faisait ladifférence entre un fichier UTF-8 et ce qu'il croit autrement être du codeMS-1252 (appelé ANSI par Microsoft Windows). J'en ai déduit la recette queje vous livre... ce qui m'a évité de faire un programme...

ï»¿

Mauvais codage : UTF-8 (du style 'accentuĂŠ') ? Recette pour s'en tirer, Alain LaBonté <=

Re: Mauvais codage : UTF-8 (du style 'accentuÃ©') ? Recette pour s'en tirer, Jef Tombeur (31/01/2002)

Re[2]: Mauvais codage : UTF-8 (du style 'accentuÃ©') ? Recette pour s'en tirer, Pierre Duhem (31/01/2002)