Archive Liste Typographie
Message : Classement alphabétique

(Alain LaBonté ) - Mardi 25 Janvier 2000
Navigation par date [ Précédent    Index    Suivant ]
Navigation par sujet [ Précédent    Index    Suivant ]

Subject:    Classement alphabétique
Date:    Mon, 24 Jan 2000 22:48:06 -0500
From:    Alain LaBonté  <alb@xxxxxxxxxxxxxx>

Comme Jean-Pierre Lacroux m'a fait remarquer sur langue-fr que l'on « jasait » classement et ALB sur la liste typo, me voici... je fais remarquer que je reçois les messages en format « digest » et en retard (j'ai reçu celui-ci après la semonce amicale de Jean-Pierre) et que je me fie sur les titres pour voir si je m'y plonge... car depuis octobre, j'en suis à 200 messages par jour, dont 100 professionnels et 100 autres de toute nature (et il y a beaucoup de « zones grises » -- il faut que je lise en diagonale pour le voir)... Je m'attend donc à votre indulgence, d'autant plus qu'aucun titre du « digest » ne parle de classement ni de tri.

Comble de malheur, mon PC a été en panne (problème mécanique, pas électronique) pendant deux heures aujourd'hui...

Mais vous ne devriez pas être déçus. Je ne recevrai les messages qui suivent que plus tard, comme je vous l'ai dit. Donc, svp m'envoyer une copie conforme directe si vous voulez que je réagisse plus rapidement.

À 02:00 2000-01-24 +0100, typographie-owner@xxxxxxxx a écrit:
Sommaire :

 1. Re: Lexique de l'I,N,
 2. Re: Lexique de l'I,N,
 3. Re: Composition des titres d'oeuvres
 4. Re: mea culpa et ortho-typo machin
 5. Re: Lexique de l'I,N,
 6. Re: Composition des titres d'oeuvres
 7. Re: Composition des titres d'oeuvres
 8. Re: Composition des titres d'oeuvres
 9. Re: Lexique de l'I,N,
 10. Re: Composition des titres d'oeuvres
11. Re: Composition des titres d'oeuvres
12. Re: Composition des titres d'oeuvres


Date: Sun, 23 Jan 2000 11:29:02 +0100
From: Lacroux <lacroux@xxxxxxxxx>
X-Mailer: Mozilla 4.5 [fr] (Macintosh; I; PPC)
X-Accept-Language: fr-FR,fr
Mime-Version: 1.0
To: typographie@xxxxxxxx
Subject: Re: Composition des titres d'oeuvres
References: <v01550101b4af7b8f9180@[195.3.18.197]>
    <3889ED7D.1C807E8C@xxxxxxxxx> <v04210101b4afed398860@[164.138.182.152]>
Content-Type: text/plain; charset=iso-8859-1;
    x-mac-type="54455854";
    x-mac-creator="4D4F5353"
Content-Transfer-Encoding: 8bit
Reply-To: typographie@xxxxxxxx
X-Loop: typographie@xxxxxxxx
X-Sequence: 1189
Precedence: list

Michel Bovani a écrit :

> Je préfère un système qui permette de décider sans ambiguïté de
> l'ordre de classement...

----
Moi aussi...
-------------------------------------------------

> Pas de quartier ?

----
Oc, oc, j'ai été un peu violent, mais tu aurais dû remarquer que j'avais pris la
précaution d'écrire ceci :
« Pas de quartier ! Après, ça se complique un peu, mais le gros est fait... »
... car, après, effectivement, se pose le problème des homographes et des
quasi-homographes... et bien d'autres encore*.
Il ne s'agit pas d'éliminer les espaces, les traits d'union et les apostrophes !
mais de ne pas en tenir compte dans un premier temps (ce qui n'est pas la
doctrine de Didier)... Ensuite, évidemment, tous ces signes sont discriminants
dans le classement des quasi-homographes (comme les diacritiques, bien entendu).

[ALB] Jean-Pierre a très bien saisi le principe. On ne tient compte d'abord que de l'alphabet, puis des signes diacritiques, puis de la casse, puis des signes spéciaux...

Auparavant, on peut préparer la chaîne à trier (renvoi de l'article à la fin de la rubrique et mise entre parenthèses, etc.) mais ce que l'on présente au tri sera trié sans analyse du contexte. Le traitement des caractères eux-mêmes (équivalences entre lettres, élimination dans un premier temps des signes spéciaux) n'est pas considéré comme quelque chose qui dépend du contexte.

   C'est le principe.

[JPL]
* Oui, il y a quantités d'autres critères, selon le « genre » du classement...
Par exemple, un Jean IV peut ici être placé avant un Jean III... alors
qu'ailleurs il le suivra...

Tiens... si ALB est dans les parages... Dans les algorithmes de classement, y
a-t-il des clés discriminantes pour tous les signes de ponctuation ? Supposons
deux titres :
La Barbe !
La Barbe ?

[ALB] C'est l'ordre exact des normes canadiennes CAN/CSA Z243.4.1 et CAN/CSA Z243.230. Voir en fin d'article pour l'ortdre des caractères spécuiaux, en cas de parfaite homographie aux étapes précédentes (on ne tient pas compte des caractères spéciaux pour le tri dit « culturel » -- ma méthode constitue l'état de l'art international en la matière -- mais en cas d'homographie, le reste étant absolument égal par ailleurs, là on en tient compte)...

Par contre, le poids des caractères est controversé à l'échelle internationale. La norme canadienne suit un ordre précis et indépendant de la valeur codée des caractères, basé sur une certaine classification par catégories que l'on a voulue le moins arbitraire possible. Mais compte tenu de la très grande quantité de caractères spéciaux présents et à venir dans le jeu universel de caractères (norme ISO/CEI 10646 et standard Unicode), le consortium Unicode s'est objecté à ce que l'on normalise un ordre international non arbitraire et le modèle (adaptable au besoin) attribue un poids arbitraire purement basé sur l'ordre numérique de la valeur codée du caractères dans le jeu universel de caractères. À noter toutefois qu'en vertu du projet de norme ISO/CEI 14651 (à ses derniers balbutiemesnts, espérons-le, avant publication comme norme internationale), il est permis (et même obligatoire) de déclarer un delta par rapport au modèle de table universelle proposé (parce que, même pour l'ordre alphabétique d'un même alphabet, il y a des variations nationales [ou plutôt linguistiques], et ce cas est normal).

[Didier Pemerle]
Même les traits d'union et les espaces ? Mais comment peux-tu espérer
(inutile pour cela d'entreprendre, dirait Orange) classer des mots si tu ne
tiens pas compte de ce qui les fait mots, les délimite comme mots ?

[Alain] Avant de soumettre une suite de rubriques au tri informatisé, si l'on s'attend à une analyse du contexte, on sera déçu, car il faut faire cette analyse a priori. Le tri ne fera pas les renvois en fin de ligne, les modifications complexes de chaînes de caractères, etc. Par contre, typiquement, dans un programme de tri digne de ce nom, le classement se fait par champs distincts dans des enregistrements structurés (nom à part, prénom à part, etc.), le tri s'effectuant sur chaque champ (le cas des mots est un cas particulier, il faut délimiter les mots d'avance).

Nonobstant ce que je viens de dire, la norme canadienne [et la norme internationale] prévoi[en]t -- purement pour des raisons pratiques même si ce n'est pas très catholique -- deux genres d'espaces -- l'un ignoré, l'espace normal, l'autre dont il est tenu compte comme s'il s'agissait de la première lettre de l'alphabet (on a choisi l'espace insécable pour ce faire). C'est le tri du pauvre quand on n'a pas les moyens de délimiter les champs de manière structurée, l'idéal étant de structurer les champs dans un enregistrement informatisé en bonne et due forme. À part ce cas, tous les caractères spéciaux sont ignorés, ce qui ramène le cas des espaces multiples à zéro (c'est un cas problème du tri par « mots »).

[Michel Bovani]
>On peut imaginer que l'on ait trois entrées (je sais que ça serait
>mieux avec de vrais exemples, mais t'as vu l'heure qu'il est !)
>
>Taratata (interjection)
>Tara-tata (inventeur du nippon-suki à la banane)
>Tara tata (comme « OMO lave plus blanc » ; la question est « (que) quoi ? »)
>
>Je préfère un système qui permette de décider sans ambiguïté de
>l'ordre de classement...

La norme canadienne (et la norme internationale, d'ailleurs -- car malgré l'ordre d'Unicode, l'ordre des caractères de la norme canadienne a été respectée dans le modèle autant que faire se pouvait) classe de manière non ambiguë et systématique ces trois rubriques dans l'ordre suivant ;
Taratata
Tara tata
Tara-tata

[Jean Fontaine]
Le document Web d'ALB (http://www.tresor.gouv.qc.ca/doc/classm.htm) n'en
parle pas, mais sa norme de classement couvre également tous les caractères
non alphanumériques (indices de 4e ordre, devant être adaptés pour chaque
langue). Il me corrigera si je me trompe, mais pour ce qui est des signes de
ponctuation, l'ordre par défaut serait :

(espace) - , ; : ! ? . ... ' « » ( ) [ ]

Si on ajoute d'autres signes de base (certains passeront peut-être mal) :

(espace) - , ; : ! ? / . ... ' " « » ( ) [ ] { } § ¶ © @ $ * \ & # % + < = >
| °

Par exemple, la norme classerait par défaut ainsi (ordre alphabétique
strict) :

8 et 1/2
clé
clebs
clédar
clé de contact
clé de fa
clé de l'énigme
Cléder
[...]

[Alain] Pour l'ordre des caractères spéciaux, voir en fin d'article. Ma référence web fait comme le consortium Unicode a décidé de faire cette année (ordre arbitraire basé sur le codage pour les caractères spéciaux -- problème : le codage peut varier d'un environnement à un autre), pas comme la norme canadienne, qui attribue un poids à ces caractères qui ne dépend pas du codage (c'est IBM qui a insisté, il y a de cela plus de 10 ans -- clause « grand-père » -- pour ma part, je suis d'accord avec eux, car il faut un ordre prévisible, mais j'aurais pu me contenter d'un classsement arbitraire mais unique des signes spéciaux -- le consortium Unicode a décidé de ne pas suivre IBM, mais l'histoire n'est pas finie de ce côté car IBM fait partie du consortium et est très influente -- quoiqu'il en soit la norme internationale permet un delta, pourvu qu'on le déclare).

En passant, Michael Everson (Everson Gunn Teoranta, Dublin) a produit un ordre pour tous les caractères spéciaux de la 10646-1:1993 (1ère édition, équivalent à Unicode 1.0) qui pourrait servir de delta), sur le même principe que la norme canadienne. Cet ordre dort sur une tablette virtuelle...

[Jean]
Pour ce qui est de l'espace vs le trait d'union, on voit que la norme
préfère cet ordre :

baseball
base ball
base-ball

[Alain]  Exact.

[Jean]
Pour les noms communs, je préfère personnellement l'ordre de soudure
croissante, qui est souvent l'ordre historique d'apparition des variantes :

base ball
base-ball
baseball

Mais cet ordre a aussi ses inconvénients.

[Alain] La norme canadienne permet de faire cela artificiellement en remplaçant l'espace par un espace insécable. Mais il y a aussi des inconvénients. Je n,entrerai pas dans les détails.

[Jean]
Bref, une norme de base commune et prévisible pour tous les caractères est
utile, mais il n'y a pas de solution unique pour toutes les situations le
classement. Tout dépend de sa destination (dico, lexique spécialisé, index,
annuaire, etc.). Chacune a ses besoins propres et demande certaines
adaptations.

[Alain] Ayant moi-même été le chantre de cette idée, la norme internationale ISO/CEI 14651, dont je suis rédacteur, oblige la déclaration d'un delta (qui peut être nul) pour qu'un tri soit déclaré comme lui étant conforme.

[Jean]
> Bref, une norme de base commune et prévisible pour tous les caractères est
> utile,

[JPL]
Oui, d'accord, absolument, tout à fait, oc, oc... et c'est pourquoi je râle
comme un putois quand on me balance des listes qui n'en ont pas tenu compte...
Alors que c'est si facile !

[Alain] Oui, en français, la norm'e canadienne est un très bon modèle. C'est un minimum qui dépasse tout ce qui se faire d'autre en qualité intuiitive pouer l'utilisateur lambda. je vous la propose comme standard.

[Jean]
> mais il n'y a pas de solution unique pour toutes les situations le
> classement. Tout dépend de sa destination (dico, lexique spécialisé, index,
> annuaire, etc.). Chacune a ses besoins propres et demande certaines
> adaptations.

[JPL]
Oui, d'accord, absolument, tout à fait, oc, oc... et c'est pourquoi tout
classement sérieux est au bout du compte manuel (disons... la couche de
finition..). Il reste suffisamment de boulot pour ne pas avoir à se farcir en
plus les erreurs dues à la méconnaissance de la « norme de base commune » !

[Alain]  J'abonde en ce sens.

Je vous reproduis un extrait qui relate l'ordre des caractères spéciaux de la norme canadienne (j'ai éliminé tout ce qui n'était pas reproduisible dans le latin 1 -- attention, sur Mac, certains caractères pourraient être mal reproduits, mais ça ne dépend que de certains logiciels de courriel qui ne font pas adéquatement leur travail dans cet environnement ... Ne faire attention qu'aux commentaires de fin de ligne. Il serait trop long de vous expliquer pour l'instant la syntaxe POSIX de la spécification.

#              Notes:
#               (1):   [*]: JGSUG de CAN/CSA Z243.4 / GPGSS of CAN/CSA Z243.4
#               (2):   Autres Uxxxx -> CSA T500 <- Other Uxxxx's
#
#SYMB.                                           # N<DG>  Expl.        Uxxxx[*]
#
<SP>            IGNORE;IGNORE;IGNORE;<SP>        # 0320 ESPACE/SPACE    0020
<_>             IGNORE;IGNORE;IGNORE;<_>         # 0330     _           005F
<'->            IGNORE;IGNORE;IGNORE;<'->        # 0340     ¯           00AF
<-->            IGNORE;IGNORE;IGNORE;<-->        # 0350     ­ (SHY)     00AD
<->             IGNORE;IGNORE;IGNORE;<->         # 0360     -           002D
<,>             IGNORE;IGNORE;IGNORE;<,>         # 0370     ,           002C
<;>             IGNORE;IGNORE;IGNORE;<;>         # 0380     ;           003B
<:>             IGNORE;IGNORE;IGNORE;<:>         # 0390     :           003A
<!>             IGNORE;IGNORE;IGNORE;<!>         # 0400     !           0021
<!I>            IGNORE;IGNORE;IGNORE;<!I>        # 0410     ¡           00A1
<?>             IGNORE;IGNORE;IGNORE;<?>         # 0420     ?           003F
<?I>            IGNORE;IGNORE;IGNORE;<?I>        # 0430     ¿           00BF
<//>            IGNORE;IGNORE;IGNORE;<//>        # 0440     /           002F
<.>             IGNORE;IGNORE;IGNORE;<.>         # 0450     .           002E
<.M>            IGNORE;IGNORE;IGNORE;<.M>        # 0510     ·           00B7
<',>            IGNORE;IGNORE;IGNORE;<',>        # 0520     ÷           00B8
<'>             IGNORE;IGNORE;IGNORE;<'>         # 0530     '           0027
<">             IGNORE;IGNORE;IGNORE;<">         # 0560     "           0022
<<<>            IGNORE;IGNORE;IGNORE;<<<>        # 0590     «           00AB
</>/>>          IGNORE;IGNORE;IGNORE;</>/>>      # 0600     »           00BB
<(>             IGNORE;IGNORE;IGNORE;<(>         # 0610   (             0028
<)>             IGNORE;IGNORE;IGNORE;<)>         # 0630   )             0029
<!(>            IGNORE;IGNORE;IGNORE;<!(>        # 0650   [             005B
<)!>            IGNORE;IGNORE;IGNORE;<)!>        # 0660   ]             005D
<<(>            IGNORE;IGNORE;IGNORE;<<(>        # 0670   {             007B
<)/>>           IGNORE;IGNORE;IGNORE;<)/>>       # 0680   }             007D
<So>            IGNORE;IGNORE;IGNORE;<So>        # 0690   §             00A7
<9I>            IGNORE;IGNORE;IGNORE;<9I>        # 0700   ¶             00B6
<OC>            IGNORE;IGNORE;IGNORE;<OC>        # 0710   ©             00A9
<OR>            IGNORE;IGNORE;IGNORE;<OR>        # 0720   ®             00AE
<Oa>            IGNORE;IGNORE;IGNORE;<Oa>        # 0730   @             0040
<Xo>            IGNORE;IGNORE;IGNORE;<Xo>        # 0740   ¤             00A4
<!C>            IGNORE;IGNORE;IGNORE;<!C>        # 0750   ¢             00A2
<!S>            IGNORE;IGNORE;IGNORE;<!S>        # 0760   $             0024
<L->            IGNORE;IGNORE;IGNORE;<L->        # 0770   £             00A3
<Y->            IGNORE;IGNORE;IGNORE;<Y->        # 0780   ¥             00A5
<*>             IGNORE;IGNORE;IGNORE;<*>         # 0790   *             002A
<////>          IGNORE;IGNORE;IGNORE;<////>      # 0800   \             005C
<&>             IGNORE;IGNORE;IGNORE;<&>         # 0810   &             0026
<H->            IGNORE;IGNORE;IGNORE;<H->        # 0820   #             0023
<%>             IGNORE;IGNORE;IGNORE;<%>         # 0830   %             0025
<+>             IGNORE;IGNORE;IGNORE;<+>         # 0850   +             002B
<+->            IGNORE;IGNORE;IGNORE;<+->        # 0870   ±             00B1
<''>            IGNORE;IGNORE;IGNORE;<0>         # 0460   ´             00B4
<'!>            IGNORE;IGNORE;IGNORE;<1>         # 0470   `             0060
<'/>>           IGNORE;IGNORE;IGNORE;<3>         # 0480   ^             005E
<':>            IGNORE;IGNORE;IGNORE;<6>         # 0490   ¨             00A8
<'?>            IGNORE;IGNORE;IGNORE;<8>         # 0500   ~             007E
<-:>            IGNORE;IGNORE;IGNORE;<a97>       # 0880   ÷             00F7
<*X>            IGNORE;IGNORE;IGNORE;<b98>       # 0890   ×             00D7
<<>             IGNORE;IGNORE;IGNORE;<d100>      # 0910   <             003C
<=>             IGNORE;IGNORE;IGNORE;<f102>      # 0930   =             003D
</>>            IGNORE;IGNORE;IGNORE;<h104>      # 0950   >             003E
<7!>            IGNORE;IGNORE;IGNORE;<i105>      # 0960   ¬             00AC
<!!>            IGNORE;IGNORE;IGNORE;<j106>      # 0970   |             007C
<!B>            IGNORE;IGNORE;IGNORE;<k107>      # 0980   ¦             00A6
<DG>            IGNORE;IGNORE;IGNORE;<l108>      # 0990   °             00B0
<My>            IGNORE;IGNORE;IGNORE;<m109>      # 1000   µ             00B5

[fin de liste]

Alain LaBonté
Québec