Classement alphabétique

Archive Liste Typographie
Message : Classement alphabétique
(Alain LaBonté ) - Mardi 25 Janvier 2000

Navigation par date [ Précédent Index Suivant ]
Navigation par sujet [ Précédent Index Suivant ]

Subject:	Classement alphabétique
Date:	Mon, 24 Jan 2000 22:48:06 -0500
From:	Alain LaBonté <alb@xxxxxxxxxxxxxx>

Comme Jean-Pierre Lacroux m'a fait remarquer sur langue-fr que l'on «jasait » classement et ALB sur la liste typo, me voici... je fais remarquerque je reçois les messages en format « digest » et en retard (j'ai reçucelui-ci après la semonce amicale de Jean-Pierre) et que je me fie sur lestitres pour voir si je m'y plonge... car depuis octobre, j'en suis à 200messages par jour, dont 100 professionnels et 100 autres de toute nature(et il y a beaucoup de « zones grises » -- il faut que je lise en diagonalepour le voir)... Je m'attend donc à votre indulgence, d'autant plusqu'aucun titre du « digest » ne parle de classement ni de tri.

Comble de malheur, mon PC a été en panne (problème mécanique, pasélectronique) pendant deux heures aujourd'hui...

Mais vous ne devriez pas être déçus. Je ne recevrai les messages quisuivent que plus tard, comme je vous l'ai dit. Donc, svp m'envoyer unecopie conforme directe si vous voulez que je réagisse plus rapidement.


À 02:00 2000-01-24 +0100, typographie-owner@xxxxxxxx a écrit:

Sommaire :

 1. Re: Lexique de l'I,N,
 2. Re: Lexique de l'I,N,
 3. Re: Composition des titres d'oeuvres
 4. Re: mea culpa et ortho-typo machin
 5. Re: Lexique de l'I,N,
 6. Re: Composition des titres d'oeuvres
 7. Re: Composition des titres d'oeuvres
 8. Re: Composition des titres d'oeuvres
 9. Re: Lexique de l'I,N,
 10. Re: Composition des titres d'oeuvres
11. Re: Composition des titres d'oeuvres
12. Re: Composition des titres d'oeuvres

Date: Sun, 23 Jan 2000 11:29:02 +0100
From: Lacroux <lacroux@xxxxxxxxx>
X-Mailer: Mozilla 4.5 [fr] (Macintosh; I; PPC)
X-Accept-Language: fr-FR,fr
Mime-Version: 1.0
To: typographie@xxxxxxxx
Subject: Re: Composition des titres d'oeuvres
References: <v01550101b4af7b8f9180@[195.3.18.197]>
    <3889ED7D.1C807E8C@xxxxxxxxx> <v04210101b4afed398860@[164.138.182.152]>
Content-Type: text/plain; charset=iso-8859-1;
    x-mac-type="54455854";
    x-mac-creator="4D4F5353"
Content-Transfer-Encoding: 8bit
Reply-To: typographie@xxxxxxxx
X-Loop: typographie@xxxxxxxx
X-Sequence: 1189
Precedence: list

Michel Bovani a écrit :

> Je préfère un système qui permette de décider sans ambiguïté de
> l'ordre de classement...

----
Moi aussi...
-------------------------------------------------

> Pas de quartier ?

----

Oc, oc, j'ai été un peu violent, mais tu aurais dû remarquer que j'avaispris la

précaution d'écrire ceci :

« Pas de quartier ! Après, ça se complique un peu, mais le gros estfait... »

... car, après, effectivement, se pose le problème des homographes et des
quasi-homographes... et bien d'autres encore*.

Il ne s'agit pas d'éliminer les espaces, les traits d'union et lesapostrophes !

mais de ne pas en tenir compte dans un premier temps (ce qui n'est pas la
doctrine de Didier)... Ensuite, évidemment, tous ces signes sont discriminants

dans le classement des quasi-homographes (comme les diacritiques, bienentendu).

[ALB] Jean-Pierre a très bien saisi le principe. On ne tient compted'abord que de l'alphabet, puis des signes diacritiques, puis de la casse,puis des signes spéciaux...

Auparavant, on peut préparer la chaîne à trier (renvoi de l'article àla fin de la rubrique et mise entre parenthèses, etc.) mais ce que l'onprésente au tri sera trié sans analyse du contexte. Le traitement descaractères eux-mêmes (équivalences entre lettres, élimination dans unpremier temps des signes spéciaux) n'est pas considéré comme quelque chosequi dépend du contexte.


   C'est le principe.

[JPL]

* Oui, il y a quantités d'autres critères, selon le « genre » du classement...
Par exemple, un Jean IV peut ici être placé avant un Jean III... alors
qu'ailleurs il le suivra...

Tiens... si ALB est dans les parages... Dans les algorithmes de classement, y
a-t-il des clés discriminantes pour tous les signes de ponctuation ? Supposons
deux titres :
La Barbe !
La Barbe ?

[ALB] C'est l'ordre exact des normes canadiennes CAN/CSA Z243.4.1 etCAN/CSA Z243.230. Voir en fin d'article pour l'ortdre des caractèresspécuiaux, en cas de parfaite homographie aux étapes précédentes (on netient pas compte des caractères spéciaux pour le tri dit « culturel » -- maméthode constitue l'état de l'art international en la matière -- mais encas d'homographie, le reste étant absolument égal par ailleurs, là on entient compte)...

Par contre, le poids des caractères est controversé à l'échelleinternationale. La norme canadienne suit un ordre précis et indépendant dela valeur codée des caractères, basé sur une certaine classification parcatégories que l'on a voulue le moins arbitraire possible. Mais compte tenude la très grande quantité de caractères spéciaux présents et à venir dansle jeu universel de caractères (norme ISO/CEI 10646 et standard Unicode),le consortium Unicode s'est objecté à ce que l'on normalise un ordreinternational non arbitraire et le modèle (adaptable au besoin) attribue unpoids arbitraire purement basé sur l'ordre numérique de la valeur codée ducaractères dans le jeu universel de caractères. À noter toutefois qu'envertu du projet de norme ISO/CEI 14651 (à ses derniers balbutiemesnts,espérons-le, avant publication comme norme internationale), il est permis(et même obligatoire) de déclarer un delta par rapport au modèle de tableuniverselle proposé (parce que, même pour l'ordre alphabétique d'un mêmealphabet, il y a des variations nationales [ou plutôt linguistiques], et cecas est normal).


[Didier Pemerle]

Même les traits d'union et les espaces ? Mais comment peux-tu espérer
(inutile pour cela d'entreprendre, dirait Orange) classer des mots si tu ne
tiens pas compte de ce qui les fait mots, les délimite comme mots ?

[Alain] Avant de soumettre une suite de rubriques au tri informatisé, sil'on s'attend à une analyse du contexte, on sera déçu, car il faut fairecette analyse a priori. Le tri ne fera pas les renvois en fin de ligne, lesmodifications complexes de chaînes de caractères, etc. Par contre,typiquement, dans un programme de tri digne de ce nom, le classement sefait par champs distincts dans des enregistrements structurés (nom à part,prénom à part, etc.), le tri s'effectuant sur chaque champ (le cas des motsest un cas particulier, il faut délimiter les mots d'avance).

Nonobstant ce que je viens de dire, la norme canadienne [et la normeinternationale] prévoi[en]t -- purement pour des raisons pratiques même sice n'est pas très catholique -- deux genres d'espaces -- l'un ignoré,l'espace normal, l'autre dont il est tenu compte comme s'il s'agissait dela première lettre de l'alphabet (on a choisi l'espace insécable pour cefaire). C'est le tri du pauvre quand on n'a pas les moyens de délimiter leschamps de manière structurée, l'idéal étant de structurer les champs dansun enregistrement informatisé en bonne et due forme. À part ce cas, tousles caractères spéciaux sont ignorés, ce qui ramène le cas des espacesmultiples à zéro (c'est un cas problème du tri par « mots »).


[Michel Bovani]

>On peut imaginer que l'on ait trois entrées (je sais que ça serait
>mieux avec de vrais exemples, mais t'as vu l'heure qu'il est !)
>
>Taratata (interjection)
>Tara-tata (inventeur du nippon-suki à la banane)
>Tara tata (comme « OMO lave plus blanc » ; la question est « (que) quoi ? »)
>
>Je préfère un système qui permette de décider sans ambiguïté de
>l'ordre de classement...

La norme canadienne (et la norme internationale, d'ailleurs -- car malgrél'ordre d'Unicode, l'ordre des caractères de la norme canadienne a étérespectée dans le modèle autant que faire se pouvait) classe de manière nonambiguë et systématique ces trois rubriques dans l'ordre suivant ;

Taratata
Tara tata
Tara-tata

[Jean Fontaine]

Le document Web d'ALB (http://www.tresor.gouv.qc.ca/doc/classm.htm) n'en
parle pas, mais sa norme de classement couvre également tous les caractères
non alphanumériques (indices de 4e ordre, devant être adaptés pour chaque
langue). Il me corrigera si je me trompe, mais pour ce qui est des signes de
ponctuation, l'ordre par défaut serait :

(espace) - , ; : ! ? . ... ' « » ( ) [ ]

Si on ajoute d'autres signes de base (certains passeront peut-être mal) :

(espace) - , ; : ! ? / . ... ' " « » ( ) [ ] { } § ¶ © @ $ * \ & # % + < = >
| °

Par exemple, la norme classerait par défaut ainsi (ordre alphabétique
strict) :

8 et 1/2
clé
clebs
clédar
clé de contact
clé de fa
clé de l'énigme
Cléder
[...]

[Alain] Pour l'ordre des caractères spéciaux, voir en fin d'article. Maréférence web fait comme le consortium Unicode a décidé de faire cetteannée (ordre arbitraire basé sur le codage pour les caractères spéciaux --problème : le codage peut varier d'un environnement à un autre), pas commela norme canadienne, qui attribue un poids à ces caractères qui ne dépendpas du codage (c'est IBM qui a insisté, il y a de cela plus de 10 ans --clause « grand-père » -- pour ma part, je suis d'accord avec eux, car ilfaut un ordre prévisible, mais j'aurais pu me contenter d'un classsementarbitraire mais unique des signes spéciaux -- le consortium Unicode adécidé de ne pas suivre IBM, mais l'histoire n'est pas finie de ce côté carIBM fait partie du consortium et est très influente -- quoiqu'il en soit lanorme internationale permet un delta, pourvu qu'on le déclare).

En passant, Michael Everson (Everson Gunn Teoranta, Dublin) a produit unordre pour tous les caractères spéciaux de la 10646-1:1993 (1ère édition,équivalent à Unicode 1.0) qui pourrait servir de delta), sur le mêmeprincipe que la norme canadienne. Cet ordre dort sur une tablette virtuelle...


[Jean]

Pour ce qui est de l'espace vs le trait d'union, on voit que la norme
préfère cet ordre :

baseball
base ball
base-ball


[Alain]  Exact.

[Jean]

Pour les noms communs, je préfère personnellement l'ordre de soudure
croissante, qui est souvent l'ordre historique d'apparition des variantes :

base ball
base-ball
baseball

Mais cet ordre a aussi ses inconvénients.

[Alain] La norme canadienne permet de faire cela artificiellement enremplaçant l'espace par un espace insécable. Mais il y a aussi desinconvénients. Je n,entrerai pas dans les détails.


[Jean]

Bref, une norme de base commune et prévisible pour tous les caractères est
utile, mais il n'y a pas de solution unique pour toutes les situations le
classement. Tout dépend de sa destination (dico, lexique spécialisé, index,
annuaire, etc.). Chacune a ses besoins propres et demande certaines
adaptations.

[Alain] Ayant moi-même été le chantre de cette idée, la normeinternationale ISO/CEI 14651, dont je suis rédacteur, oblige la déclarationd'un delta (qui peut être nul) pour qu'un tri soit déclaré comme lui étantconforme.


[Jean]

> Bref, une norme de base commune et prévisible pour tous les caractères est
> utile,


[JPL]

Oui, d'accord, absolument, tout à fait, oc, oc... et c'est pourquoi je râle
comme un putois quand on me balance des listes qui n'en ont pas tenu compte...
Alors que c'est si facile !

[Alain] Oui, en français, la norm'e canadienne est un très bon modèle.C'est un minimum qui dépasse tout ce qui se faire d'autre en qualitéintuiitive pouer l'utilisateur lambda. je vous la propose comme standard.


[Jean]

> mais il n'y a pas de solution unique pour toutes les situations le
> classement. Tout dépend de sa destination (dico, lexique spécialisé, index,
> annuaire, etc.). Chacune a ses besoins propres et demande certaines
> adaptations.


[JPL]

Oui, d'accord, absolument, tout à fait, oc, oc... et c'est pourquoi tout
classement sérieux est au bout du compte manuel (disons... la couche de
finition..). Il reste suffisamment de boulot pour ne pas avoir à se farcir en
plus les erreurs dues à la méconnaissance de la « norme de base commune » !


[Alain]  J'abonde en ce sens.

Je vous reproduis un extrait qui relate l'ordre des caractères spéciauxde la norme canadienne (j'ai éliminé tout ce qui n'était pas reproduisibledans le latin 1 -- attention, sur Mac, certains caractères pourraient êtremal reproduits, mais ça ne dépend que de certains logiciels de courriel quine font pas adéquatement leur travail dans cet environnement ... Ne faireattention qu'aux commentaires de fin de ligne. Il serait trop long de vousexpliquer pour l'instant la syntaxe POSIX de la spécification.


#              Notes:
#               (1):   [*]: JGSUG de CAN/CSA Z243.4 / GPGSS of CAN/CSA Z243.4
#               (2):   Autres Uxxxx -> CSA T500 <- Other Uxxxx's
#
#SYMB.                                           # N<DG>  Expl.        Uxxxx[*]
#
<SP>            IGNORE;IGNORE;IGNORE;<SP>        # 0320 ESPACE/SPACE    0020
<_>             IGNORE;IGNORE;IGNORE;<_>         # 0330     _           005F
<'->            IGNORE;IGNORE;IGNORE;<'->        # 0340     ¯           00AF
<-->            IGNORE;IGNORE;IGNORE;<-->        # 0350      (SHY)     00AD
<->             IGNORE;IGNORE;IGNORE;<->         # 0360     -           002D
<,>             IGNORE;IGNORE;IGNORE;<,>         # 0370     ,           002C
<;>             IGNORE;IGNORE;IGNORE;<;>         # 0380     ;           003B
<:>             IGNORE;IGNORE;IGNORE;<:>         # 0390     :           003A
<!>             IGNORE;IGNORE;IGNORE;<!>         # 0400     !           0021
<!I>            IGNORE;IGNORE;IGNORE;<!I>        # 0410     ¡           00A1
<?>             IGNORE;IGNORE;IGNORE;<?>         # 0420     ?           003F
<?I>            IGNORE;IGNORE;IGNORE;<?I>        # 0430     ¿           00BF
<//>            IGNORE;IGNORE;IGNORE;<//>        # 0440     /           002F
<.>             IGNORE;IGNORE;IGNORE;<.>         # 0450     .           002E
<.M>            IGNORE;IGNORE;IGNORE;<.M>        # 0510     ·           00B7
<',>            IGNORE;IGNORE;IGNORE;<',>        # 0520     ÷           00B8
<'>             IGNORE;IGNORE;IGNORE;<'>         # 0530     '           0027
<">             IGNORE;IGNORE;IGNORE;<">         # 0560     "           0022
<<<>            IGNORE;IGNORE;IGNORE;<<<>        # 0590     «           00AB
</>/>>          IGNORE;IGNORE;IGNORE;</>/>>      # 0600     »           00BB
<(>             IGNORE;IGNORE;IGNORE;<(>         # 0610   (             0028
<)>             IGNORE;IGNORE;IGNORE;<)>         # 0630   )             0029
<!(>            IGNORE;IGNORE;IGNORE;<!(>        # 0650   [             005B
<)!>            IGNORE;IGNORE;IGNORE;<)!>        # 0660   ]             005D
<<(>            IGNORE;IGNORE;IGNORE;<<(>        # 0670   {             007B
<)/>>           IGNORE;IGNORE;IGNORE;<)/>>       # 0680   }             007D
<So>            IGNORE;IGNORE;IGNORE;<So>        # 0690   §             00A7
<9I>            IGNORE;IGNORE;IGNORE;<9I>        # 0700   ¶             00B6
<OC>            IGNORE;IGNORE;IGNORE;<OC>        # 0710   ©             00A9
<OR>            IGNORE;IGNORE;IGNORE;<OR>        # 0720   ®             00AE
<Oa>            IGNORE;IGNORE;IGNORE;<Oa>        # 0730   @             0040
<Xo>            IGNORE;IGNORE;IGNORE;<Xo>        # 0740   ¤             00A4
<!C>            IGNORE;IGNORE;IGNORE;<!C>        # 0750   ¢             00A2
<!S>            IGNORE;IGNORE;IGNORE;<!S>        # 0760   $             0024
<L->            IGNORE;IGNORE;IGNORE;<L->        # 0770   £             00A3
<Y->            IGNORE;IGNORE;IGNORE;<Y->        # 0780   ¥             00A5
<*>             IGNORE;IGNORE;IGNORE;<*>         # 0790   *             002A
<////>          IGNORE;IGNORE;IGNORE;<////>      # 0800   \             005C
<&>             IGNORE;IGNORE;IGNORE;<&>         # 0810   &             0026
<H->            IGNORE;IGNORE;IGNORE;<H->        # 0820   #             0023
<%>             IGNORE;IGNORE;IGNORE;<%>         # 0830   %             0025
<+>             IGNORE;IGNORE;IGNORE;<+>         # 0850   +             002B
<+->            IGNORE;IGNORE;IGNORE;<+->        # 0870   ±             00B1
<''>            IGNORE;IGNORE;IGNORE;<0>         # 0460   ´             00B4
<'!>            IGNORE;IGNORE;IGNORE;<1>         # 0470   `             0060
<'/>>           IGNORE;IGNORE;IGNORE;<3>         # 0480   ^             005E
<':>            IGNORE;IGNORE;IGNORE;<6>         # 0490   ¨             00A8
<'?>            IGNORE;IGNORE;IGNORE;<8>         # 0500   ~             007E
<-:>            IGNORE;IGNORE;IGNORE;<a97>       # 0880   ÷             00F7
<*X>            IGNORE;IGNORE;IGNORE;<b98>       # 0890   ×             00D7
<<>             IGNORE;IGNORE;IGNORE;<d100>      # 0910   <             003C
<=>             IGNORE;IGNORE;IGNORE;<f102>      # 0930   =             003D
</>>            IGNORE;IGNORE;IGNORE;<h104>      # 0950   >             003E
<7!>            IGNORE;IGNORE;IGNORE;<i105>      # 0960   ¬             00AC
<!!>            IGNORE;IGNORE;IGNORE;<j106>      # 0970   |             007C
<!B>            IGNORE;IGNORE;IGNORE;<k107>      # 0980   ¦             00A6
<DG>            IGNORE;IGNORE;IGNORE;<l108>      # 0990   °             00B0
<My>            IGNORE;IGNORE;IGNORE;<m109>      # 1000   µ             00B5

[fin de liste]

Alain LaBonté
Québec

Classement alphabétique, Alain LaBonté <=

Re: Classement alphabétique, Jacques Andre (25/01/2000)

Re: Classement alphabétique, Alain LaBonté (25/01/2000)

Re: Classement alphabétique, Lacroux (25/01/2000)

Re: Classement alphabétique et PIC/metadata, Jacques Andre (25/01/2000)
RE: Classement alphabétique et PIC/metadata, Jef Tombeur (25/01/2000)

Re: Classement alphabétique, Jean Fontaine (25/01/2000)