Archive Liste Typographie
Message : Classement alphabétique (Alain LaBonté ) - Mardi 25 Janvier 2000 |
Navigation par date [ Précédent Index Suivant ] Navigation par sujet [ Précédent Index Suivant ] |
Subject: | Classement alphabétique |
Date: | Mon, 24 Jan 2000 22:48:06 -0500 |
From: | Alain LaBonté <alb@xxxxxxxxxxxxxx> |
Comble de malheur, mon PC a été en panne (problème mécanique, pas électronique) pendant deux heures aujourd'hui...
Mais vous ne devriez pas être déçus. Je ne recevrai les messages qui suivent que plus tard, comme je vous l'ai dit. Donc, svp m'envoyer une copie conforme directe si vous voulez que je réagisse plus rapidement.
À 02:00 2000-01-24 +0100, typographie-owner@xxxxxxxx a écrit:
Sommaire : 1. Re: Lexique de l'I,N, 2. Re: Lexique de l'I,N, 3. Re: Composition des titres d'oeuvres 4. Re: mea culpa et ortho-typo machin 5. Re: Lexique de l'I,N, 6. Re: Composition des titres d'oeuvres 7. Re: Composition des titres d'oeuvres 8. Re: Composition des titres d'oeuvres 9. Re: Lexique de l'I,N, 10. Re: Composition des titres d'oeuvres 11. Re: Composition des titres d'oeuvres 12. Re: Composition des titres d'oeuvres
Date: Sun, 23 Jan 2000 11:29:02 +0100 From: Lacroux <lacroux@xxxxxxxxx> X-Mailer: Mozilla 4.5 [fr] (Macintosh; I; PPC) X-Accept-Language: fr-FR,fr Mime-Version: 1.0 To: typographie@xxxxxxxx Subject: Re: Composition des titres d'oeuvres References: <v01550101b4af7b8f9180@[195.3.18.197]> <3889ED7D.1C807E8C@xxxxxxxxx> <v04210101b4afed398860@[164.138.182.152]> Content-Type: text/plain; charset=iso-8859-1; x-mac-type="54455854"; x-mac-creator="4D4F5353" Content-Transfer-Encoding: 8bit Reply-To: typographie@xxxxxxxx X-Loop: typographie@xxxxxxxx X-Sequence: 1189 Precedence: list Michel Bovani a écrit : > Je préfère un système qui permette de décider sans ambiguïté de > l'ordre de classement... ---- Moi aussi... ------------------------------------------------- > Pas de quartier ? ----Oc, oc, j'ai été un peu violent, mais tu aurais dû remarquer que j'avais pris laprécaution d'écrire ceci :« Pas de quartier ! Après, ça se complique un peu, mais le gros est fait... »... car, après, effectivement, se pose le problème des homographes et des quasi-homographes... et bien d'autres encore*.Il ne s'agit pas d'éliminer les espaces, les traits d'union et les apostrophes !mais de ne pas en tenir compte dans un premier temps (ce qui n'est pas la doctrine de Didier)... Ensuite, évidemment, tous ces signes sont discriminantsdans le classement des quasi-homographes (comme les diacritiques, bien entendu).
[ALB] Jean-Pierre a très bien saisi le principe. On ne tient compte d'abord que de l'alphabet, puis des signes diacritiques, puis de la casse, puis des signes spéciaux...
Auparavant, on peut préparer la chaîne à trier (renvoi de l'article à la fin de la rubrique et mise entre parenthèses, etc.) mais ce que l'on présente au tri sera trié sans analyse du contexte. Le traitement des caractères eux-mêmes (équivalences entre lettres, élimination dans un premier temps des signes spéciaux) n'est pas considéré comme quelque chose qui dépend du contexte.
C'est le principe. [JPL]
* Oui, il y a quantités d'autres critères, selon le « genre » du classement... Par exemple, un Jean IV peut ici être placé avant un Jean III... alors qu'ailleurs il le suivra... Tiens... si ALB est dans les parages... Dans les algorithmes de classement, y a-t-il des clés discriminantes pour tous les signes de ponctuation ? Supposons deux titres : La Barbe ! La Barbe ?
[ALB] C'est l'ordre exact des normes canadiennes CAN/CSA Z243.4.1 et CAN/CSA Z243.230. Voir en fin d'article pour l'ortdre des caractères spécuiaux, en cas de parfaite homographie aux étapes précédentes (on ne tient pas compte des caractères spéciaux pour le tri dit « culturel » -- ma méthode constitue l'état de l'art international en la matière -- mais en cas d'homographie, le reste étant absolument égal par ailleurs, là on en tient compte)...
Par contre, le poids des caractères est controversé à l'échelle internationale. La norme canadienne suit un ordre précis et indépendant de la valeur codée des caractères, basé sur une certaine classification par catégories que l'on a voulue le moins arbitraire possible. Mais compte tenu de la très grande quantité de caractères spéciaux présents et à venir dans le jeu universel de caractères (norme ISO/CEI 10646 et standard Unicode), le consortium Unicode s'est objecté à ce que l'on normalise un ordre international non arbitraire et le modèle (adaptable au besoin) attribue un poids arbitraire purement basé sur l'ordre numérique de la valeur codée du caractères dans le jeu universel de caractères. À noter toutefois qu'en vertu du projet de norme ISO/CEI 14651 (à ses derniers balbutiemesnts, espérons-le, avant publication comme norme internationale), il est permis (et même obligatoire) de déclarer un delta par rapport au modèle de table universelle proposé (parce que, même pour l'ordre alphabétique d'un même alphabet, il y a des variations nationales [ou plutôt linguistiques], et ce cas est normal).
[Didier Pemerle]
Même les traits d'union et les espaces ? Mais comment peux-tu espérer (inutile pour cela d'entreprendre, dirait Orange) classer des mots si tu ne tiens pas compte de ce qui les fait mots, les délimite comme mots ?
[Alain] Avant de soumettre une suite de rubriques au tri informatisé, si l'on s'attend à une analyse du contexte, on sera déçu, car il faut faire cette analyse a priori. Le tri ne fera pas les renvois en fin de ligne, les modifications complexes de chaînes de caractères, etc. Par contre, typiquement, dans un programme de tri digne de ce nom, le classement se fait par champs distincts dans des enregistrements structurés (nom à part, prénom à part, etc.), le tri s'effectuant sur chaque champ (le cas des mots est un cas particulier, il faut délimiter les mots d'avance).
Nonobstant ce que je viens de dire, la norme canadienne [et la norme internationale] prévoi[en]t -- purement pour des raisons pratiques même si ce n'est pas très catholique -- deux genres d'espaces -- l'un ignoré, l'espace normal, l'autre dont il est tenu compte comme s'il s'agissait de la première lettre de l'alphabet (on a choisi l'espace insécable pour ce faire). C'est le tri du pauvre quand on n'a pas les moyens de délimiter les champs de manière structurée, l'idéal étant de structurer les champs dans un enregistrement informatisé en bonne et due forme. À part ce cas, tous les caractères spéciaux sont ignorés, ce qui ramène le cas des espaces multiples à zéro (c'est un cas problème du tri par « mots »).
[Michel Bovani]
>On peut imaginer que l'on ait trois entrées (je sais que ça serait >mieux avec de vrais exemples, mais t'as vu l'heure qu'il est !) > >Taratata (interjection) >Tara-tata (inventeur du nippon-suki à la banane) >Tara tata (comme « OMO lave plus blanc » ; la question est « (que) quoi ? ») > >Je préfère un système qui permette de décider sans ambiguïté de >l'ordre de classement...
La norme canadienne (et la norme internationale, d'ailleurs -- car malgré l'ordre d'Unicode, l'ordre des caractères de la norme canadienne a été respectée dans le modèle autant que faire se pouvait) classe de manière non ambiguë et systématique ces trois rubriques dans l'ordre suivant ;
Taratata Tara tata Tara-tata [Jean Fontaine]
Le document Web d'ALB (http://www.tresor.gouv.qc.ca/doc/classm.htm) n'en parle pas, mais sa norme de classement couvre également tous les caractères non alphanumériques (indices de 4e ordre, devant être adaptés pour chaque langue). Il me corrigera si je me trompe, mais pour ce qui est des signes de ponctuation, l'ordre par défaut serait : (espace) - , ; : ! ? . ... ' « » ( ) [ ] Si on ajoute d'autres signes de base (certains passeront peut-être mal) : (espace) - , ; : ! ? / . ... ' " « » ( ) [ ] { } § ¶ © @ $ * \ & # % + < = > | ° Par exemple, la norme classerait par défaut ainsi (ordre alphabétique strict) : 8 et 1/2 clé clebs clédar clé de contact clé de fa clé de l'énigme Cléder [...]
[Alain] Pour l'ordre des caractères spéciaux, voir en fin d'article. Ma référence web fait comme le consortium Unicode a décidé de faire cette année (ordre arbitraire basé sur le codage pour les caractères spéciaux -- problème : le codage peut varier d'un environnement à un autre), pas comme la norme canadienne, qui attribue un poids à ces caractères qui ne dépend pas du codage (c'est IBM qui a insisté, il y a de cela plus de 10 ans -- clause « grand-père » -- pour ma part, je suis d'accord avec eux, car il faut un ordre prévisible, mais j'aurais pu me contenter d'un classsement arbitraire mais unique des signes spéciaux -- le consortium Unicode a décidé de ne pas suivre IBM, mais l'histoire n'est pas finie de ce côté car IBM fait partie du consortium et est très influente -- quoiqu'il en soit la norme internationale permet un delta, pourvu qu'on le déclare).
En passant, Michael Everson (Everson Gunn Teoranta, Dublin) a produit un ordre pour tous les caractères spéciaux de la 10646-1:1993 (1ère édition, équivalent à Unicode 1.0) qui pourrait servir de delta), sur le même principe que la norme canadienne. Cet ordre dort sur une tablette virtuelle...
[Jean]
Pour ce qui est de l'espace vs le trait d'union, on voit que la norme préfère cet ordre : baseball base ball base-ball
[Alain] Exact. [Jean]
Pour les noms communs, je préfère personnellement l'ordre de soudure croissante, qui est souvent l'ordre historique d'apparition des variantes : base ball base-ball baseball Mais cet ordre a aussi ses inconvénients.
[Alain] La norme canadienne permet de faire cela artificiellement en remplaçant l'espace par un espace insécable. Mais il y a aussi des inconvénients. Je n,entrerai pas dans les détails.
[Jean]
Bref, une norme de base commune et prévisible pour tous les caractères est utile, mais il n'y a pas de solution unique pour toutes les situations le classement. Tout dépend de sa destination (dico, lexique spécialisé, index, annuaire, etc.). Chacune a ses besoins propres et demande certaines adaptations.
[Alain] Ayant moi-même été le chantre de cette idée, la norme internationale ISO/CEI 14651, dont je suis rédacteur, oblige la déclaration d'un delta (qui peut être nul) pour qu'un tri soit déclaré comme lui étant conforme.
[Jean]
> Bref, une norme de base commune et prévisible pour tous les caractères est > utile,
[JPL]
Oui, d'accord, absolument, tout à fait, oc, oc... et c'est pourquoi je râle comme un putois quand on me balance des listes qui n'en ont pas tenu compte... Alors que c'est si facile !
[Alain] Oui, en français, la norm'e canadienne est un très bon modèle. C'est un minimum qui dépasse tout ce qui se faire d'autre en qualité intuiitive pouer l'utilisateur lambda. je vous la propose comme standard.
[Jean]
> mais il n'y a pas de solution unique pour toutes les situations le > classement. Tout dépend de sa destination (dico, lexique spécialisé, index, > annuaire, etc.). Chacune a ses besoins propres et demande certaines > adaptations.
[JPL]
Oui, d'accord, absolument, tout à fait, oc, oc... et c'est pourquoi tout classement sérieux est au bout du compte manuel (disons... la couche de finition..). Il reste suffisamment de boulot pour ne pas avoir à se farcir en plus les erreurs dues à la méconnaissance de la « norme de base commune » !
[Alain] J'abonde en ce sens.Je vous reproduis un extrait qui relate l'ordre des caractères spéciaux de la norme canadienne (j'ai éliminé tout ce qui n'était pas reproduisible dans le latin 1 -- attention, sur Mac, certains caractères pourraient être mal reproduits, mais ça ne dépend que de certains logiciels de courriel qui ne font pas adéquatement leur travail dans cet environnement ... Ne faire attention qu'aux commentaires de fin de ligne. Il serait trop long de vous expliquer pour l'instant la syntaxe POSIX de la spécification.
# Notes: # (1): [*]: JGSUG de CAN/CSA Z243.4 / GPGSS of CAN/CSA Z243.4 # (2): Autres Uxxxx -> CSA T500 <- Other Uxxxx's # #SYMB. # N<DG> Expl. Uxxxx[*] # <SP> IGNORE;IGNORE;IGNORE;<SP> # 0320 ESPACE/SPACE 0020 <_> IGNORE;IGNORE;IGNORE;<_> # 0330 _ 005F <'-> IGNORE;IGNORE;IGNORE;<'-> # 0340 ¯ 00AF <--> IGNORE;IGNORE;IGNORE;<--> # 0350 (SHY) 00AD <-> IGNORE;IGNORE;IGNORE;<-> # 0360 - 002D <,> IGNORE;IGNORE;IGNORE;<,> # 0370 , 002C <;> IGNORE;IGNORE;IGNORE;<;> # 0380 ; 003B <:> IGNORE;IGNORE;IGNORE;<:> # 0390 : 003A <!> IGNORE;IGNORE;IGNORE;<!> # 0400 ! 0021 <!I> IGNORE;IGNORE;IGNORE;<!I> # 0410 ¡ 00A1 <?> IGNORE;IGNORE;IGNORE;<?> # 0420 ? 003F <?I> IGNORE;IGNORE;IGNORE;<?I> # 0430 ¿ 00BF <//> IGNORE;IGNORE;IGNORE;<//> # 0440 / 002F <.> IGNORE;IGNORE;IGNORE;<.> # 0450 . 002E <.M> IGNORE;IGNORE;IGNORE;<.M> # 0510 · 00B7 <',> IGNORE;IGNORE;IGNORE;<',> # 0520 ÷ 00B8 <'> IGNORE;IGNORE;IGNORE;<'> # 0530 ' 0027 <"> IGNORE;IGNORE;IGNORE;<"> # 0560 " 0022 <<<> IGNORE;IGNORE;IGNORE;<<<> # 0590 « 00AB </>/>> IGNORE;IGNORE;IGNORE;</>/>> # 0600 » 00BB <(> IGNORE;IGNORE;IGNORE;<(> # 0610 ( 0028 <)> IGNORE;IGNORE;IGNORE;<)> # 0630 ) 0029 <!(> IGNORE;IGNORE;IGNORE;<!(> # 0650 [ 005B <)!> IGNORE;IGNORE;IGNORE;<)!> # 0660 ] 005D <<(> IGNORE;IGNORE;IGNORE;<<(> # 0670 { 007B <)/>> IGNORE;IGNORE;IGNORE;<)/>> # 0680 } 007D <So> IGNORE;IGNORE;IGNORE;<So> # 0690 § 00A7 <9I> IGNORE;IGNORE;IGNORE;<9I> # 0700 ¶ 00B6 <OC> IGNORE;IGNORE;IGNORE;<OC> # 0710 © 00A9 <OR> IGNORE;IGNORE;IGNORE;<OR> # 0720 ® 00AE <Oa> IGNORE;IGNORE;IGNORE;<Oa> # 0730 @ 0040 <Xo> IGNORE;IGNORE;IGNORE;<Xo> # 0740 ¤ 00A4 <!C> IGNORE;IGNORE;IGNORE;<!C> # 0750 ¢ 00A2 <!S> IGNORE;IGNORE;IGNORE;<!S> # 0760 $ 0024 <L-> IGNORE;IGNORE;IGNORE;<L-> # 0770 £ 00A3 <Y-> IGNORE;IGNORE;IGNORE;<Y-> # 0780 ¥ 00A5 <*> IGNORE;IGNORE;IGNORE;<*> # 0790 * 002A <////> IGNORE;IGNORE;IGNORE;<////> # 0800 \ 005C <&> IGNORE;IGNORE;IGNORE;<&> # 0810 & 0026 <H-> IGNORE;IGNORE;IGNORE;<H-> # 0820 # 0023 <%> IGNORE;IGNORE;IGNORE;<%> # 0830 % 0025 <+> IGNORE;IGNORE;IGNORE;<+> # 0850 + 002B <+-> IGNORE;IGNORE;IGNORE;<+-> # 0870 ± 00B1 <''> IGNORE;IGNORE;IGNORE;<0> # 0460 ´ 00B4 <'!> IGNORE;IGNORE;IGNORE;<1> # 0470 ` 0060 <'/>> IGNORE;IGNORE;IGNORE;<3> # 0480 ^ 005E <':> IGNORE;IGNORE;IGNORE;<6> # 0490 ¨ 00A8 <'?> IGNORE;IGNORE;IGNORE;<8> # 0500 ~ 007E <-:> IGNORE;IGNORE;IGNORE;<a97> # 0880 ÷ 00F7 <*X> IGNORE;IGNORE;IGNORE;<b98> # 0890 × 00D7 <<> IGNORE;IGNORE;IGNORE;<d100> # 0910 < 003C <=> IGNORE;IGNORE;IGNORE;<f102> # 0930 = 003D </>> IGNORE;IGNORE;IGNORE;<h104> # 0950 > 003E <7!> IGNORE;IGNORE;IGNORE;<i105> # 0960 ¬ 00AC <!!> IGNORE;IGNORE;IGNORE;<j106> # 0970 | 007C <!B> IGNORE;IGNORE;IGNORE;<k107> # 0980 ¦ 00A6 <DG> IGNORE;IGNORE;IGNORE;<l108> # 0990 ° 00B0 <My> IGNORE;IGNORE;IGNORE;<m109> # 1000 µ 00B5 [fin de liste] Alain LaBonté Québec
- Classement alphabétique, Alain LaBonté <=
- Re: Classement alphabétique, Jacques Andre (25/01/2000)
- Re: Classement alphabétique, Alain LaBonté (25/01/2000)
- Re: Classement alphabétique, Lacroux (25/01/2000)
- Re: Classement alphabétique et PIC/metadata, Jacques Andre (25/01/2000)
- RE: Classement alphabétique et PIC/metadata, Jef Tombeur (25/01/2000)
- Re: Classement alphabétique, Jean Fontaine (25/01/2000)