Pour des documents sémantiques: l’importance de LibreOffice et OpenDocument

J’adore LaTeX et rien ne pourra jamais le remplacer totalement, mais soyons réalistes: bien que LaTeX ait pour but de créer des documents où priment la structure logique et le contenu sémantique, dans les faits la plupart des gens utilisent un balisage et des commandes relevant plutôt de la présentation que de la structure. N’employer que des commandes sémantiques dans LaTeX est peu intuitif et compliqué. Qui plus est, un balisage sémantique réalisé avec LaTeX ne s’exporte pas facilement dans d’autres formats, du moins avec les outils préexistants. Bien sûr, il y a TeX4ht, mais je n’ai pas encore eu beaucoup de succès avec ce paquet, surtout à cause de mes commandes personnalisées. Il y a aussi Pandoc, qui est tout à fait magique et merveilleux, mais encore là les commandes personnalisées ne passent pas bien.

Il est beaucoup plus facile de créer des documents sémantiques avec le format OpenDocument. LibreOffice Writer, en particulier, présente trois outils de choix pour créer du balisage sémantique: les styles, les sections et les champs textuels.

Selon ma compréhension actuelle, du point de vue du code XML, les styles de caractères et les champs textuels se présentent à peu près de la même manière. Leurs fonctions sont toutefois différentes. Les styles sont potentiellement aussi sémantiques que les champs, mais ces derniers permettent de générer automatiquement des listes et d’autre données et ont aussi l’avantage de pouvoir être actualisés automatiquement. Il est également possible d’actualiser automatiquement des styles, mais le processus est alors plus exigeant du point de vue technique et, surtout, n’est pas prévu dans l’interface de base de l’application (il est nécessaire de faire appel à des scripts). D’un autre côté, les champs ne sont pas conçus pour appliquer un style visuel particulier au contenu textuel, bien qu’il soit possible de le faire manuellement ou grâce à des scripts. Je cite la spécification OpenDocument 1.2, partie 1, section 7.2:

The presentation of information in a field is determined by the style applied to the field.

La relation entre les styles de paragraphe et les sections n’est pas aussi directe. Les sections ne contiennent pas un seul objet de niveau «bloc», mais plutôt un nombre arbitraire d’objets de tous types, proposant ainsi un niveau supplémentaire d’organisation du document. Comme les champs textuels, les sections peuvent être actualisées automatiquement, notamment à partir de sources externes. En fait, de bien des façons, les sections fonctionnent comme les environnements et les commandes \input dans LaTeX.

Un document ODT contient des définitions de styles, des définitions de champs textuels et des définitions de sections. En employant ces trois types de définitions, on peut probablement couvrir tous les besoins sémantiques. Les formats cibles (généralement, HTML et PDF) conservent de façon bien inégale ces propriétés. On peut dire que le format HTML (et, par extension, le format ePub) a la capacité de conserver toutes ces propriétés sémantiques, mais il sera peut-être nécessaire d’intervenir manuellement sur le document HTML a posteriori, surtout pour modifier et préciser les classes et les identifiants des éléments div et span. Dans presque tous les cas, il faudra intervenir sur le CSS relié. En combinant une stylistique intelligente avec une bonne définition et application des champs et sections, on peut sans doute tout conserver dans le format cible.

Pour ce qui est du format PDF, à peu près tout est perdu, hormis les champs des tables des matières et les hyperliens. L’apparence des styles et les propriétés visuelles des sections sont conservées, mais plus rien ne distingue visuellement les champs textuels personnalisés auxquels aucun style de caractères n’a été appliqué ou les sections qui n’avaient pas de présentation particulière. Évidemment, le format PDF étant destiné à l’impression ou à la consultation simple, cela n’est pas alarmant; l’important est de toujours conserver le fichier ODT source. Dans tous les cas, il faut considérer le fichier source de la même façon qu’on considère le code source d’un programme: il est plus important que le programme compilé, puisqu’on peut facilement reproduire le programme à partir du code source, alors que reproduire fidèlement le code source à partir du programme est quasiment impossible, sauf peut-être pour les programmes extrêmement simples et très peu structurés. L’analogie tient pour les documents à teneur principalement textuelle et la situation est d’ailleurs la même avec les fichiers TeX et leurs cibles correspondantes (DVI, PostScript, PDF), dans la mesure ou les fichiers TeX sont justement considérés comme des programmes à compiler.

La conclusion est simple: ODT est le format de départ par excellence, tandis que HTML, TeX et PDF sont plutôt des formats cibles. Bien sûr, HTML et TeX sont aussi d’excellents formats de départ, mais ODT semble être un choix relativement meilleur, dépendamment du producteur du document et de son intention. Dans la «vraie vie», la plupart des gens travaillent avec un logiciel de traitement de texte et, malgré la pertinence des nombreuses critiques formulées à l’égard de tels logiciels, leur utilité et leur caractère indispensable sont indéniables. Le «commun des mortels» ne voudra probablement jamais apprendre TeX, ni même écrire manuellement du HTML. Les éditeurs visuels sont indispensables. La solution n’est pas de les haïr et de souhaiter qu’ils disparaissent (ce qui n’arrivera jamais), mais de les améliorer et de s’assurer d’utiliser le meilleur qui soit disponible. Dans notre monde et à notre époque, c’est LibreOffice (ou encore, bien sûr, OpenOffice, mais j’ai développé l’habitude d’utiliser spécifiquement LibreOffice). Le format est excellent, le logiciel est complet et surprenant, l’API est fascinante. Bien sûr, parfois, LibreOffice fait mal, LibreOffice déçoit, mais on peut en dire autant de tous les éditeurs visuels et, en fait, LibreOffice est probablement le moins pire de tous. Dans un monde parfait, peut-être les livres et les documents Web seraient-ils encore conçus systématiquement par des professionnels et des spécialistes, mais c’est là une belle utopie. Dans notre monde, il importe avant tout de donner à tous des outils puissants et libres pour produire des documents fiables, utiles, accessibles et efficaces. Puisque quasiment tout le monde produit des documents de nos jours, n’est-ce pas là une évidence lumineuse?

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s