La Divine Comédie
Voici comment j'ai corrigé la Divine Comédie de [Dante Alighieri].
Pour le moment, je n'ai corrigé que la première partie, l'Enfer.
Il existe deux versions de ce livre, une version en versets, et une autre en texte continu, ces deux versions sont issues de la même traduction de [Félicité Robert de Lamennais] :
[La Divine Comédie (Lamennais 1863)]
[La Divine Comédie (traduction Lamennais)]
La première est la traduction de 1863, publiée chez Didier.
La seconde est la traduction de 1910, publiée chez Flammarion.
Ces deux versions sont identiques à 95%, la version de 1910 est légèrement remaniée pour éviter les mots vieillis, et la syntaxe est réactualisée en une version plus moderne.
Tout d'abord, j'ai entièrement lu la version de 1910 sur mon iPad mini 4, via l'application Kindle. Pour exporter le livre au format mobi, j'ai utilisé l'outil [WSexport]
J'ai noté toutes les fautes trouvées dans l'application Kindle.
Ensuite, j'ai reporté dans Wikisource toutes les fautes de la première partie du livre, l'Enfer.
Ensuite, j'ai exporté à nouveau le livre corrigé au format ePub cette fois, et j'ai également exporté la version de 1863.
Ensuite, j'ai utilisé le convertisseur en ligne ePub vers Doc de [Convertio.co]
Ensuite, j'ai converti le document Word en texte brut, via mon utilitaire [VBTextFinder], voici le résultat obtenu :
[Divine_Comedie_2017_08_23.txt] : Version lue
[Divine_Comedie_2017_11_04.txt] : Version corrigée
[Divine_Comedie_versets_2017_08_26.txt] : Version de 1863, en versets
Les versions exportées en août et en novembre sont comparables par exemple via l'outil [WinMerge], on peut donc facilement voir l'ensemble des modifications effectuées. Par contre, la version en verset n'est pas facilement comparable avec la version en texte continu, c'est même impossible via WinMerge. En revanche, via mon autre outil [VBWinDiff], on peut comparer deux textes même lorsque les versions sont assez différentes, grâce à certaines options qui permettent de supprimer les accents, les majuscules et la ponctuation, voici par exemple le résultat de la comparaison du livre l'Enfer, lorsque l'on active toutes les options visant à simplifier le texte :
[Divine_Comedie_2017_11_04_Enfer_mots.txt]
[Divine_Comedie_versets_2017_08_26_Enfer_mots.txt]
Cette fois, on peut facilement comparer la version en versets avec celle en texte continu, et on peut donc constater que ces deux versions sont proches à 95% via l'outil WinMerge.
On peut comparer, et donc on peut voir que les différences ne sont pas toutes des différences liées au passage de l'écriture en verset à la version en texte continu, on peut aussi voir les erreurs de reconnaissance automatique du texte (le scan [OCR]). Quelques semaines plus tard, une fois toutes les erreurs corrigées, on obtient les nouvelles versions :
[Divine_Comedie_2017_12_31_Enfer.txt]
[Divine_Comedie_versets_2017_12_31_Enfer.txt]
La dernière série de modifications effectuées est la suivante : via mon outil VBTextFinder, on peut extraire les mots hors du dictionnaire, ce qui donne tous les mots propres (par exemple les noms des personnes ou personnages), et aussi quelques erreurs supplémentaires, qui n'avaient pas encore été détectées, voici le résultat de l'extraction des mots hors dictionnaire :
[Divine_Comedie_2017_12_31_Enfer_mots_hors_dico.txt]
[Divine_Comedie_versets_2017_12_31_Enfer_mots_hors_dico.txt]
A ce stade on peut déjà corriger toutes les différences liées à des fautes OCR avérées (en vérifiant les images des livres numérisées sur Wikisource), on peut aussi procéder à la correction du livre proprement dit, c'est-à-dire corriger l'édition du livre de l'époque cette fois, comme s'il s'agissait d'une nouvelle édition du livre en quelque sorte (en considérant que ce sont des coquilles de l'édition de l'époque, qui doivent donc être normalement corrigées). Pour cela on utilise le [modèle standard de correction].
Par contre ces modifications ne doivent être faites que lorsqu'on est sûr qu'il s'agit d'une coquille d'édition, c'est beaucoup plus difficile et risqué à corriger. La limite que je me suis fixée est de seulement corriger (à quelques exceptions près) les incohérences de l'édition, par exemple un personnage est écrit avec une orthographe à une page, et avec une autre orthographe à une autre page : une fois qu'on est bien certain de la bonne orthographe (en comparant entre les traductions de 1863 et celle de 1910, et aussi via Google, pour synthétiser l'ensemble des versions dans toutes les langues possibles, car le nom des personnes n'est jamais traduit, ou presque jamais), on peut normaliser un peu le texte, et cette fois, il ne reste plus que les différences liées aux deux éditions :
[Divine_Comedie_2018_01_12_Enfer_mots_hors_dico.txt]
[Divine_Comedie_versets_2018_01_12_Enfer_mots_hors_dico.txt]
Il y a quelques différences subsistantes, dont certaines sont dues à un petit bug de l'outil de convertio.co ePub vers doc : lorsqu'une note de bas de page contient un texte sur plusieurs lignes avec des retours à la ligne, le texte n'est pas exporté, alors qu'il est bien présent dans Wikisource et dans l'ePub :
CHANT TRENTIÈME, 4ème note :
Torva canino : Pas converti de ePub vers doc dans la version en verset
Latravit rictu,
dit-il, Satire X, fin, vers.
Voici enfin les versions finales :
[Divine_Comedie_2018_01_12_Enfer.txt]
[Divine_Comedie_versets_2018_01_12_Enfer.txt]
Voici les versions finales (pour l'Enfer) complètes (avec les dates d'export, pour contrôler l'origine des versions via WinMerge) :
[Divine_Comedie_2018_01_12.txt]
[Divine_Comedie_versets_2018_01_12.txt]
Et les versions intermédiaires :
[Divine_Comedie_2017_12_31.txt]
[Divine_Comedie_versets_2017_12_31.txt]
Si on veut comparer avec d'autres traductions que celle de Lamennais, alors il faut enlever toutes les notes de bas de page. Sous Word, cela se fait en remplaçant avec les caractères génériques l'expression [[]*[]] par rien, puis il faut sélectionner tout le texte avec un style semblable à celui des notes de bas de page, puis supprimer (ça plante sous Word XP, mais ça fonctionne sous Word 2007), voici le résultat, qui n'est pas parfait (je n'ai pas réussi à supprimer l'espace qui est parfois présent devant la note de bas de page, il vaudrait mieux une option pour ne pas exporter les notes de bas de page), mais qui déjà permet les mêmes comparaisons via VBWinDiff présentées dans cette page :
[Divine_Comedie_2018_01_12_SansNotesBasPage.txt]
Mise à jour 14/06/2018, versions finales :
[Divine_Comedie_2018_06_14.epub]
[Divine_Comedie_2018_06_14.mobi]
[Divine_Comedie_2018_06_14.txt]
[Divine_Comedie_2018_06_14_mots_hors_dico.txt]
[Divine_Comedie_2018_06_14_SansNotesBasPage.txt]
[Divine_Comedie_versets_2018_06_14.epub]
[Divine_Comedie_versets_2018_06_14.mobi]