Quand le PDF est une image de mots, pas de mots
Un PDF est facile à consulter, mais les mots dont vous avez besoin peuvent être piégés : de longues citations pour des appels d'offres, un nettoyage de données, une préparation de traduction ou un devis que vous devez coller sans retaper. L'extraction est le pont vers les outils de texte normaux. L'OCR est destiné aux numérisations, aux photos et au PDF qui ressemble à du texte mais qui n'a jamais été vraiment sélectionnable jusqu'à une passe minutieuse et une lecture attentive par la suite. Pour les numérisations, l'OCR fait partie de l'histoire, et une lecture attentive reste l'habitude du bureau qui empêche qu'un 3 silencieux ne se transforme en 8 dans un identifiant de dossier, car le correcteur orthographique n'est pas un responsable de la conformité. Lorsque le texte extrait doit devenir un nouveau document officiel, de nombreuses équipes effectuent une conversion PDF en Word pour l'éditer, et lorsque le livrable final est toujours un PDF, n'oubliez pas que vous pouvez également compresser le PDF pour le courrier électronique afin que la nouvelle exportation se déroule proprement. Imaginez un collègue distant qui ne peut pas venir à votre bureau pour « ouvrir simplement le bon » et un client poli mais occupé ; votre nom de fichier et la structure de votre fichier font partie du respect que vous leur témoignez. Imaginez un travailleur de terrain téléchargeant des reçus, un étudiant à domicile soumettant un dossier de thèse et un chef de projet qui doit encore approuver une demande de modification : des titres différents, la même pression de temps. Une bonne habitude est de conserver un nom principal évident et une date évidente dans le nom du fichier, afin que vous puissiez à l'avenir retrouver le paquet sans ouvrir dix copies qui se ressemblent toutes. Si la prochaine étape de votre journée est une limite stricte de boîte aux lettres, il est utile de savoir que vous pouvez fusionner des PDF gratuitement en ligne pour un seul transfert, compresser un PDF pour le courrier électronique lorsqu'un fil de discussion rebondit, convertir un PDF en Word lorsqu'une modification rapide est plus rapide qu'une reconstruction et signer un PDF en ligne lorsque les approbateurs à distance attendent une contre-signature.
Passez d'un PDF numérisé à un texte que vous pouvez corriger
- Si la numérisation est très asymétrique, essayez d'obtenir une nouvelle numérisation avec des bords droits, car une bonne saisie bat à chaque fois un logiciel de correction héroïque dans le flux de travail de bureau.
- Exécutez l'OCR et la conversion, puis utilisez le volet de navigation du texte pour voir si les titres sont devenus de véritables niveaux de plan ou simplement des lignes en gras que vous devez restructurer pour une table des matières.
- Lisez lentement chaque page contenant des chiffres et des noms propres et conservez le PDF numérisé pour les besoins d'audit où l'image est la source de vérité pour les signatures et les cachets.