Codage objectif
See in EnglishUtilisez Claira pour extraire et normaliser des metadonnees factuelles sur les documents (dates, titres, auteurs, types de documents) dans Nuix Discover.
Codage objectif
Le codage objectif consiste a ajouter ou corriger des metadonnees factuelles sur les documents — date du document, titre, auteur, type de document, langue, etc. Contrairement au codage juridique (qui suppose des jugements sur la pertinence ou le privilege), le codage objectif porte sur des informations verifiables que l'on peut lire directement dans le document.
Cela importe parce que les metadonnees pilotent tout ce qui suit : filtres de recherche, tris, chronologies et ensembles de production dependent de metadonnees exactes et coherentes. Lorsqu'elles manquent ou sont erronnees, la revision en souffre.
Quand utiliser le codage objectif
- Metadonnees manquantes. Les documents ont ete charges sans champs cles comme la date ou l'auteur.
- Imports incomplets. L'extraction de metadonnees pendant le traitement a capture certains champs mais pas d'autres.
- Grands volumes a normaliser. Des milliers de documents ont des metadonnees dans des formats incoherents.
- Besoin de chronologies. Vous avez besoin de dates fiables pour une ligne du temps, mais le champ date existant n'est pas fiable.
Difference avec le codage juridique
| Codage objectif | Codage juridique |
|---|---|
| Factuel, verifiable | Exige un jugement |
| Date du document, titre, auteur, type, langue | Pertinence, privilege, etiquettes de questions |
| Peut etre automatise avec une forte confiance | Exige une revision humaine |
| Meme reponse quel que soit le reviseur | Peut varier selon le reviseur |
Le flux de travail
Le codage objectif dans Claira suit sept etapes. Chaque etape s'appuie sur la precedente.
Etape 1 : Ouvrir votre espace de travail Claira
Accedez a votre dossier dans Claira et ouvrez l'espace de travail ou vous executerez l'analyse de codage objectif.
Etape 2 : Confirmer l'extraction de texte
Avant qu'une analyse puisse traiter un document, il lui faut du texte extrait. Verifiez que vos documents ont ete traites et que l'extraction de texte s'est terminee correctement.
Etape 3 : Creer ou connecter les champs de destination
Vous avez besoin de champs dans Nuix Discover pour stocker la sortie de Claira. Nous recommandons de creer des champs IA dedies plutot que d'ecrire directement dans vos champs de metadonnees principaux. Cela vous laisse le temps de controler la qualite avant d'engager les valeurs.
Exemples de champs :
Connectez ces champs dans les parametres de l'espace de travail Claira pour que les resultats d'analyse soient ecrits au bon endroit.
Etape 4 : Construire et tester votre prompt sur un seul document
Commencez par un document pour verifier que votre prompt produit la sortie attendue. Ouvrez un document en revue unique, saisissez votre prompt et verifiez le resultat.
Ce prompt est volontairement strict : une seule date dans un format precis, avec une valeur de repli claire (--) lorsqu'aucune date ne peut etre determinee. Cette structure facilite le controle qualite et le traitement en aval.
Etape 5 : Executer une analyse en lot
Lorsque vous etes satisfait du prompt sur des documents individuels, executez-le sur l'ensemble complet (ou un sous-ensemble cible) avec la fonction d'analyse en lot de Claira.
Surveillez la progression dans l'espace de travail. Les ensembles plus grands prennent plus de temps, mais vous pouvez continuer a travailler pendant l'execution.
Etape 6 : Controle qualite
C'est l'etape la plus importante. Ne la sautez pas.
- Filtrez les valeurs de repli. Cherchez dans votre champ de destination la valeur de repli (par ex.
--) pour trouver les documents ou Claira n'a pas pu extraire la metadonnee. Examinez-les manuellement. - Verifiez par echantillon. Ouvrez 20 a 30 documents couvrant differents types et comparez la sortie de Claira au contenu reel du document.
- Validez les cas limites. Portez une attention particuliere aux formats inhabituels, aux dates multiples ou a l'auteur ambigu.
Etape 7 : Mettre a jour les champs de metadonnees principaux
Une fois les resultats controles et juges fiables, copiez les valeurs de vos champs IA (par ex. CO Date) vers vos champs de metadonnees principaux (par ex. date du document). Cela peut se faire avec les outils de mise a jour en lot des champs de Nuix Discover.
Mode Multi-Code (une passe, plusieurs champs)
Utilisez Multi-Code lorsqu'une seule analyse doit remplir plusieurs sorties (par ex. date, titre, auteur et type de document).
- Configurez jusqu'a 8 champs dans la section Multi-Code dediee.
- Cliquez sur Reinitialiser les champs (en haut a droite de la carte Multi-Code) pour effacer l'instruction partagee, les prompts par champ et les selections de champs de destination, et restaurer 2 lignes vides.
- Dans le Laboratoire de prompts, lorsque Claira detecte un prompt a plusieurs sorties, cliquez sur Utiliser Multi-Code pour convertir automatiquement :
- le texte de preambule partage est deplace dans l'instruction partagee Multi-Code,
- chaque demande de sortie detectee est scindee en un prompt de champ separe (2 a 8 parties),
- les lignes Multi-Code existantes sont effacees et reconstruites a partir des parties converties.
- Utilisez le selecteur Inserer dans comme cible par defaut pour l'instruction partagee ou une ligne de prompt de champ (toutes les lignes sont listees, y compris celles encore en cours de configuration).
- Ouvrez Voir l'historique ou Demarrage rapide (modeles ou generateur de prompts) : Claira demande ou placer le contenu — l'instruction partagee, une ligne de champ existante ou Nouveau champ (jusqu'a 8 lignes). Si la destination contient deja du texte, choisissez ajouter ou remplacer ensuite.
- Dans les analyses en lot, l'usage des jetons est facture par document selon les memes regles que les autres analyses en lot, avec des couts Multi-Code selon le menu Analyser comme :
- Texte + Multi-Code : 1 jeton par champ configure (actif) (par ex. 3 champs = 3 jetons par document ; 8 champs = 8 jetons par document).
- Image + Multi-Code : 5 jetons pour le premier champ plus 1 par champ supplementaire (3 champs = 7 jetons ; 8 champs = 12 jetons par document).
- Audio + Multi-Code : 10 jetons pour le premier champ plus 1 par champ supplementaire (3 champs = 12 jetons ; 8 champs = 17 jetons par document).
- Video + Multi-Code : 20 jetons pour le premier champ plus 1 par champ supplementaire (3 champs = 22 jetons ; 8 champs = 27 jetons par document).
- Les modes image, audio et video exigent tous le forfait Pro ou superieur. Voir Analyses media pour les formats de fichier acceptes par mode.
Bonnes pratiques
- Soyez precis dans vos prompts. « Quelle est la date ? » est trop vague. « Identifiez la date principale du document. Repondez UNIQUEMENT en MM/JJ/AAAA. » est clair et testable.
- Regroupez les types de documents similaires. Si votre collecte comprend contrats, courriels et notes, envisagez des prompts distincts par type. Les contrats ont une « date d'effet » tandis que les courriels ont une « date d'envoi » — un seul prompt peut mal gerer les deux.
- Controlez toujours avant d'engager. Les champs IA existent pour vous offrir une marge de securite. Utilisez-la.
- Utilisez des valeurs de repli. Une valeur de repli claire comme
--ou « N/D » vaut mieux qu'un champ vide. Cela indique que Claira a tente mais n'a pas trouve de reponse, ce qui differe du cas ou le document n'a pas ete traite.
Limites
- Le mode Texte ne lit que le texte extrait. En mode Texte, Claira ne peut pas lire les images, notes manuscrites, audio, video ou contenu dans des formats non textuels s'ils n'ont pas ete soumis a la ROC ou transcrits. Pour ces documents, changez le menu Analyser comme vers Image, Audio ou Video pour envoyer le fichier source directement a un modele multimodal.
- La qualite de la ROC compte en mode Texte. Si la ROC est mediocre (texte illisible, caracteres manquants), la sortie de Claira le refletera. Donnees de mauvaise qualite en entree, resultats mediocres en sortie — passer en mode Image est souvent la bonne solution.
- Les documents sont analyses individuellement. Claira ne croise pas les documents entre eux. Si l'auteur n'est nomme que dans un courriel de couverture mais pas dans le rapport joint, le rapport n'heritera pas de cet auteur.
- Les cas complexes exigent un jugement humain. Un document avec cinq dates plausibles necessite un reviseur pour decider laquelle est « principale ». Claira suivra les instructions de votre prompt, mais celles-ci peuvent ne pas couvrir tous les cas limites.
Besoin d'aide ? Contactez support@claira.to
Cette page vous a aide?
Continue reading