ClairaClaira Help Desk

Codage objectif

See in English

Utilisez Claira pour extraire et normaliser des metadonnees factuelles sur les documents (dates, titres, auteurs, types de documents) dans Nuix Discover.

Codage objectif

Le codage objectif consiste a ajouter ou corriger des metadonnees factuelles sur les documents — date du document, titre, auteur, type de document, langue, etc. Contrairement au codage juridique (qui suppose des jugements sur la pertinence ou le privilege), le codage objectif porte sur des informations verifiables que l'on peut lire directement dans le document.

Cela importe parce que les metadonnees pilotent tout ce qui suit : filtres de recherche, tris, chronologies et ensembles de production dependent de metadonnees exactes et coherentes. Lorsqu'elles manquent ou sont erronnees, la revision en souffre.

Quand utiliser le codage objectif

  • Metadonnees manquantes. Les documents ont ete charges sans champs cles comme la date ou l'auteur.
  • Imports incomplets. L'extraction de metadonnees pendant le traitement a capture certains champs mais pas d'autres.
  • Grands volumes a normaliser. Des milliers de documents ont des metadonnees dans des formats incoherents.
  • Besoin de chronologies. Vous avez besoin de dates fiables pour une ligne du temps, mais le champ date existant n'est pas fiable.

Difference avec le codage juridique

Codage objectifCodage juridique
Factuel, verifiableExige un jugement
Date du document, titre, auteur, type, languePertinence, privilege, etiquettes de questions
Peut etre automatise avec une forte confianceExige une revision humaine
Meme reponse quel que soit le reviseurPeut varier selon le reviseur

Le flux de travail

Le codage objectif dans Claira suit sept etapes. Chaque etape s'appuie sur la precedente.

Etape 1 : Ouvrir votre espace de travail Claira

Accedez a votre dossier dans Claira et ouvrez l'espace de travail ou vous executerez l'analyse de codage objectif.

ClairaDossiersVotre dossierEspace de travail

Etape 2 : Confirmer l'extraction de texte

Avant qu'une analyse puisse traiter un document, il lui faut du texte extrait. Verifiez que vos documents ont ete traites et que l'extraction de texte s'est terminee correctement.

Claira analyse uniquement le texte extrait. Si un document n'a pas de texte extrait — par exemple un PDF image sans ROC — Claira ne peut pas le lire et renverra des valeurs de repli. Verifiez vos journaux de traitement avant d'executer une analyse en lot.

Etape 3 : Creer ou connecter les champs de destination

Vous avez besoin de champs dans Nuix Discover pour stocker la sortie de Claira. Nous recommandons de creer des champs IA dedies plutot que d'ecrire directement dans vos champs de metadonnees principaux. Cela vous laisse le temps de controler la qualite avant d'engager les valeurs.

Exemples de champs :

CO DateDateDate du document extraite par l'IA
CO TitreTexteTitre du document extrait par l'IA
CO AuteurTexteNom d'auteur extrait par l'IA
CO Type de docTexteType de document extrait par l'IA
CO LangueTexteLangue detectee par l'IA

Connectez ces champs dans les parametres de l'espace de travail Claira pour que les resultats d'analyse soient ecrits au bon endroit.

Etape 4 : Construire et tester votre prompt sur un seul document

Commencez par un document pour verifier que votre prompt produit la sortie attendue. Ouvrez un document en revue unique, saisissez votre prompt et verifiez le resultat.

Prompt de codage objectif — date

Identifiez la date principale du document. S'il y a plusieurs dates, choisissez la plus recente. Repondez UNIQUEMENT au format MM/JJ/AAAA. S'il n'y a pas de date claire, repondez --

Ce prompt est volontairement strict : une seule date dans un format precis, avec une valeur de repli claire (--) lorsqu'aucune date ne peut etre determinee. Cette structure facilite le controle qualite et le traitement en aval.

Construisez un prompt par champ. Un seul prompt qui tente d'extraire date, titre, auteur et type a la fois est plus difficile a tester, plus difficile a controler et plus susceptible de produire des resultats incoherents.

Etape 5 : Executer une analyse en lot

Lorsque vous etes satisfait du prompt sur des documents individuels, executez-le sur l'ensemble complet (ou un sous-ensemble cible) avec la fonction d'analyse en lot de Claira.

Espace de travailAnalyse en lotConfigurerExecuter

Surveillez la progression dans l'espace de travail. Les ensembles plus grands prennent plus de temps, mais vous pouvez continuer a travailler pendant l'execution.

Etape 6 : Controle qualite

C'est l'etape la plus importante. Ne la sautez pas.

  • Filtrez les valeurs de repli. Cherchez dans votre champ de destination la valeur de repli (par ex. --) pour trouver les documents ou Claira n'a pas pu extraire la metadonnee. Examinez-les manuellement.
  • Verifiez par echantillon. Ouvrez 20 a 30 documents couvrant differents types et comparez la sortie de Claira au contenu reel du document.
  • Validez les cas limites. Portez une attention particuliere aux formats inhabituels, aux dates multiples ou a l'auteur ambigu.
Si plus de 10 a 15 % des documents renvoient la valeur de repli, votre prompt doit peut-etre etre affine, ou la qualite du texte extrait pose probleme. Enquêtez avant de poursuivre.

Etape 7 : Mettre a jour les champs de metadonnees principaux

Une fois les resultats controles et juges fiables, copiez les valeurs de vos champs IA (par ex. CO Date) vers vos champs de metadonnees principaux (par ex. date du document). Cela peut se faire avec les outils de mise a jour en lot des champs de Nuix Discover.

Cette etape est volontairement separee de l'analyse. Ecrire directement dans les champs principaux pendant une analyse signifie que toute erreur fait partie de vos donnees « production » sans retour en arriere facile. Controlez toujours d'abord.

Mode Multi-Code (une passe, plusieurs champs)

Utilisez Multi-Code lorsqu'une seule analyse doit remplir plusieurs sorties (par ex. date, titre, auteur et type de document).

  • Configurez jusqu'a 8 champs dans la section Multi-Code dediee.
  • Cliquez sur Reinitialiser les champs (en haut a droite de la carte Multi-Code) pour effacer l'instruction partagee, les prompts par champ et les selections de champs de destination, et restaurer 2 lignes vides.
  • Dans le Laboratoire de prompts, lorsque Claira detecte un prompt a plusieurs sorties, cliquez sur Utiliser Multi-Code pour convertir automatiquement :
    • le texte de preambule partage est deplace dans l'instruction partagee Multi-Code,
    • chaque demande de sortie detectee est scindee en un prompt de champ separe (2 a 8 parties),
    • les lignes Multi-Code existantes sont effacees et reconstruites a partir des parties converties.
  • Utilisez le selecteur Inserer dans comme cible par defaut pour l'instruction partagee ou une ligne de prompt de champ (toutes les lignes sont listees, y compris celles encore en cours de configuration).
  • Ouvrez Voir l'historique ou Demarrage rapide (modeles ou generateur de prompts) : Claira demande ou placer le contenu — l'instruction partagee, une ligne de champ existante ou Nouveau champ (jusqu'a 8 lignes). Si la destination contient deja du texte, choisissez ajouter ou remplacer ensuite.
  • Dans les analyses en lot, l'usage des jetons est facture par document selon les memes regles que les autres analyses en lot, avec des couts Multi-Code selon le menu Analyser comme :
    • Texte + Multi-Code : 1 jeton par champ configure (actif) (par ex. 3 champs = 3 jetons par document ; 8 champs = 8 jetons par document).
    • Image + Multi-Code : 5 jetons pour le premier champ plus 1 par champ supplementaire (3 champs = 7 jetons ; 8 champs = 12 jetons par document).
    • Audio + Multi-Code : 10 jetons pour le premier champ plus 1 par champ supplementaire (3 champs = 12 jetons ; 8 champs = 17 jetons par document).
    • Video + Multi-Code : 20 jetons pour le premier champ plus 1 par champ supplementaire (3 champs = 22 jetons ; 8 champs = 27 jetons par document).
    • Les modes image, audio et video exigent tous le forfait Pro ou superieur. Voir Analyses media pour les formats de fichier acceptes par mode.

Bonnes pratiques

  • Soyez precis dans vos prompts. « Quelle est la date ? » est trop vague. « Identifiez la date principale du document. Repondez UNIQUEMENT en MM/JJ/AAAA. » est clair et testable.
  • Regroupez les types de documents similaires. Si votre collecte comprend contrats, courriels et notes, envisagez des prompts distincts par type. Les contrats ont une « date d'effet » tandis que les courriels ont une « date d'envoi » — un seul prompt peut mal gerer les deux.
  • Controlez toujours avant d'engager. Les champs IA existent pour vous offrir une marge de securite. Utilisez-la.
  • Utilisez des valeurs de repli. Une valeur de repli claire comme -- ou « N/D » vaut mieux qu'un champ vide. Cela indique que Claira a tente mais n'a pas trouve de reponse, ce qui differe du cas ou le document n'a pas ete traite.

Limites

  • Le mode Texte ne lit que le texte extrait. En mode Texte, Claira ne peut pas lire les images, notes manuscrites, audio, video ou contenu dans des formats non textuels s'ils n'ont pas ete soumis a la ROC ou transcrits. Pour ces documents, changez le menu Analyser comme vers Image, Audio ou Video pour envoyer le fichier source directement a un modele multimodal.
  • La qualite de la ROC compte en mode Texte. Si la ROC est mediocre (texte illisible, caracteres manquants), la sortie de Claira le refletera. Donnees de mauvaise qualite en entree, resultats mediocres en sortie — passer en mode Image est souvent la bonne solution.
  • Les documents sont analyses individuellement. Claira ne croise pas les documents entre eux. Si l'auteur n'est nomme que dans un courriel de couverture mais pas dans le rapport joint, le rapport n'heritera pas de cet auteur.
  • Les cas complexes exigent un jugement humain. Un document avec cinq dates plausibles necessite un reviseur pour decider laquelle est « principale ». Claira suivra les instructions de votre prompt, mais celles-ci peuvent ne pas couvrir tous les cas limites.

Besoin d'aide ? Contactez support@claira.to

Cette page vous a aide?

Continue reading