Prompt Engineering : Guide Complet pour Maîtriser ChatGPT et Claude

Ce que j'ai compris après 18 mois de prompts quotidiens

Pendant longtemps, j'ai cru que la qualité des réponses de ChatGPT et Claude dépendait surtout du modèle. Plus le modèle est puissant, meilleure la réponse. Faux.

La réalité que j'ai mise des mois à intégrer : un prompt bien structuré sur GPT-3.5 bat souvent un prompt approximatif sur GPT-4. Ce n'est pas la puissance du modèle qui plafonne vos résultats. C'est la clarté de vos instructions.

Ce guide documente les techniques qui ont réellement changé ma façon de travailler avec l'IA au quotidien. Pas des recettes génériques. Des prompts concrets que j'utilise, analysés pour expliquer pourquoi ils fonctionnent.

Les bases théoriques s'appuient sur les travaux de Wei et al. (2022) sur le Chain-of-Thought prompting (NeurIPS 2022), le guide officiel d'Anthropic sur le prompting Claude, et le guide de prompt engineering d'OpenAI.

Pourquoi vos prompts échouent

Avant d'entrer dans les techniques, voici le diagnostic honnête des raisons les plus fréquentes.

Le problème numéro un : le prompt trop court. "Écris un article sur le SEO" laisse le modèle choisir l'angle, la longueur, le ton, l'audience, le niveau de détail. Il choisit ce qui est statistiquement probable pour ce type de demande. C'est-à-dire du contenu générique.

Le problème numéro deux : l'absence d'exemple de format. Dire "au format structuré" ne signifie rien. Un tableau ? Une liste numérotée ? Des blocs de code ? Montrer un exemple de sortie attendue est 10 fois plus efficace que de le décrire en mots.

Le troisième problème, le plus traître : les instructions contradictoires. "Sois concis mais très complet" force le modèle à arbitrer sans connaître vos priorités. Il choisit une interprétation au hasard.

La recherche de Wei et al. (2022) montre que sur des tâches de raisonnement, le simple ajout de l'instruction "réfléchis étape par étape" améliore la précision de 28 à 40 % selon les benchmarks testés. Pas un nouveau modèle. Juste trois mots supplémentaires dans le prompt.

Rôle + audience

Assigner un rôle précis à l'IA oriente le modèle vers un registre spécifique de connaissances. Mais la plupart des guides s'arrêtent là. Ce qui fait vraiment la différence, c'est de combiner le rôle avec la définition de l'audience cible.

Voici un exemple réel que j'utilise pour analyser des contrats :

Prompt faible : "Explique ce contrat de prestation."

Prompt efficace :

"Tu es un avocat spécialisé en droit des contrats commerciaux français. Tu t'adresses à un freelance sans formation juridique qui veut comprendre ses engagements avant de signer. Analyse ce contrat en identifiant : (1) les clauses inhabituellement défavorables, (2) ce qui est négociable, (3) les risques financiers concrets chiffrés si possible. Utilise un langage accessible, pas de jargon. [Colle le contrat]"

La différence de résultat est radicale. Le premier prompt produit un résumé générique. Le second produit une analyse actionnable avec des recommandations concrètes.

Ce qui fonctionne dans ce prompt : le rôle précis (pas juste "avocat" mais "avocat spécialisé en droit commercial français"), l'audience définie (freelance, sans formation), et la structure de sortie explicite (trois points numérotés).

Décomposer le raisonnement pour forcer la précision

Le Chain-of-Thought prompting est la découverte empirique la plus robuste en prompt engineering. Wei et al. (2022) ont montré sur une batterie de 23 benchmarks que demander explicitement un raisonnement décomposé améliore les performances des grands modèles de langage sur des tâches de logique, de mathématiques et de raisonnement commun.

La formule minimale : "Réfléchis étape par étape avant de conclure."

Mais je préfère une variante plus précise pour les analyses financières. Voici le prompt que j'utilise pour comparer deux offres de financement :

"Mon entreprise de conseil génère 120 000 € de CA annuel, avec 65 000 € de charges réelles. Je compare deux options de financement : un prêt bancaire à 4,8 % sur 5 ans pour 30 000 €, et un crédit-bail sur matériel pour le même montant à 6,2 % effective. Décompose le calcul en trois étapes : (1) coût total de chaque option sur la durée, (2) impact sur la trésorerie mensuelle, (3) avantage fiscal de chaque formule selon mon régime réel. Conclus par une recommandation motivée."

Le résultat est un calcul détaillé, vérifiable, avec une conclusion argumentée. Sans cette structure, Claude ou GPT-4 produirait une réponse générique sur les avantages du crédit-bail vs le prêt bancaire.

Montrer vaut mieux qu'expliquer

Montrer vaut mieux qu'expliquer. Cette règle simple est celle que j'applique systématiquement pour toute tâche de production répétitive.

Voici un prompt que j'utilise pour générer des descriptions de fiches produit e-commerce :

"Transforme ces descriptions de produit pour qu'elles soient plus accrocheuses en conservant le ton direct et factuel. Voici le style attendu :

Original : 'Casque audio sans fil avec réduction de bruit active, autonomie 30h.' Transformé : 'Trente heures d'écoute, zéro distraction. La réduction de bruit active fait le reste.'

Original : 'Chaise ergonomique réglable en hauteur, appui lombaire ajustable.' Transformé : 'Conçue pour les longues heures. Le lombaire s'ajuste à votre morphologie, pas l'inverse.'

Maintenant transforme ces descriptions : [liste]"

Deux exemples suffisent. Trois si les cas sont très variés. Au-delà, vous alourdissez le prompt sans gain de qualité.

Ce qui marche ici : les exemples calibrent le ton (direct, court, sans fluff), la structure (deux phrases maximum), et l'angle (bénéfice utilisateur, pas caractéristique technique). Aucune description textuelle n'aurait transmis ça aussi efficacement.

Contraintes

Sans contraintes, l'IA optimise pour ce qui est "statistiquement correct" dans son corpus d'entraînement. C'est-à-dire des réponses longues, exhaustives, prudentes. Pas ce dont vous avez besoin dans un contexte de production rapide.

Les contraintes les plus utiles par catégorie :

Format : "Tableau markdown avec colonnes X, Y, Z" ou "JSON avec les champs suivants : nom, prix, avantage_principal" ou "3 bullet points maximum, pas de titre"

Longueur : "150 mots maximum", "5 phrases exactement", "une seule phrase d'accroche puis 3 arguments"

Périmètre : "Uniquement sur les aspects techniques, sans aborder les considérations commerciales" ou "Focus sur les cas d'usage B2B, exclure le marché grand public"

Ton : "Ton direct, sans ménagement. Si l'idée est mauvaise, dis-le clairement" ou "Pédagogique, vulgarise pour quelqu'un qui n'a aucune notion de finance"

Voici un prompt avec contraintes multiples que j'utilise pour des briefs d'articles :

"Génère un brief pour un article SEO sur '[sujet]'. Contraintes strictes : titre H1 evergreen sans année, format [Titre | Angle | Mot-clé principal | 3 sources à consulter], 8 idées maximum, focus uniquement sur des cas d'usage pratiques, exclure toute section sur les risques existentiels ou l'IA généraliste."

Itérer sur une dimension à la fois, pas sur tout

La première réponse est rarement la meilleure. Mais l'erreur classique est de relancer avec "améliore ça" ou "c'est pas ce que je voulais". Ces instructions vagues produisent une itération aléatoire.

L'itération efficace cible une dimension précise. Voici comment je travaille sur un texte de présentation :

Tour 1 : "Rédige une intro pour présenter ma méthode d'analyse concurrentielle pour les PME."

Tour 2 : "Reformule cette intro avec un ton plus personnel. Commence par une situation concrète que je rencontre régulièrement chez mes clients."

Tour 3 : "Raccourcis à 80 mots en conservant l'anecdote d'ouverture. Supprime les formules génériques."

Chaque itération porte sur un seul axe : le ton, la longueur, un élément spécifique à corriger. Trois tours bien ciblés valent mieux que dix relances approximatives.

Comparaison ChatGPT vs Claude : ce que j'ai observé

Je travaille avec les deux modèles quotidiennement depuis plus d'un an. Voici mon analyse directe, sans filtre.

Claude suit les instructions à la lettre. Si vous définissez un format précis, Claude l'applique sans dévier. Sur les tâches de rédaction longue (articles, rapports, analyses documentaires), Claude maintient une cohérence de style sur des milliers de tokens que GPT-4 gère moins bien. La fenêtre de contexte de Claude 3.5 Sonnet (200 000 tokens) permet d'analyser des documents entiers en une seule requête.

ChatGPT excelle sur les tâches avec outils natifs. Code Interpreter pour l'analyse de données, génération d'images avec DALL-E, navigation web. Pour les tâches d'automatisation ou de traitement de données, l'écosystème d'outils de ChatGPT est plus mature.

Mon usage réel : Claude pour la rédaction, l'analyse de texte et les tâches qui demandent des instructions précises. ChatGPT pour le code, les données et les tâches qui bénéficient des outils natifs.

Cas d'usage	ChatGPT (GPT-4o)	Claude (Sonnet 3.5)
Rédaction longue (5 000+ mots)	Bien	Excellent
Analyse documentaire	Bien	Excellent
Génération d'images	Oui (DALL-E intégré)	Non natif
Instructions complexes multi-étapes	Bien	Excellent
Code Python / analyse de données	Excellent (Code Interpreter)	Très bien
Tâches créatives courtes	Excellent	Excellent
Rigueur factuelle	Vérifier toujours	Vérifier toujours

Anti-patterns : ce qui sabote vos résultats

Mon travail de terrain avec des équipes qui adoptent l'IA révèle les mêmes erreurs répétées.

Le prompt trop ambitieux. "Écris un article complet, bien structuré, avec des exemples, optimisé SEO et adapté à mon audience." Un objectif par prompt. Sinon, le modèle sacrifie tout sur l'autel de la longueur.

L'absence de contexte métier. L'IA ne connaît pas votre secteur, vos contraintes, votre historique client. Un paragraphe de contexte en début de prompt transforme radicalement la pertinence de la réponse.

Le premier jet accepté sans itération. Sur les productions importantes (email client, document contractuel, contenu publié), planifier au moins un tour d'itération ciblé est systématique dans mon workflow.

Les exemples oubliés. Pour tout ce qui concerne le ton ou le style, montrer un exemple existant est 10 fois plus efficace que le décrire. Fournissez un extrait de votre meilleur article, de votre meilleure fiche produit, de votre meilleure réponse client.

La demande de certitude. "Es-tu sûr de cette information ?" ne produit que de la confiance affichée, pas de la précision factuelle. Pour les données chiffrées, les sources légales ou les informations techniques critiques, vérifiez toujours en dehors du modèle.

8 prompts analysés que j'utilise réellement

1. Résumé exécutif rapide

"Tu es un consultant senior. Résume ce document en un résumé exécutif de 200 mots : contexte (2 phrases) / problème principal (2 phrases) / recommandation (2 phrases) / prochaine étape (1 phrase). Pas de bullet points, prose directe. [Document]"

Pourquoi ça marche : format ultra-précis, pas de liberté de structure. La sortie est directement utilisable.

2. Email de relance commercial

"Rédige un email de relance pour un prospect qui a assisté à notre démo il y a 12 jours sans répondre. Ton : direct et chaleureux, pas insistant. Longueur : 120 mots maximum. Termine par une question ouverte. Notre produit : [description en 2 lignes]."

3. Analyse de bug technique

"Tu es un développeur senior Python. Voici un bug que je ne comprends pas. Étape par étape : identifie la cause racine, explique pourquoi ça plante, propose 2 solutions avec trade-off de chacune. [Code + message d'erreur]"

4. Génération de plan d'article SEO

"Tu es rédacteur SEO. Plan pour un article de 2 500 mots sur '[sujet]', mot-clé '[keyword]'. Format : H1 + intro (angle + promesse) + 4 sections H2 avec 2-3 sous-sections H3 chacune + conclusion CTA. Audience : [profil]. Evergreen, pas d'année dans les titres."

5. Révision de texte ciblée

"Révise ce texte sur 3 axes uniquement : (1) supprime les tournures floues, (2) réduis de 20 % sans perdre le sens, (3) renforce les verbes d'action. Présente le résultat annoté avec les modifications significatives encadrées. [Texte]"

6. Brainstorming structuré

"Tu es consultant en innovation. 12 idées pour [problème]. Structurer en 4 incrémentales (amélioration de l'existant) + 4 adjacentes (nouveaux usages) + 4 rupture (remise en question totale). Chaque idée : titre + 1 phrase. Pas d'explication longue."

7. Comparaison technique

"Compare [technologie A] et [technologie B] pour [cas d'usage précis]. Format tableau : critère / A / B / verdict. 8 critères maximum. Conclus par une recommandation ferme avec tes hypothèses de contexte explicitées."

8. Critique adversariale

"Joue l'avocat du diable sur [mon plan / mon texte / ma stratégie]. Identifie : (1) les 3 failles les plus sérieuses, (2) les hypothèses que je n'ai pas questionnées, (3) ce qu'un concurrent dirait pour le contrecarrer. Sois direct, pas diplomatique."

Questions fréquentes

Les techniques fonctionnent-elles sur tous les modèles ? Les principes fondamentaux (clarté, contexte, structure, exemples) sont universels. Ils s'appliquent à Gemini 2.0, Mistral Large, LLaMA 3 et les autres modèles modernes. Les différences de comportement par défaut varient, mais les fondamentaux tiennent.

Quelle longueur pour un bon prompt ? Pour les tâches simples : 3 à 5 lignes. Pour les tâches de production (article, analyse, code complexe) : 10 à 20 lignes avec contexte, rôle, contraintes et un exemple. Le critère n'est pas la longueur mais la précision.

En français ou en anglais ? GPT-4o et Claude 3.5 Sonnet performent très bien en français. Sur des tâches analytiques ou créatives, la différence avec l'anglais est négligeable. Pour du code ou des termes très techniques, les termes anglophones restent parfois plus précis dans le prompt.

Comment savoir si mon prompt est bon ? Un bon prompt produit une sortie utilisable sans relance. Si vous reformulez plus de deux fois la même demande, il manquait du contexte, des contraintes ou un exemple de format.

Faut-il utiliser les cinq techniques ensemble ? Non. Chaque technique répond à un besoin. Pour les tâches expertes, combinez rôle + contraintes + chain-of-thought. Pour le style et le format, few-shot suffit souvent. L'itération est une méthode de travail, pas un ajout au prompt initial.

Les prompts "secrets" qu'on trouve sur internet fonctionnent-ils ? Rarement de façon durable. Les modèles sont mis à jour régulièrement. Ce qui fonctionne sur la durée : les principes de clarté et de structure, pas les formules magiques.

Comment organiser sa bibliothèque de prompts ? Je stocke les miens dans Notion, classés par cas d'usage avec une ligne de description. Un prompt bien documenté est un actif réutilisable. Traitez-le comme du code de production : versionnez, annotez, itérez.

Pour approfondir les techniques avancées de prompting, voir le guide chain-of-thought prompting sur ce site. Pour les meilleurs prompts de productivité prêts à l'emploi, la sélection testée est directement applicable.

Le prompt engineering n'est pas une compétence mystérieuse. C'est de la rédaction d'instructions précises, comme on en rédige pour une équipe humaine. La différence avec un humain : l'IA suit vos instructions à la lettre, sans inférence, sans bon sens implicite. C'est à la fois sa force et sa limite. Adapter votre façon d'écrire des instructions à cette réalité, c'est l'essentiel de ce que ce guide cherche à transmettre.