Bloc IA

1. Présentation

Le Bloc IA permet de construire un Prompt à l’aide d’un ou de plusieurs Blocs Imbriqués, ce Prompt permettra de générer un contenu dynamique lors de la réalisation de la Publication par l’Utilisateur.

Par défaut, le Bloc IA permet d’ajouter autant de Blocs Imbriqués que nécessaire comme un Bloc Groupe mais le contenu des Blocs Imbriqués constituera l’ensemble du Prompt.

Il est donc possible de le découper en plusieurs étages, de le rendre complexe, avec des variables et des portions entières masquées ou non selon les différentes règles conditionnelles.

2. Spécificités

Il est essentiel de garder en tête que l’ensemble du contenu visible dans le Bloc IA, une fois l’assignation des Attributs réalisée via l’Assistant / Wizard, constitue un Prompt.

Il est nécessaire d’adapter les formulations pour rendre le Prompt le plus efficace possible.

Si vous avez besoin d’un prompt très long, adaptez le choix du modèle en conséquence pour qu’il puisse le prendre en charge.

Sélection des modèles d'IA

Depuis les paramètres du Bloc IA vous pouvez également choisir le modèle à utiliser.

Vue d'ensemble des modèles

Thinkeo propose une sélection étendue de modèles d'IA, chacun ayant ses propres capacités de raisonnement et de prise en charge du contexte. Il convient d'adapter le choix de votre modèle à l'usage spécifique de votre application.

Les modèles présentent leur capacité de contexte en tokens. En français, on estime qu'un mot fait en moyenne 1.5 tokens. Le contexte total est partagé entre l'input (prompt) et l'output (réponse) d'un modèle. Chaque entreprise proposant des modèles d'IA offre généralement deux alternatives : un modèle intelligent pour les tâches complexes et un autre plus rapide et moins coûteux adapté aux tâches simples.

OpenAI - Modèles GPT

Série o (Modèles avec raisonnement avancé)

o4 Mini

Modèle avec capacités de raisonnement renforcées
Version optimisée pour l'efficacité
Adapté aux raisonnements très complexes
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 65 536 tokens

Modèle avancé avec raisonnement approfondi
Excellente performance sur les tâches de raisonnement très complexes
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 100 000 tokens

o3 Mini

Version allégée de o3 avec raisonnement intégré
Alternative économique pour les raisonnements complexes
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 65 536 tokens

Série GPT-4

GPT-4.1 (Modèle recommandé par Thinkeo)

Meilleur rapport performance/coût/polyvalence
Excellentes capacités de raisonnement avec contexte massif
Traite efficacement les gros documents tout en restant économique
Contexte total : 1 000 000 tokens
Longueur de réponse : jusqu'à 16 384 tokens

GPT-4.1 Mini

Version optimisée de GPT-4.1 pour la rapidité et l'économie
Idéal pour les tâches simples sur des contextes raisonnables
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 16 384 tokens

GPT-4.1 Nano

Version ultra-légère pour les tâches simples
Maximum d'efficacité pour les cas d'usage basiques
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 16 384 tokens

GPT-4o

Modèle équilibré entre performance et efficacité
Alternative polyvalente à GPT-4.1
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 16 384 tokens

GPT-4o Mini

Version plus légère de GPT-4o
Alternative rapide pour les tâches simples
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 16 384 tokens

Google - Modèles Gemini

Gemini 2.5 Pro

Le meilleur modèle pour analyser des documents massifs et complexes
Idéal pour l'extraction d'informations depuis des contenus volumineux nécessitant du raisonnement
Contexte total : jusqu'à 2 000 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens

Gemini 2.5 Flash

Version optimisée pour la rapidité sur des contextes massifs
Parfait pour l'extraction d'informations simples sans raisonnement complexe
Contexte total : jusqu'à 1 000 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens

Anthropic - Modèles Claude

Claude Sonnet 4

Dernière génération de modèles Claude, performance de pointe pour les tâches les plus exigeantes
Excellent pour l'analyse complexe, la rédaction avancée et le raisonnement sophistiqué
Contexte total : 200 000 tokens
Longueur de réponse en sortie : jusqu'à 64 000 tokens

Claude Opus 4

Version ultra-performante pour les tâches nécessitant le plus haut niveau de raisonnement et de créativité
Idéal pour les analyses approfondies et la génération de contenu créatif complexe
Contexte total : 200 000 tokens
Longueur de réponse en sortie : jusqu'à 32 000 tokens

Claude 3.5 Haiku

Version plus légère et rapide
Idéal pour les tâches simples sur des contextes raisonnables
Bon complément économique pour l'extraction d'informations et la rédaction
Contexte total : 200 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens

Mistral - Modèles français

Pixtral Large

Modèle européen le plus performant de Mistral
Excellent pour les tâches de traitement de texte nécessitant la souveraineté européenne
Surpasse Mistral Large en performance générale
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens

Mistral Large

Modèle équilibré entre performance et efficacité
L'alternative française à GPT-4o
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens

Mistral Medium

Nouvelle version intermédiaire offrant un excellent compromis performance/coût
Adapté pour les tâches moyennement complexes nécessitant un bon niveau de raisonnement
Contexte total : 128 000 tokens
Longueur de réponse en sortie : jusqu'à 8192 tokens

Mistral Small

Version intermédiaire entre performance et rapidité
Excellent rapport qualité/prix pour des tâches moyennement complexes
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens

Perplexity - Modèles avec recherche web

Sonnar Pro

Modèle avancé avec capacité de recherche web intégrée
Adapté pour la recherche et alimenter un autre bloc IA
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens

Sonnar

Version plus légère et rapide de Sonnar
Adaptée pour des tâches simples à moyennement complexes avec recherche web
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 4 096 tokens

Perplexity Deep Research

Modèle de recherche avancée avec capacité d'analyse approfondie du Web
Synthèse de sources multiples pour les recherches complexes nécessitant une compréhension nuancée
Contexte total : 128 000 tokens
Longueur de réponse en sortie : jusqu'à 8192 tokens

Ces modèles sont particulièrement utiles pour les tâches nécessitant des informations à jour provenant du web.

Modèles Open Source (hébergés chez Scaleway)

Deepseek R1

Modèle open source avec capacités de raisonnement
Alternative économique pour des tâches complexes
Contexte total : 64 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens

Llama 3.3

Dernière version du modèle Llama de Meta
Excellente performance généraliste
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens

Mistral Small (Open Source)

Version open source de Mistral Small
Alternative économique au modèle propriétaire
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens

Llama 3.1

Dernière version du modèle Meta, excellente alternative open source
Adapté pour de nombreuses tâches de génération de texte avec de bonnes performances
Contexte total : 128 000 tokens
Longueur de réponse en sortie : jusqu'à 8192 tokens

Mistral Nemo

Version compacte et efficace de Mistral optimisée pour la rapidité
Excellent rapport performance/coût pour les déploiements nécessitant économie de ressources
Contexte total : 128 000 tokens
Longueur de réponse en sortie : jusqu'à 4096 tokens

Guide de sélection par cas d'usage

Pour une utilisation polyvalente : GPT-4.1 offre le meilleur rapport performance/coût/polyvalence avec ses capacités de raisonnement et son contexte massif de 1M tokens, permettant de traiter les gros documents tout en restant moins coûteux que Gemini 2.5 Pro.

Pour les tâches simples : GPT-4.1 Mini ou Claude 3.5 Haiku constituent d'excellents choix économiques sur des contextes raisonnables.

Pour l'analyse de documents massifs et complexes : Gemini 2.5 Pro excelle dans l'extraction d'informations depuis des contenus volumineux nécessitant du raisonnement, particulièrement quand GPT-4.1 atteint ses limites.

Pour les contextes massifs sans raisonnement complexe : Gemini 2.5 Flash optimise les coûts pour l'extraction d'informations simples.

Pour les raisonnements très complexes : Les modèles de la série o (o3, o3 Mini, o4 Mini) avec leur raisonnement avancé intégré.

Pour le raisonnement sur contextes moyens : Claude 3.7 Sonnet offre d'excellentes capacités sur des volumes de données intermédiaires.

Pour la souveraineté européenne : Pixtral Large représente la meilleure option française/européenne, ou les modèles Open Source hébergés chez Scaleway.

Considérations économiques et performances

Le choix du modèle impacte directement les coûts de votre application. Les modèles plus performants sont généralement plus coûteux, mais peuvent se révéler plus économiques pour des tâches complexes en nécessitant moins d'itérations.

Optimisation des coûts :

Utilisez les modèles "Mini" ou "Haiku" pour les tâches simples et répétitives
Privilégiez GPT-4.1 pour son excellent rapport qualité/prix sur les tâches complexes
Réservez Gemini 2.5 Pro aux analyses de très gros documents quand nécessaire
Exploitez les modèles open source pour les cas d'usage moins critiques

Surveillance des performances : Utilisez le système de suivi de consommation intégré à Thinkeo pour monitorer les coûts par application et optimiser vos choix de modèles selon vos besoins réels.

Les paramètres

Les paramètres vont vous permettre d’ajuster plus précisément le comportement attendu par l’IA, ce qui influera sur les réponses générées.

💡Les paramètres peuvent être définis au niveau de l’App pour s’appliquer à tous les blocs IA de l’App. Vous pouvez ainsi mettre en place une configuration globale pour vos blocs IA sans avoir à les changer un à un.

Vous pouvez toujours modifier manuellement le paramètre d’un bloc pour lui appliquer un paramétrage particulier. Le paramétrage sur le bloc est toujours prioritaire sur le paramétrage au niveau de l’App.

Les paramètres utilisables sont :

Température (Temperature) : Ce paramètre contrôle le degré de variabilité dans les réponses du modèle. Une température basse rend les réponses plus déterministes et conservatrices, tandis qu'une température élevée augmente la créativité et la diversité des réponses, mais peut les rendre moins cohérentes.
Top P (ou Nucleus Sampling) : Ce paramètre limite les choix de tokens (mots ou parties de mots) en fonction de leur probabilité cumulée. Si Top P est bas, le modèle choisira parmi les tokens les plus probables. Si Top P est élevé, cela augmente la diversité des réponses possibles en incluant des tokens moins probables.
Pénalité de Fréquence (Frequency Penalty) : Ce paramètre pénalise les tokens qui apparaissent fréquemment dans la réponse générée. Une pénalité de fréquence plus élevée réduit la répétition des mots, rendant la réponse plus variée.
Pénalité de Présence (Presence Penalty) : Ce paramètre pénalise les tokens qui apparaissent déjà dans la réponse générée, encourageant ainsi le modèle à introduire de nouveaux concepts. Une pénalité de présence plus élevée augmente la diversité en dissuadant le modèle de réutiliser les mêmes mots.

Les valeurs possibles changeront selon le modèle sélectionné, la Température est ajustée de façon dynamique lorsque vous basculez d’un modèle à un autre, pensez à vérifier qu’elles correspondent à vos attentes.

💡 Il est déconseillé de modifier la Température et le Top P en même temps, privilégiez l’un ou l’autre en combinaison avec un ou deux paramètres de pénalité. Nous vous conseillons de jouer essentiellement avec la Température, et éventuellement avec la pénalité de fréquence.

Activation du raisonnement

Certains modèles d'IA proposent une fonctionnalité de raisonnement avancé qui permet d'améliorer la qualité des réponses pour les tâches complexes nécessitant une réflexion approfondie. Cette capacité transforme l'approche traditionnelle de génération en permettant au modèle de "réfléchir" avant de répondre.

Modèles compatibles avec l'activation du raisonnement dans Thinkeo

OpenAI - Série o (modèles dédiés au raisonnement)

o3 : Modèle avancé avec raisonnement approfondi
o3 Mini : Version allégée avec raisonnement intégré
o4 Mini : Modèle optimisé avec capacités de raisonnement renforcées

Anthropic - Modèles hybrides

Claude 4 Sonnet : Modèle hybride avec raisonnement activable

Google - Modèles avec thinking intégré

Gemini 2.5 Pro : Modèle thinking avec raisonnement automatique
Gemini 2.0 Flash Thinking : Version expérimentale dédiée au raisonnement

Fonctionnement du raisonnement

Lorsque le raisonnement est activé, le modèle adopte une approche méthodique qui se décompose en plusieurs phases :

Phase d'analyse : Le modèle décompose la demande en sous-problèmes et identifie les éléments clés à traiter.

Phase de réflexion : Il explore différentes approches possibles et évalue les implications de chaque choix.

Phase de synthèse : Le modèle consolide sa réflexion pour produire une réponse structurée et argumentée.

Cette approche est particulièrement bénéfique pour :

Les problèmes nécessitant une analyse étape par étape
Les tâches de raisonnement logique, mathématique ou scientifique
Les questions complexes nécessitant une approche méthodique
L'analyse de documents techniques ou la résolution de problèmes multi-étapes
Les cas où la transparence du processus de réflexion est importante

Configuration et impact

L'activation du raisonnement se fait directement dans les paramètres du bloc IA. Cette option n'est disponible que si vous avez sélectionné un modèle compatible.

Considérations importantes :

Temps de traitement : Le raisonnement augmente significativement le temps de réponse (de quelques secondes à plusieurs minutes)
Coût : Les modèles de raisonnement sont généralement plus coûteux à utiliser
Qualité : L'amélioration de la qualité des réponses justifie souvent l'investissement supplémentaire pour les tâches complexes
Transparence : Certains modèles comme DeepSeek R1 exposent leur processus de réflexion, permettant de comprendre leur cheminement

Choix du modèle de raisonnement

Pour un raisonnement équilibré : Claude 3.7 Sonnet offre un excellent compromis avec sa nature hybride permettant de basculer entre réponse rapide et raisonnement approfondi.

Pour un raisonnement très complexe : Les modèles de la série o d'OpenAI (o3, o3 Mini, o4 Mini) excellent dans les tâches nécessitant une réflexion très poussée.

Pour l'analyse de contextes massifs : Gemini 2.5 Pro combine raisonnement et capacité à traiter de très gros volumes de données.

Les Prompts systèmes

Vous pouvez aussi ajouter un Prompt système complémentaire selon votre méthode de Prompting. Un Prompt système peut être utilisé pour préciser un rôle ou des instructions spécifiques qui faciliteront l'interprétation de l'IA ou aiguilleront sa compréhension de l'ensemble du Prompt.

⚠️ Un bloc IA doit être exécuté depuis une Étape de l'Assistant / Wizard, soit directement soit via un de ses blocs parents. Il est toujours recommandé d'executer votre App en une seule fois.

Le Prompting est un sujet à part entière sur lequel il convient d’itérer pour arriver au résultat souhaité.

Soyez clair, précis et structuré sur vos Prompts.

Mis à jour le : 24/07/2025

Cet article a-t-il répondu à vos questions ?

Merci !