Bloc IA
1. Présentation
Le Bloc IA permet de construire un Prompt à l’aide d’un ou de plusieurs Blocs Imbriqués, ce Prompt permettra de générer un contenu dynamique lors de la réalisation de la Publication par l’Utilisateur.
Par défaut, le Bloc IA permet d’ajouter autant de Blocs Imbriqués que nécessaire comme un Bloc Groupe mais le contenu des Blocs Imbriqués constituera l’ensemble du Prompt.
Il est donc possible de le découper en plusieurs étages, de le rendre complexe, avec des variables et des portions entières masquées ou non selon les différentes règles conditionnelles.

2. Spécificités
Il est essentiel de garder en tête que l’ensemble du contenu visible dans le Bloc IA, une fois l’assignation des Attributs réalisée via l’Assistant / Wizard, constitue un Prompt.
Il est nécessaire d’adapter les formulations pour rendre le Prompt le plus efficace possible.
Si vous avez besoin d’un prompt très long, adaptez le choix du modèle en conséquence pour qu’il puisse le prendre en charge.
Sélection des modèles d'IA
Depuis les paramètres du Bloc IA vous pouvez également choisir le modèle à utiliser.

Vue d'ensemble des modèles
Thinkeo propose une sélection étendue de modèles d'IA, chacun ayant ses propres capacités de raisonnement et de prise en charge du contexte. Il convient d'adapter le choix de votre modèle à l'usage spécifique de votre application.
Les modèles présentent leur capacité de contexte en tokens. En français, on estime qu'un mot fait en moyenne 1.5 tokens. Le contexte total est partagé entre l'input (prompt) et l'output (réponse) d'un modèle. Chaque entreprise proposant des modèles d'IA offre généralement deux alternatives : un modèle intelligent pour les tâches complexes et un autre plus rapide et moins coûteux adapté aux tâches simples.
OpenAI - Modèles GPT
Série o (Modèles avec raisonnement avancé)
o4 Mini
Modèle avec capacités de raisonnement renforcées
Version optimisée pour l'efficacité
Adapté aux raisonnements très complexes
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 65 536 tokens
o3
Modèle avancé avec raisonnement approfondi
Excellente performance sur les tâches de raisonnement très complexes
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 100 000 tokens
o3 Mini
Version allégée de o3 avec raisonnement intégré
Alternative économique pour les raisonnements complexes
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 65 536 tokens
Série GPT-4
GPT-4.1 (Modèle recommandé par Thinkeo)
Meilleur rapport performance/coût/polyvalence
Excellentes capacités de raisonnement avec contexte massif
Traite efficacement les gros documents tout en restant économique
Contexte total : 1 000 000 tokens
Longueur de réponse : jusqu'à 16 384 tokens
GPT-4.1 Mini
Version optimisée de GPT-4.1 pour la rapidité et l'économie
Idéal pour les tâches simples sur des contextes raisonnables
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 16 384 tokens
GPT-4.1 Nano
Version ultra-légère pour les tâches simples
Maximum d'efficacité pour les cas d'usage basiques
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 16 384 tokens
GPT-4o
Modèle équilibré entre performance et efficacité
Alternative polyvalente à GPT-4.1
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 16 384 tokens
GPT-4o Mini
Version plus légère de GPT-4o
Alternative rapide pour les tâches simples
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 16 384 tokens
Google - Modèles Gemini
Gemini 2.5 Pro
Le meilleur modèle pour analyser des documents massifs et complexes
Idéal pour l'extraction d'informations depuis des contenus volumineux nécessitant du raisonnement
Contexte total : jusqu'à 2 000 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens
Gemini 2.5 Flash
Version optimisée pour la rapidité sur des contextes massifs
Parfait pour l'extraction d'informations simples sans raisonnement complexe
Contexte total : jusqu'à 1 000 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens
Anthropic - Modèles Claude
Claude 3.7 Sonnet
Excellentes capacités de raisonnement sur des contextes moins volumineux
Version améliorée avec raisonnement renforcé
Contexte total : 200 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens
Claude 3.5 Haiku
Version plus légère et rapide
Idéal pour les tâches simples sur des contextes raisonnables
Bon complément économique pour l'extraction d'informations et la rédaction
Contexte total : 200 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens
Mistral - Modèles français
Pixtral Large
Modèle européen le plus performant de Mistral
Excellent pour les tâches de traitement de texte nécessitant la souveraineté européenne
Surpasse Mistral Large en performance générale
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens
Mistral Large
Modèle équilibré entre performance et efficacité
L'alternative française à GPT-4o
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens
Mistral Small
Version intermédiaire entre performance et rapidité
Excellent rapport qualité/prix pour des tâches moyennement complexes
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens
Perplexity - Modèles avec recherche web
Sonnar Pro
Modèle avancé avec capacité de recherche web intégrée
Adapté pour la recherche et alimenter un autre bloc IA
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens
Sonnar
Version plus légère et rapide de Sonnar
Adaptée pour des tâches simples à moyennement complexes avec recherche web
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 4 096 tokens
Ces modèles sont particulièrement utiles pour les tâches nécessitant des informations à jour provenant du web.
Modèles Open Source (hébergés chez Scaleway)
Deepseek R1
Modèle open source avec capacités de raisonnement
Alternative économique pour des tâches complexes
Contexte total : 64 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens
Llama 3.3
Dernière version du modèle Llama de Meta
Excellente performance généraliste
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens
Mistral Small (Open Source)
Version open source de Mistral Small
Alternative économique au modèle propriétaire
Contexte total : 128 000 tokens
Longueur de réponse : jusqu'à 8 192 tokens
Guide de sélection par cas d'usage
Pour une utilisation polyvalente : GPT-4.1 offre le meilleur rapport performance/coût/polyvalence avec ses capacités de raisonnement et son contexte massif de 1M tokens, permettant de traiter les gros documents tout en restant moins coûteux que Gemini 2.5 Pro.
Pour les tâches simples : GPT-4.1 Mini ou Claude 3.5 Haiku constituent d'excellents choix économiques sur des contextes raisonnables.
Pour l'analyse de documents massifs et complexes : Gemini 2.5 Pro excelle dans l'extraction d'informations depuis des contenus volumineux nécessitant du raisonnement, particulièrement quand GPT-4.1 atteint ses limites.
Pour les contextes massifs sans raisonnement complexe : Gemini 2.5 Flash optimise les coûts pour l'extraction d'informations simples.
Pour les raisonnements très complexes : Les modèles de la série o (o3, o3 Mini, o4 Mini) avec leur raisonnement avancé intégré.
Pour le raisonnement sur contextes moyens : Claude 3.7 Sonnet offre d'excellentes capacités sur des volumes de données intermédiaires.
Pour la souveraineté européenne : Pixtral Large représente la meilleure option française/européenne, ou les modèles Open Source hébergés chez Scaleway.
Considérations économiques et performances
Le choix du modèle impacte directement les coûts de votre application. Les modèles plus performants sont généralement plus coûteux, mais peuvent se révéler plus économiques pour des tâches complexes en nécessitant moins d'itérations.
Optimisation des coûts :
Utilisez les modèles "Mini" ou "Haiku" pour les tâches simples et répétitives
Privilégiez GPT-4.1 pour son excellent rapport qualité/prix sur les tâches complexes
Réservez Gemini 2.5 Pro aux analyses de très gros documents quand nécessaire
Exploitez les modèles open source pour les cas d'usage moins critiques
Surveillance des performances : Utilisez le système de suivi de consommation intégré à Thinkeo pour monitorer les coûts par application et optimiser vos choix de modèles selon vos besoins réels.
Les paramètres
Les paramètres vont vous permettre d’ajuster plus précisément le comportement attendu par l’IA, ce qui influera sur les réponses générées.
💡Les paramètres peuvent être définis au niveau de l’App pour s’appliquer à tous les blocs IA de l’App. Vous pouvez ainsi mettre en place une configuration globale pour vos blocs IA sans avoir à les changer un à un.

Vous pouvez toujours modifier manuellement le paramètre d’un bloc pour lui appliquer un paramétrage particulier. Le paramétrage sur le bloc est toujours prioritaire sur le paramétrage au niveau de l’App.
Les paramètres utilisables sont :
Température (Temperature) : Ce paramètre contrôle le degré de variabilité dans les réponses du modèle. Une température basse rend les réponses plus déterministes et conservatrices, tandis qu'une température élevée augmente la créativité et la diversité des réponses, mais peut les rendre moins cohérentes.
Top P (ou Nucleus Sampling) : Ce paramètre limite les choix de tokens (mots ou parties de mots) en fonction de leur probabilité cumulée. Si Top P est bas, le modèle choisira parmi les tokens les plus probables. Si Top P est élevé, cela augmente la diversité des réponses possibles en incluant des tokens moins probables.
Pénalité de Fréquence (Frequency Penalty) : Ce paramètre pénalise les tokens qui apparaissent fréquemment dans la réponse générée. Une pénalité de fréquence plus élevée réduit la répétition des mots, rendant la réponse plus variée.
Pénalité de Présence (Presence Penalty) : Ce paramètre pénalise les tokens qui apparaissent déjà dans la réponse générée, encourageant ainsi le modèle à introduire de nouveaux concepts. Une pénalité de présence plus élevée augmente la diversité en dissuadant le modèle de réutiliser les mêmes mots.
Les valeurs possibles changeront selon le modèle sélectionné, la Température est ajustée de façon dynamique lorsque vous basculez d’un modèle à un autre, pensez à vérifier qu’elles correspondent à vos attentes.
💡 Il est déconseillé de modifier la Température et le Top P en même temps, privilégiez l’un ou l’autre en combinaison avec un ou deux paramètres de pénalité. Nous vous conseillons de jouer essentiellement avec la Température, et éventuellement avec la pénalité de fréquence.
Activation du raisonnement
Certains modèles d'IA proposent une fonctionnalité de raisonnement avancé qui permet d'améliorer la qualité des réponses pour les tâches complexes nécessitant une réflexion approfondie. Cette capacité transforme l'approche traditionnelle de génération en permettant au modèle de "réfléchir" avant de répondre.
Modèles compatibles avec l'activation du raisonnement dans Thinkeo
OpenAI - Série o (modèles dédiés au raisonnement)
o3 : Modèle avancé avec raisonnement approfondi
o3 Mini : Version allégée avec raisonnement intégré
o4 Mini : Modèle optimisé avec capacités de raisonnement renforcées
Anthropic - Modèles hybrides
Claude 3.7 Sonnet : Premier modèle hybride avec raisonnement activable
Google - Modèles avec thinking intégré
Gemini 2.5 Pro : Modèle thinking avec raisonnement automatique
Gemini 2.0 Flash Thinking : Version expérimentale dédiée au raisonnement
Fonctionnement du raisonnement
Lorsque le raisonnement est activé, le modèle adopte une approche méthodique qui se décompose en plusieurs phases :
Phase d'analyse : Le modèle décompose la demande en sous-problèmes et identifie les éléments clés à traiter.
Phase de réflexion : Il explore différentes approches possibles et évalue les implications de chaque choix.
Phase de synthèse : Le modèle consolide sa réflexion pour produire une réponse structurée et argumentée.
Cette approche est particulièrement bénéfique pour :
Les problèmes nécessitant une analyse étape par étape
Les tâches de raisonnement logique, mathématique ou scientifique
Les questions complexes nécessitant une approche méthodique
L'analyse de documents techniques ou la résolution de problèmes multi-étapes
Les cas où la transparence du processus de réflexion est importante
Configuration et impact
L'activation du raisonnement se fait directement dans les paramètres du bloc IA. Cette option n'est disponible que si vous avez sélectionné un modèle compatible.
Considérations importantes :
Temps de traitement : Le raisonnement augmente significativement le temps de réponse (de quelques secondes à plusieurs minutes)
Coût : Les modèles de raisonnement sont généralement plus coûteux à utiliser
Qualité : L'amélioration de la qualité des réponses justifie souvent l'investissement supplémentaire pour les tâches complexes
Transparence : Certains modèles comme DeepSeek R1 exposent leur processus de réflexion, permettant de comprendre leur cheminement
Choix du modèle de raisonnement
Pour un raisonnement équilibré : Claude 3.7 Sonnet offre un excellent compromis avec sa nature hybride permettant de basculer entre réponse rapide et raisonnement approfondi.
Pour un raisonnement très complexe : Les modèles de la série o d'OpenAI (o3, o3 Mini, o4 Mini) excellent dans les tâches nécessitant une réflexion très poussée.
Pour l'analyse de contextes massifs : Gemini 2.5 Pro combine raisonnement et capacité à traiter de très gros volumes de données.
Les Prompts systèmes
Vous pouvez aussi ajouter un Prompt système complémentaire selon votre méthode de Prompting. Un Prompt système peut être utilisé pour préciser un rôle ou des instructions spécifiques qui faciliteront l'interprétation de l'IA ou aiguilleront sa compréhension de l'ensemble du Prompt.

⚠️ Un bloc IA doit être exécuté depuis une Étape de l'Assistant / Wizard, soit directement soit via un de ses blocs parents. Il est toujours recommandé d'executer votre App en une seule fois.
Le Prompting est un sujet à part entière sur lequel il convient d’itérer pour arriver au résultat souhaité.
Soyez clair, précis et structuré sur vos Prompts.
Mis à jour le : 30/05/2025
Merci !