.webp&w=3840&q=95)
Introducing The Eleven Album
A landmark musical release created in collaboration with world-class artists and powered by Eleven Music.
Bien interagir avec un grand modèle de langage pour un Système d'IA Conversationnelle peut faire toute la différence.
Aujourd'hui, le LLM est devenu le cœur battant des systèmes d'IA conversationnelle. Plus précisément, les LLM permettent à l'IA conversationnelle — initialement construite autour de vastes arborescences téléphoniques — d'offrir des fonctionnalités dynamiques et des expériences proches de l'humain. Cependant, les LLM ne sont pas une solution miracle ; ils nécessitent des interactions spécialisées car ils ne sont pas ajustés par défaut à la parole humaine.
Les développeurs commettent souvent l'erreur de réutiliser les mêmes méthodes que celles utilisées pour former les employés humains. Cette stratégie, bien que simple en apparence, est rarement fructueuse. Les LLM font des suppositions différentes de celles des humains typiques, et leur ton et leur portée par défaut ne sont pas propices aux interactions verbales.
Aujourd'hui, nous allons découvrir comment interagir avec les LLM pour construire des systèmes d'IA conversationnelle réussis. Vous pouvez également lire un guide plus complet et technique sur ce sujet dans les docs développeurs ElevenLabs.
Avant les LLM, les systèmes d'IA conversationnelle utilisaient de vastes arbres logiques pour trier les demandes en fonction des entrées verbales. Ce système était populaire parmi les numéros de service client (par exemple, les lignes aériennes) et les systèmes de paiement (par exemple, les services téléphoniques de carte de crédit).
Ces anciens systèmes étaient lents, semblaient robotiques et ne permettaient que des entrées humaines très limitées. Vous avez probablement déjà vécu cela, en criant « OUI » dans un téléphone pour répondre à une demande. Cette mauvaise expérience a poussé la plupart des utilisateurs à essayer de « contourner le système » pour forcer une conversation avec un agent humain.
Cependant, ces arborescences téléphoniques avaient un avantage — elles étaient contenues. Il n'y avait qu'un nombre limité de chemins qu'une conversation pouvait emprunter, et les développeurs pouvaient facilement mettre en place des garde-fous pour ignorer les entrées non autorisées. Cette contrainte souligne les avantages et les inconvénients des LLM : ils dépassent largement la nature limitée des arborescences téléphoniques, mais ils sont également imprévisibles, ouvrant une boîte de Pandore de pièges — comme faire des promesses impossibles, se fâcher avec les clients ou violer des données sensibles.
Si les LLM sont simplement formés sur un manuel conçu à l'origine pour les humains, ils auront un succès médiocre en raison de quelques lacunes fondamentales. Comprendre ces lacunes vous aidera à concevoir des interactions pour les combler :
Les LLM sont formés via l'apprentissage par renforcement, où le retour d'information humain incite les LLM à fournir des réponses structurées. Plus précisément, les réponses des LLM ont tendance à être verbeuses et remplies de puces, de blocs d'appel et de titres.
Cependant, dans le contexte de l'IA conversationnelle, les LLM doivent imiter la nature concise et aplatie des interactions verbales.
Les LLM ont tendance à combler les inconnues avec des connaissances inférées au lieu de poser des questions. Cela peut les amener à faire des suppositions incorrectes qui induiront les utilisateurs en erreur — ou entraîneront des erreurs coûteuses (par exemple, des remboursements promis). Plus tard, nous verrons comment utiliser une base de connaissances et des garde-fous pour mieux ancrer les LLM et éviter qu'ils ne fassent des promesses incorrectes ou n'exécutent des actions non autorisées.
Les LLM peuvent invoquer des appels de fonction de manière programmatique, recueillant et écrivant des données au nom des humains. Bien que cela soit généralement l'un des plus grands avantages des LLM, cela signifie également que les instructions de formation précédentes, qui permettaient aux agents d'appel de « gagner du temps » lors de l'exécution de tâches, ne sont plus nécessaires. Cependant, les appels de fonction ne sont pas instantanés non plus, ce qui signifie que les LLM doivent avertir précisément l'utilisateur chaque fois qu'un délai est attendu (par exemple, « donnez-moi un moment pour examiner votre cas »).
Les LLM réussissent assez bien à adapter le ton pour correspondre à un style. Un LLM peut être configuré pour paraître amical, humoristique, concis, formel ou une combinaison de styles. C'est un élément important lors de l'interaction avec un LLM.
Par exemple, les développeurs d'une application d'IA conversationnelle de service client conçue pour soutenir les clients mécontents des compagnies aériennes pourraient utiliser une interaction telle que :
Nicole
Les LLM doivent recevoir des instructions explicites sur la manière de répondre. Pour s'assurer qu'ils n'incluent pas de texte supplémentaire, les LLM doivent recevoir une structure qui encapsule la réponse transmise à l'utilisateur.
Par exemple, les LLM pourraient être invités à :
Cette structure encourage le LLM à fournir une réponse conçue pour être prononcée à haute voix.
Cependant, les LLM peuvent parfois trébucher sur des éléments qui ne diffèrent pas intuitivement du contenu écrit. Un exemple courant est celui des chiffres — un LLM pourrait imprimer un code postal comme 10023, ce qui amènera le text-to-speech à dire, « dix mille vingt-trois ». Au lieu de cela, le LLM devrait être explicitement invité à dire les chiffres individuellement, en indiquant ce que signifient les chiffres, par exemple, « Le code postal est un zéro zéro deux trois. »
La température est un paramètre crucial lors de la configuration des LLM pour l'IA conversationnelle. Une température plus basse produit des réponses plus ciblées et déterministes idéales pour les conversations orientées vers les tâches, tandis que des températures plus élevées créent des réponses plus créatives et variées.
Une basse température est idéale pour les systèmes d'IA conversationnelle qui préfèrent des réponses cohérentes (par exemple, une ligne de service client pour les remboursements). En revanche, pour les systèmes qui souhaitent offrir une expérience plus engageante et réaliste aux clients (par exemple, un coach numérique), une température élevée est préférable :
Pour les systèmes d'IA conversationnelle qui puisent dans de grands réservoirs de connaissances, une base de connaissances doit être utilisée pour minimiser la longueur de l'interaction. En production, cela se fait généralement via une base de données vectorielle (comme Pinecone ou Elasticsearch) ou le magasin de connaissances direct du fournisseur de LLM.
En général, les bases de connaissances sont essentielles pour ancrer les réponses des LLM dans des informations factuelles et approuvées. Lors de la création d'un système d'IA conversationnelle, vous devez fournir au LLM une base de connaissances complète contenant des informations précises et à jour sur les produits, services, politiques et procédures. Cela empêche le LLM de halluciner ou d'inventer des informations tout en encourageant des réponses cohérentes et fiables à travers les conversations.
Parce que les LLM invoquent souvent des fonctions au nom de l'utilisateur, ils doivent également savoir quelles entrées sont explicitement nécessaires. Par exemple, si le travail d'un LLM est d'aider un utilisateur à planifier un rendez-vous chez le coiffeur, il devra s'assurer qu'il dispose de :
Une implémentation naïve pourrait amener le LLM à demander toutes les informations en un seul tour de conversation. Cela est parfaitement acceptable par écrit, mais dans une conversation, cela peut être accablant :
Parce que l'information est généralement recueillie progressivement via la conversation, les LLM doivent être encouragés à obtenir ces informations de manière fragmentée. Le résultat est une expérience beaucoup plus conversationnelle :
Lors de la création de systèmes distribués, vous supposez que votre serveur plantera à un moment donné. De même, lors de la création de systèmes d'IA, vous devez supposer que votre LLM fera une erreur à un moment donné. Pour minimiser l'impact de cette erreur, vous devez donner à ces systèmes les permissions les plus basses nécessaires pour le travail à accomplir. Voici quelques exemples de façons de le faire :
Lors de la création de systèmes d'agent voix IA qui prennent des actions via l'utilisation d'outils, il est utile de construire un processus de validation et de vérification pour s'assurer que vous collectez les bonnes informations des utilisateurs. Aujourd'hui, lorsque vous parlez à un agent humain, il répétera toute information critique que vous donnez pour vérifier qu'il l'a bien entendue et que le client n'a pas mal parlé. Les LLM pourraient bénéficier d'un niveau similaire de vérification des erreurs :
Pour la validation, toute information reçue du client doit être vérifiée par rapport à la structure typique de cette information. Le numéro de téléphone a-t-il le bon nombre de chiffres ? L'âge donné par le client est-il dans une plage raisonnable ? Le client a-t-il fourni une adresse valide ?
Selon votre cas d'utilisation, vous pouvez vérifier toutes les informations reçues ou seulement celles qui ont échoué à la vérification. De plus, vous pouvez décider de vérifier chaque information au fur et à mesure qu'elle arrive ou de tout vérifier à la fin.
Réussir à interagir avec un agent IA implique de trouver le bon équilibre entre configurations et garde-fous pour créer une expérience qui imite une conversation humaine avec une efficacité accrue. Le processus n'est pas aussi trivial que d'utiliser d'anciens matériaux de formation pour interagir avec un LLM ; au contraire, les LLM sont des outils qui nécessitent une structure et une stratégie spécialisées pour produire des résultats prévisibles et efficaces.
.webp&w=3840&q=95)
A landmark musical release created in collaboration with world-class artists and powered by Eleven Music.

Scaling evidence-based voice solutions for gut-brain health