2026-04-12

Une vraie boucle vocale locale

La session du jour avait un objectif simple : transformer Robie en quelque chose de plus qu’un prototype qui clignote.

L’idée était de valider une chaîne complète, embarquée sur Raspberry Pi :

  • attente d’un mot-clé (wake word)
  • écoute de la commande
  • transcription vocale en français
  • restitution de la phrase en synthèse vocale
  • retour en veille

Autrement dit : une première boucle conversationnelle locale, sans dépendre d’un service cloud.


Architecture testée

Le pipeline retenu repose sur des composants légers et adaptés au Raspberry Pi :

  • OpenWakeWord pour la détection du mot d’activation
  • SoundDevice pour la capture audio
  • Vosk pour la reconnaissance vocale hors ligne
  • Pico TTS pour la synthèse vocale
  • DotStar LEDs pour le feedback visuel

Le comportement est volontairement simple :

  • LED éteintes en veille
  • rouge pendant l’écoute
  • jaune pendant le traitement
  • lecture de la réponse
  • extinction et reprise de la veille

Bonne surprise : Pico TTS

La découverte la plus positive de la journée a été la rapidité de Pico TTS.

La voix est clairement synthétique, presque rétro, mais la génération est immédiate et parfaitement exploitable sur une machine modeste. Dans le cadre de Robie, ce défaut devient presque une qualité : le rendu robotique colle bien à l’identité du projet.

Le vrai enjeu n’est donc pas tant la voix que la qualité de la chaîne audio (haut-parleurs, volume, mixage, sortie sonore).


Résultats sur la reconnaissance vocale

Les tests ont confirmé que la transcription locale fonctionne, mais avec des limites prévisibles :

  • latence perceptible
  • résultats variables selon la clarté de la diction
  • performances plus fragiles avec les voix d’enfants
  • davantage de difficulté avec les plus jeunes utilisateurs

Un point intéressant est déjà apparu : l’outil fonctionne mieux quand la personne parle de manière nette et sans hésitation. Cela signifie qu’une partie de l’expérience utilisateur passera aussi par l’apprentissage du bon usage du système.


Ce que cette session valide

Même imparfait, le prototype prouve plusieurs choses importantes :

  • un assistant vocal local sur Raspberry Pi est réaliste
  • des briques open source suffisent pour une V1 crédible
  • la boucle complète wake word → STT → TTS fonctionne réellement
  • les limites actuelles sont davantage ergonomiques que conceptuelles

C’est un cap plus important qu’il n’y paraît : Robie n’est plus seulement un assemblage de composants, mais un objet qui écoute, comprend parfois, et répond.


Pistes d’amélioration

Les prochaines itérations pourront viser :

  • meilleure reconnaissance des voix enfantines
  • réduction de la latence
  • amélioration de la sortie audio
  • dialogues plus naturels
  • interruption pendant la lecture
  • gestion d’histoires, notes vocales et commandes multiples

Conclusion

Le résultat n’est pas parfait. Robie est parfois lent, parfois hésitant, parfois maladroit.

Mais il fonctionne, et les enfants étaient surexcités.