Fabien Cappelli

Robie V1 — Wake Word, STT and TTS on Raspberry Pi

2026-04-12T00:00:00+00:00

A Real Local Voice Loop

Today’s session had a simple goal: turn Robie into something more than a blinking prototype.

The idea was to validate a complete voice pipeline running locally on a Raspberry Pi:

waiting for a wake word
listening to the command
speech transcription in French
spoken playback using text-to-speech
returning to idle mode

In other words: a first fully local conversational loop, without relying on any cloud service.

Tested Architecture

The selected pipeline relies on lightweight components suitable for a Raspberry Pi:

OpenWakeWord for wake word detection
SoundDevice for audio capture
Vosk for offline speech recognition
Pico TTS for speech synthesis
DotStar LEDs for visual feedback

The behavior is intentionally simple:

LEDs off while idle
red while listening
yellow while processing
playback of the response
lights off and return to standby

Pleasant Surprise: Pico TTS

The most positive surprise of the day was the speed of Pico TTS.

The voice is clearly synthetic, almost retro, but generation is immediate and perfectly usable on modest hardware. In Robie’s case, that limitation almost becomes a strength: the robotic sound fits the project’s identity.

The real challenge is therefore not the voice itself, but the quality of the audio chain (speakers, volume, mixing, output quality).

Speech Recognition Results

The tests confirmed that local transcription works, but with predictable limitations:

noticeable latency
variable results depending on speech clarity
weaker performance with children’s voices
more difficulty with younger users

One interesting lesson already emerged: the system performs better when the speaker talks clearly and without hesitation. That means part of the user experience will also involve learning how to interact with it effectively.

What This Session Validates

Even imperfect, the prototype proves several important points:

a local voice assistant on Raspberry Pi is realistic
open-source building blocks are enough for a credible V1
the full wake word → STT → TTS loop genuinely works
current limitations are more ergonomic than conceptual

This is a bigger milestone than it may seem: Robie is no longer just an assembly of components, but an object that listens, sometimes understands, and responds.

Improvement Paths

Future iterations could focus on:

better recognition of children’s voices
lower latency
improved audio output quality
more natural dialogues
interruption during playback
handling stories, voice notes, and multiple commands

Conclusion

The result is not perfect. Robie is sometimes slow, sometimes hesitant, sometimes clumsy.

But it works — and the children were wildly excited.

Robie V1 — Wake Word, STT et TTS sur Raspberry Pi

2026-04-12T00:00:00+00:00

Une vraie boucle vocale locale

La session du jour avait un objectif simple : transformer Robie en quelque chose de plus qu’un prototype qui clignote.

L’idée était de valider une chaîne complète, embarquée sur Raspberry Pi :

attente d’un mot-clé (wake word)
écoute de la commande
transcription vocale en français
restitution de la phrase en synthèse vocale
retour en veille

Autrement dit : une première boucle conversationnelle locale, sans dépendre d’un service cloud.

Architecture testée

Le pipeline retenu repose sur des composants légers et adaptés au Raspberry Pi :

OpenWakeWord pour la détection du mot d’activation
SoundDevice pour la capture audio
Vosk pour la reconnaissance vocale hors ligne
Pico TTS pour la synthèse vocale
DotStar LEDs pour le feedback visuel

Le comportement est volontairement simple :

LED éteintes en veille
rouge pendant l’écoute
jaune pendant le traitement
lecture de la réponse
extinction et reprise de la veille

Bonne surprise : Pico TTS

La découverte la plus positive de la journée a été la rapidité de Pico TTS.

La voix est clairement synthétique, presque rétro, mais la génération est immédiate et parfaitement exploitable sur une machine modeste. Dans le cadre de Robie, ce défaut devient presque une qualité : le rendu robotique colle bien à l’identité du projet.

Le vrai enjeu n’est donc pas tant la voix que la qualité de la chaîne audio (haut-parleurs, volume, mixage, sortie sonore).

Résultats sur la reconnaissance vocale

Les tests ont confirmé que la transcription locale fonctionne, mais avec des limites prévisibles :

latence perceptible
résultats variables selon la clarté de la diction
performances plus fragiles avec les voix d’enfants
davantage de difficulté avec les plus jeunes utilisateurs

Un point intéressant est déjà apparu : l’outil fonctionne mieux quand la personne parle de manière nette et sans hésitation. Cela signifie qu’une partie de l’expérience utilisateur passera aussi par l’apprentissage du bon usage du système.

Ce que cette session valide

Même imparfait, le prototype prouve plusieurs choses importantes :

un assistant vocal local sur Raspberry Pi est réaliste
des briques open source suffisent pour une V1 crédible
la boucle complète wake word → STT → TTS fonctionne réellement
les limites actuelles sont davantage ergonomiques que conceptuelles

C’est un cap plus important qu’il n’y paraît : Robie n’est plus seulement un assemblage de composants, mais un objet qui écoute, comprend parfois, et répond.

Pistes d’amélioration

Les prochaines itérations pourront viser :

meilleure reconnaissance des voix enfantines
réduction de la latence
amélioration de la sortie audio
dialogues plus naturels
interruption pendant la lecture
gestion d’histoires, notes vocales et commandes multiples

Conclusion

Le résultat n’est pas parfait. Robie est parfois lent, parfois hésitant, parfois maladroit.

Mais il fonctionne, et les enfants étaient surexcités.

Architecture of v2

2026-04-04T00:00:00+00:00

While trying to think through the behavior I really want, I realized my naïve approach was incomplete. Robie will actually need to listen while it is reading. Because we’ll want to interrupt it:

to change the story
to switch to another action
to adjust the volume, since right now there is nothing in place to control Robie’s volume

To kick off the thinking process, nothing beats a small diagram.

Flow

flowchart TB Start([Start]) --> Idle[Idle: waiting for wake word] Idle --> Wake[/Wake word said/] Wake --> Listen[/Record or listen live/] Listen --> DetectIntent[Process intent] DetectIntent --> ConfirmIntent[/Confirm intent/] ConfirmIntent --> IsConfirmIntent{Intent confirmed?} IsConfirmIntent -- No --> Listen IsConfirmIntent -- Yes --> IsIntent{Which intent?} IsIntent -- Read a story --> ReadingInit[Enter reading mode] IsIntent -- Take a note --> NotePrompt[/Please record the note/] IsIntent -- Other request --> HandleOther[Handle other intent] NotePrompt --> NoteListen[/Record note/] NoteListen --> NoteSave[Save note] NoteSave --> Idle HandleOther --> Idle subgraph ReadingMode [Reading mode] ReadingInit --> StartPlayback[Start audio playback] StartPlayback --> ReadingLoop[Reading active] ReadingLoop --> CheckCommand{Command detected?} ReadingLoop --> CheckTime{Is it midnight?} ReadingLoop --> EndOfStory{Story finished?} CheckCommand -- No --> ReadingLoop CheckCommand -- Stop --> StopPlayback[Stop playback] CheckCommand -- Volume up --> VolumeUp[Increase volume] CheckCommand -- Volume down --> VolumeDown[Decrease volume] VolumeUp --> ReadingLoop VolumeDown --> ReadingLoop CheckTime -- No --> ReadingLoop CheckTime -- Yes --> Shutdown[Shutdown device] EndOfStory -- No --> ReadingLoop EndOfStory -- Yes --> ExitReading[Exit reading mode] end StopPlayback --> Idle ExitReading --> Idle

Consequences

The central point is that Reading is not a one-shot action.
It is a long-running active mode, during which several things must exist at the same time:

continuous audio playback
listening for control commands
monitoring the time
the ability to interrupt playback cleanly

In other words, my system can no longer be designed as a simple linear chain such as:

wake → listen → STT → action → end

It must become a system with persistent activity + concurrent events.

First Constraint: Concurrency

Since I do not want to split playback into tiny chunks, the reading must continue while something else is happening.

That implies some form of concurrency, typically:

multithreading
separate processes
or a more advanced event loop

In all cases, we move beyond the logic of “one loop doing everything in order”.

Concretely, I will probably need at least:

one component managing playback
one component listening to the microphone
one component processing commands
one component monitoring the clock
one orchestrator deciding what to do

Second Constraint: Clean Inter-Component Communication

As soon as multiple activities run in parallel, I need to define how they communicate.

For example:

the microphone module detects “stop”
it must notify the playback module
the clock module detects midnight
it must trigger a global shutdown
the playback module reaches the end of the file
it must notify the system to return to Idle

So I can no longer rely on simple functions calling one another directly. I need logic such as:

events
message queues
state flags
synchronization objects

Otherwise, I’ll quickly end up with spaghetti code.

Third Constraint: A Real State Model

My diagram implicitly says that we are no longer only in “do an action”, but in “be in a state”.

For example:

Idle
Listening
Reading
Note recording
maybe later Thinking
maybe Shutting down

And while in Reading, some commands are allowed:

stop
volume up
volume down

while others may not be allowed, or not handled the same way.

So I need to explicitly model:

the current state
allowed transitions
what happens when an event arrives in a given state

Otherwise I’ll get fuzzy behaviors like:

“What does Robie do if someone talks while it is reading?” “What happens if midnight occurs during a volume command?”

Fourth Constraint: Clean Interruption

Continuous audio playback means I must be able to:

stop immediately
possibly pause
change volume on the fly
exit without leaving the audio system in a broken state

So the audio player cannot be a simple blocking command launched without control. It must be a controllable component, with commands such as:

start
stop
pause
set_volume

And those commands must remain safe no matter when they arrive.

Fifth Constraint: Speech Recognition Can No Longer Be Designed the Same Way

In a classic conversational loop, we do:

record
transcribe
act

But here, during reading, I need to detect very short commands continuously.

So I am no longer doing only “classic” STT. Instead, I need continuous control listening, probably with:

reduced vocabulary
limited command logic
fast and robust detection

So the problem is no longer:

“transcribe an open request”

but rather:

“quickly and reliably detect a few critical commands”

That is a different kind of need.

Sixth Constraint: Risk of Robie Hearing Itself

This is probably one of the hidden big challenges of reading mode.

If Robie reads aloud while listening, the microphone may capture:

its own playback
reverberation
children’s voices
ambient noise

So I’ll need safeguards such as:

short and highly specific commands
adapted thresholds / detection logic
maybe a secondary wake word in reading mode
or microphone / volume / physical placement adjustments

The diagram does not mention it, but formalizing Reading as an interactive mode directly creates this problem.

Seventh Constraint: Priority Logic

Not all events have the same weight.

For example:

Shutdown at midnight is probably highest priority
Stop playback is very high priority
Volume up is less critical
Story finished is a normal event

So I will need to define a policy:

what interrupts what
who wins in case of collision
in what order events are processed

Without that, strange behaviors are likely.

Eighth Constraint: Separate Behavior from Implementation

The diagram is excellent because it formalizes the expected behavior. But it also forces an important distinction:

functional level: what Robie must do
technical level: how it is implemented

In this case, the formalization already says I will probably need:

a controllable audio player
parallel listening
autonomous time monitoring
an event system
explicit state management

Even if I have not yet chosen between:

thread
callback
queue
process

Summary

This formalization leads to one clear conclusion:

Robie can no longer be developed as a simple sequential pipeline. Reading mode requires a concurrent, event-driven architecture with explicit state management.

More concretely, that means:

several activities must run at the same time
they must communicate cleanly
the system must know its current state
playback must be interruptible at any moment
voice detection during playback becomes a specific problem
priorities and transitions must be handled properly

Architecture de la v2

2026-04-04T00:00:00+00:00

En essayant de réfléchir au comportement que je veux vraiment avoir, je comprends que mon approche naïve était incomplète. Il va falloir que Robie arrive en fait à écouter en même temps qu’il “lit”. Parce qu’on va vouloir l’interrompre :

pour qu’il change d’histoire
pour qu’il change d’action
pour régler le volume, même, car pour l’instant il n’y a rien pour pouvoir contrôler le volume de Robie

Pour amorcer la réflexion, rien de tel qu’un petit schéma

Flow

Conséquences

Le point central, c’est que Reading n’est pas une action ponctuelle. C’est un mode actif long, pendant lequel plusieurs choses doivent exister en même temps :

la lecture audio continue
l’écoute de commandes de contrôle
la surveillance de l’heure
la capacité à interrompre proprement la lecture

Autrement dit, mon système ne peut plus être pensé comme une simple chaîne linéaire du type :

wake → écoute → STT → action → fin

Il doit devenir un système avec activité persistante + événements concurrents.

Première contrainte : Concurrence

Comme je ne veux pas découper la lecture en petits bouts, la lecture doit pouvoir continuer pendant qu’autre chose se passe.

Ça implique une forme de concurrence, typiquement :

multithread
ou processus séparés
ou boucle événementielle plus élaborée

Mais dans tous les cas, on quitte la logique “une seule boucle qui fait tout dans l’ordre”.

Concrètement, il faudra probablement au minimum distinguer :

un composant qui gère la lecture
un composant qui écoute le micro
un composant qui traite les commandes
un composant qui surveille l’heure
un orchestrateur qui décide quoi faire

Deuxième contrainte : Communication inter-composants propre

Dès qu’on a plusieurs activités en parallèle, on doit définir comment elles communiquent.

Par exemple :

le module micro détecte “stop”
il doit prévenir le module lecture
le module horloge détecte minuit
il doit déclencher un arrêt global
le module lecture termine le fichier
il doit notifier le système pour revenir à Idle

Donc je ne peux plus me contenter de fonctions qui s’appellent les unes les autres de manière simple. Il faut une logique de type :

événements
files de messages
drapeaux d’état
objets de synchronisation

Sinon je vais très vite entrer dans du spaghetti.

Troisième contrainte : Vrai modèle d’état

Mon schéma dit implicitement qu’on n’est plus seulement dans “faire une action”, mais dans “être dans un état”.

Par exemple :

Idle
Listening
Reading
Note recording
peut-être plus tard Thinking
peut-être Shutting down

Et pendant Reading, certaines commandes sont autorisées :

stop
volume up
volume down

alors que d’autres ne le sont peut-être pas, ou pas de la même manière.

Donc il faut modéliser explicitement :

l’état courant
les transitions autorisées
ce qui se passe quand un événement arrive dans tel ou tel état

Sinon j’aurai des comportements flous du genre : “que fait Robie si on lui parle pendant qu’il lit ?” “qu’arrive-t-il si minuit tombe pendant une commande volume ?”

Quatrième contrainte : Interruption propre

Une lecture audio continue, ça veut dire qu’il faudra savoir :

arrêter immédiatement
mettre en pause éventuellement
changer le volume à chaud
sortir sans laisser le système audio dans un état bancal

Donc le lecteur audio ne pourra pas être une simple commande bloquante lancée sans contrôle. Il faudra un composant pilotable, avec des commandes du type :

start
stop
pause
set_volume

Et ces commandes devront être sûres même si elles arrivent à n’importe quel moment.

Cinquième contrainte : la reconnaissance vocale ne peut plus être pensée comme avant

Dans la boucle conversationnelle classique, on fait :

on enregistre
puis on transcrit
puis on agit

Mais ici, pendant la lecture, il faut détecter en continu des commandes très courtes.

Donc je ne fais plus de la STT “classique” seulement. Je fais plutôt une écoute de contrôle en continu, probablement avec :

vocabulaire réduit
logique de commandes limitées
détection robuste et rapide

Donc le problème n’est plus : “transcrire une demande ouverte”

mais plutôt : “repérer vite et proprement quelques ordres critiques”

C’est un autre type de besoin.

Sixième contrainte : Risque que Robie s’entende lui-même

C’est sans doute l’un des gros défis cachés du mode lecture.

Si Robie lit à voix haute pendant qu’il écoute, alors le micro risque de capter :

sa propre lecture
de la réverbération
des voix d’enfants
du bruit ambiant

Donc je devrai penser à des garde-fous :

commandes courtes très spécifiques
seuils / détection adaptée
peut-être wake word secondaire en mode lecture
ou réglages micro/volume/placement physique

Le diagramme n’en parle pas, mais la formalisation de Reading comme mode interactif implique directement ce problème.

Septième contrainte : Logique de priorités

Tous les événements n’ont pas le même poids.

Par exemple :

Shutdown at midnight doit sans doute être prioritaire
Stop playback est très prioritaire
Volume up est moins critique
Story finished est un événement normal

Donc il faudra définir une politique :

qui interrompt quoi
qui gagne en cas de collision
dans quel ordre on traite les événements

Sans ça, risques de comportements bizarres.

Huitième contrainte : Séparer comportement et implémentation

Le schéma est excellent parce qu’il formalise le comportement attendu. Mais il force aussi une distinction importante :

niveau fonctionnel : ce que Robie doit faire
niveau technique : comment on le réalise

Dans ce cas, la formalisation dit déjà qu’il faudra probablement :

un lecteur audio contrôlable
une écoute en parallèle
une surveillance horaire autonome
un système d’événements
une gestion d’état explicite

Même si on n’a pas encore choisi :

thread
callback
queue
process

En résumé

La formalisation entraîne ceci :

Robie ne peut plus être développé comme un simple pipeline séquentiel. Le mode lecture impose une architecture concurrente, pilotée par événements, avec gestion d’état explicite.

Plus concrètement, ça veut dire :

plusieurs activités doivent vivre en même temps
elles doivent communiquer proprement
le système doit connaître son état courant
la lecture doit être interrompable à tout moment
la détection vocale pendant lecture devient un problème spécifique
il faut gérer les priorités et les transitions proprement

Continuation of v1

2026-04-03T00:00:00+00:00

Rebuilding a Clean Virtual Environment

And… crash.

Everything broke, especially the Adafruit Voice Bonnet handling.

I had to start over to make audio input and output work again.

Step 1 — The Real Wall: Low-Level Audio

Before even talking about AI, the first challenge was… the microphone.

Problems encountered:

RPi.GPIO errors → conflict between Python environment and system libraries
sounddevice unable to open the audio stream
PulseAudio / PipeWire locking the device
ALSA detects the card… but rejects every format

Typical symptoms:

PortAudioError: Invalid number of channels
device or resource busy
Unable to install hw params

Important lessons:

On Raspberry Pi, avoid high-level audio layers
Go directly through ALSA (arecord)
Disable PipeWire/PulseAudio if needed
Check codec configuration with alsamixer

Once this step is solved, everything becomes much easier.

Step 2 — Working Audio Pipeline

After stabilization, we finally get:

microphone → ALSA → recording → processing → playback

And on the UX side:

LED off → standby
red LED → listening
yellow LED → processing
sound → response

At this stage, the robot already feels “alive”.

Step 3 — Whisper Attempt (and Failure)

The next logical step was transcription with faster-whisper.

Result:

huge latency (several seconds, sometimes tens of seconds)
poor quality with the tiny model
impossible to improve quality without exploding compute time

Why it fails:

Raspberry Pi 4 is too limited for modern STT
Whisper is optimized for GPUs or powerful CPUs
impossible to maintain a good quality/speed tradeoff

Conclusion: Whisper is excellent… but not for this use case on Pi.

Step 4 — Pivot to Vosk

Strategy shift: test Vosk.

Immediate result:

much better latency
almost correct transcription
stable pipeline

Big improvement.

But…

New problem:

~10 seconds to process 4 seconds of audio
still too slow for natural interaction

Key Insight: Wrong Problem

The issue was not the engine.

The issue was the task.

We were asking:

“Freely transcribe everything I say”

When the real need was:

“Recognize a few simple commands”

Step 5 — Paradigm Shift

Instead of voice dictation, move to voice command recognition.

Example:

```python id=”a1r7kp” if “hello” in text: play(“hello.mp3”)

Or even better: restrict the vocabulary directly in Vosk:

```python id="w2m5dz"
rec = KaldiRecognizer(
    model,
    16000,
    '["hello", "story", "music", "stop"]'
)

Result:

faster
more reliable
much more robust

Final Architecture (V1)

Wake word
    ↓
Red LED (listening)
    ↓
Short recording (2–3s)
    ↓
Vosk (limited vocabulary)
    ↓
Simple intent
    ↓
Audio response
    ↓
Back to standby

What Really Made the Difference

What does not work well

Whisper on Raspberry Pi
abstracted audio layers (sounddevice, PulseAudio)
free transcription on a weak CPU

What works

direct ALSA (arecord)
simple and deterministic pipeline
Vosk with restricted vocabulary
intent logic rather than full NLP

Result

We move from:

a slow and frustrating prototype

to:

a fast, responsive voice assistant usable by children

What Comes Next?

Once this solid base is ready:

add end-of-speech detection (VAD)
improve responses (TTS or sounds)
add simple memory
possibly connect an LLM (later)

Conclusion

The key issue in this project was not an AI problem.

It was an architecture choice problem.

On limited hardware:

you must simplify the problem
not just optimize the solution

Continuation de la v1

2026-04-03T00:00:00+00:00

Reconstitution d’un environnement virtuel sain

Et… patatra… Tout se brise, et notamment la gestion du bonnet voice Adafruit.

Je dois tout recommencer pour faire en sorte que le son entre et sorte.

Étape 1 — Le vrai mur : l’audio bas niveau

Avant même de parler d’IA, le premier défi a été… le micro.

Problèmes rencontrés :

erreurs RPi.GPIO → conflit entre environnement Python et libs système
sounddevice incapable d’ouvrir le flux audio
PulseAudio / PipeWire qui monopolisent le device
ALSA qui voit la carte… mais refuse tous les formats

Symptômes typiques :

PortAudioError: Invalid number of channels
device or resource busy
Unable to install hw params

Leçons importantes :

Sur Raspberry Pi, éviter les couches audio haut niveau
Aller directement vers ALSA (arecord)
Désactiver PipeWire/PulseAudio si nécessaire
Vérifier la config du codec via alsamixer

Une fois cette étape passée, tout devient beaucoup plus simple.

Étape 2 — Pipeline audio fonctionnel

Après stabilisation, on obtient enfin :

micro → ALSA → enregistrement → traitement → playback

Et côté UX :

LED éteinte → veille
LED rouge → écoute
LED jaune → traitement
son → réponse

À ce stade, le robot “vit” déjà.

Étape 3 — Tentative avec Whisper (et échec)

L’étape suivante logique était la transcription avec faster-whisper.

Résultat :

latence énorme (plusieurs secondes voire dizaines de secondes)
mauvaise qualité avec modèle tiny
impossible de monter en qualité sans exploser le temps de calcul

Pourquoi ça échoue :

Raspberry Pi 4 trop limité pour du STT moderne
Whisper optimisé pour GPU ou CPU puissants
compromis qualité / vitesse impossible à tenir

Conclusion : Whisper est excellent… mais pas pour ce cas d’usage sur Pi.

Étape 4 — Pivot vers Vosk

Changement de stratégie : tester Vosk.

Résultat immédiat :

latence bien meilleure
transcription presque correcte
pipeline stable

Grosse amélioration.

Mais…

Nouveau problème :

~10 secondes pour traiter 4 secondes d’audio
encore trop lent pour une interaction naturelle

Compréhension clé : mauvais problème

Le problème n’était pas le moteur.

Le problème était la tâche.

On demandait :

“Transcris librement tout ce que je dis”

Alors que le vrai besoin était :

“Reconnais quelques commandes simples”

Étape 5 — Changement de paradigme

Au lieu de faire de la dictée vocale, on passe à reconnaissance de commandes vocales

Exemple :

if "bonjour" in text:
    play("bonjour.mp3")

Ou mieux encore : limiter le vocabulaire directement dans Vosk :

rec = KaldiRecognizer(
    model,
    16000,
    '["bonjour", "histoire", "musique", "stop"]'
)

Résultat :

plus rapide
plus fiable
beaucoup plus robuste

Architecture finale (V1)

Wake word
    ↓
LED rouge (écoute)
    ↓
Enregistrement court (2–3s)
    ↓
Vosk (vocabulaire limité)
    ↓
Intent simple
    ↓
Réponse audio
    ↓
Retour veille

Ce qui a vraiment fait la différence

Ce qui ne marche pas bien

Whisper sur Raspberry Pi
audio abstrait (sounddevice, PulseAudio)
transcription libre sur CPU faible

Ce qui marche

ALSA direct (arecord)
pipeline simple et déterministe
Vosk avec vocabulaire restreint
logique d’intentions plutôt que NLP complet

Résultat

On passe de :

un prototype lent et frustrant

à :

un assistant vocal rapide, réactif et utilisable par des enfants

Et après ?

Une fois cette base solide :

ajouter détection de fin de parole (VAD)
améliorer les réponses (TTS ou sons)
ajouter mémoire simple
éventuellement brancher un LLM (mais plus tard)

Conclusion

Le point clé de ce projet n’a pas été un problème d’IA.

C’était un problème de choix d’architecture.

Sur du matériel limité :

il faut simplifier le problème
pas juste optimiser la solution

Project Kickoff

2026-03-28T00:00:00+00:00

Goal

Build a system able to:

listen continuously
detect a wake word
record a voice command
understand the intent
trigger an action
respond with sound or voice

All of it locally, with no cloud dependency.

Overall Architecture

The system is split into several blocks:

Microphone
→ Wake word
→ Recording
→ Speech-to-Text (Whisper)
→ Interpretation (LLM)
→ Action
→ Response (sounds / TTS / LEDs)

Each block will be explored and validated separately.

1. Audio and Hardware

The project relies on:

Raspberry Pi (Debian Bookworm)
Adafruit Voice Bonnet (microphones + LEDs + speakers)
audio output tested with pink noise

Important points:

correctly identify the right audio device
properly handle simultaneous input/output
implement clean LED management (cleanup)

2. Wake Word: the First Challenge

❌ Picovoice (Porcupine)

Initially considered, but dropped:

now requires a pro account
external dependency
less suitable for a long-term personal project

✅ openWakeWord

Chosen solution:

open source
runs locally
based on TFLite models

Issues encountered:

missing models → download_models()
NumPy / SciPy conflicts → downgrade and version alignment
false positives → filtering required

Solutions implemented:

high threshold (~0.95)
several consecutive frames
refractory period (10s)
stop audio stream during actions

👉 Key takeaway: a wake word is not reliable “raw” — it needs control logic

3. Classic Problem: the Robot Triggers Itself

Robie was detecting its own audio output (feedback loop).

Solution:

pause listening during:
- recording
- sound response
add a grace delay

4. STT ≠ Understanding

Testing faster-whisper

5. Introducing a Local LLM

Test with Ollama + Qwen2.5 (1.5B)

Result:

~2 second latency
stable behavior
viable for embedded usage

👉 Conclusion: a small local LLM on Raspberry Pi is usable

The Key Metric: Latency

What matters is not total speed, but the time before the response starts.

< 3 seconds : good
3–6 : acceptable
> 6 : frustrating

UX trick:

yellow LED = “thinking”
intermediate sound cue

👉 turns lag into natural behavior

6. Role of the LLM in Robie

The LLM should not be used for open-ended chatting.

It will be used to:

transform a sentence into an intent
structure the command

Example:

Input:

“Robie, note that Thomas needs to bring his coat tomorrow”

Output:

{
  "intent": "take_note",
  "content": "Thomas needs to bring his coat tomorrow",
  "answer": "Noted."
}

The Python code then executes the action.

7. French Language Support

Important constraint: French-speaking children.

Solutions:

multilingual Whisper (not .en)
language forced to fr
multilingual LLM (Qwen works well)
prompts in French
intents in French

⚠️ Note: children’s voices are harder to recognize → tolerance will be needed.

8. What About My Coral TPU?

Not usable for LLMs.

Why:

Coral = quantized TFLite models
LLM = incompatible architecture

Relevant future uses:

vision (camera)
object detection
environmental perception

Conclusion

This first session shows that building a local embedded assistant is probably achievable. Next step: finish testing each block, then start designing the overall architecture for version 2.

V1

Component testing and performance stability

V2

Pipeline construction and first real-world tests

Démarrage du projet

2026-03-28T00:00:00+00:00

Objectif

Construire un système capable de :

écouter en permanence
détecter un mot d’éveil (wake word)
enregistrer une commande vocale
comprendre l’intention
déclencher une action
répondre avec du son ou de la voix

Le tout localement, sans dépendance cloud.

Architecture globale

Le système se décompose en plusieurs briques :

Micro
→ Wake word
→ Enregistrement
→ Speech-to-Text (Whisper)
→ Interprétation (LLM)
→ Action
→ Réponse (sons / TTS / LEDs)

Chaque brique va être explorée et validée séparément.

1. Audio et matériel

Le projet s’appuie sur :

Raspberry Pi (Debian Bookworm)
Adafruit Voice Bonnet (micros + LEDs + haut-parleurs)
sortie audio testée via bruit rose

Points importants :

bien identifier le bon device audio
gérer correctement l’entrée/sortie simultanée
prévoir une gestion propre des LEDs (cleanup)

2. Wake word : le premier défi

❌ Picovoice (Porcupine)

Initialement envisagé, mais abandonné :

demande désormais un compte pro
dépendance externe
moins adapté à un projet perso long terme

✅ openWakeWord

Choix retenu :

open source
fonctionne en local
basé sur des modèles TFLite

Difficultés rencontrées :

modèles manquants → download_models()
conflits NumPy / SciPy → downgrade et alignement versions
faux positifs → nécessité de filtrage

Solutions mises en place :

seuil élevé (~0.95)
plusieurs frames consécutives
période réfractaire (10s)
arrêt du stream pendant l’action

👉 Le point clé : un wake word n’est pas fiable “brut” — il faut le cadrer

3. Problème classique : le robot s’auto-déclenche

Robie détectait son propre son (feedback audio).

Solution :

couper l’écoute pendant :
- enregistrement
- réponse sonore
ajouter un délai de grâce

4. STT ≠ compréhension

On essaye faster-whisper

5. Introduction d’un LLM local

Test avec Ollama + Qwen2.5 (1.5B)

Résultat :

latence ~2 secondes
fonctionnement stable
viable pour un usage embarqué

👉 Conclusion : un petit LLM local sur Pi est exploitable

La métrique clé : la latence

Ce qui compte n’est pas la vitesse globale, mais le temps avant que la réponse commence.

< 3 secondes : bon
3–6 : acceptable
> 6 : frustrant

Astuce UX :

LED jaune = “réflexion”
son intermédiaire

👉 transforme un lag en comportement naturel

6. Rôle du LLM dans Robie

Le LLM ne peut pas être utilisé pour “discuter”.

Il servira à :

transformer une phrase en intention
structurer la commande

Exemple :

Entrée :

“Robie, note que Thomas doit prendre son manteau demain”

Sortie :

{
  "intent": "take_note",
  "content": "Thomas doit prendre son manteau demain",
  "answer": "C’est noté."
}

Le code Python exécute ensuite l’action.

7. Support du français

Contrainte importante : enfants francophones.

Solutions :

Whisper multilingue (pas .en)
langue forcée en fr
LLM multilingue (Qwen OK)
prompts en français
intents en français

⚠️ Attention : la reconnaissance des voix d’enfants est plus difficile → prévoir tolérance.

8. Et ma Coral TPU ?

Non utilisable pour les LLM.

Pourquoi :

Coral = modèles TFLite quantifiés
LLM = architecture incompatible

Usage futur pertinent :

vision (caméra)
détection d’objets
perception environnement

Conclusion

Cette première session montre qu’il est probablement possible de construire un assistant embarqué local. Pour la suite, je dois finir de tester chaque brique, et commencer à envisager l’architecture globale de ma v2.

V1

Test des briques et stabilité des performances

V2

Construction du pipeline et premiers tests en conditions réelles