📋 Le sei modalità
Seaclic ha sei modalità indipendenti: usale singolarmente o insieme.
Pronuncia il nome di un elemento sullo schermo: Seaclic lo trova e ci clicca sopra.
Tre backend: Locale (OCR + GroundingDINO), VLM locale (Qwen2.5-VL offline),
Cloud (Azure OpenAI / GPT-4.1).
La sotto-modalità Spiega usa lo stesso backend per descrivere la schermata
e rispondere a domande via conversazione multi-turno con TTS.
Controlla il cursore del mouse con la voce: 12 comandi personalizzabili (destra, sinistra, su, giù, click, doppio click, click destro, mantieni, rilascia, scorri su/giù, stop). Il movimento è continuo fino al comando "stop". Velocità e parole chiave completamente configurabili.
Associa parole o frasi a qualsiasi azione: tastiera, mouse, gamepad, IR, TTS, Alexa, Google Home e altro. Organizza in profili (es. uno per i giochi, uno per il lavoro). Fuzzy matching tollerante per il riconoscimento di pronunce imperfette. Passive listening: avvia il sistema con la sola voce.
Rimappa input fisici — tasti, pulsanti mouse, pulsanti gamepad — in qualsiasi azione. Trigger configurabile su pressione (↓), rilascio (↑) o mantenimento prolungato. Opzione di sopprimere l'input originale per un remapping completo. Ideale per switch access, telecomandi e controller alternativi.
Traccia i movimenti della testa via webcam (MediaPipe) a 30 FPS. Mappa le 4 direzioni (su/giù/sinistra/destra) a tastiera, mouse, pulsanti gamepad, trigger analogici o joystick analogico (8 semi-assi). Calibrazione guidata in 5 passi. Auto-drift per compensare spostamenti di postura. Profili multipli esportabili.
Eye tracking via webcam (MediaPipe Iris) o Tobii ET5. Output: cursore mouse, joystick gamepad, D-pad digitale. Eye Button: bottoni a schermo attivati fissandoli (dwell), draggabili e ridimensionabili. Blink-click: ammiccamento singolo eye → click sinistro. Calibrazione a 9 punti, profili multipli (Occhiali, Sera…).
🔗 Combinare le modalità
Tracking + Comandi: testa → joystick gamepad, voce → pulsanti A/B/X/Y e scatti.
Gaze + Eye Button: fissa un bottone a schermo e invia segnali IR/Alexa/Google Home.
Gaze + blink-click + Comandi: sguardo per muovere il cursore, ammiccamento per cliccare, voce per i tasti.
Spiega + Trova: descrizione vocale della schermata, poi clic diretto sull'elemento trovato dall'IA.
Per una guida completa alle combinazioni consigliate, vedi la Guida rapida.