Modalità Trova e Spiega

📖 Come funziona Trova

Quando Trova è attivo, pronuncia il nome di qualsiasi elemento visibile sullo schermo e Seaclic lo cerca e ci clicca sopra automaticamente.

1. Parli

Dici ad esempio "File", "Cerca", "pulsante verde" o la descrizione di qualcosa che vedi.

2. Cattura schermo

Seaclic scatta un'istantanea del monitor (o di tutti i monitor se configurato).

3. Analizza

Il backend attivo (vedi sotto) analizza l'immagine e localizza l'elemento.

4. Clic

Il cursore si sposta sulla posizione trovata e viene simulato un click sinistro.

⚙️ I tre backend

Puoi scegliere il backend nella scheda Riconoscimento delle impostazioni. Ogni backend ha caratteristiche diverse in termini di precisione, velocità e privacy.

Backend	Funzionamento	Connessione	Adatto per
Locale (OCR + DINO)	EasyOCR per testi, GroundingDINO per oggetti	Offline	Uso generico, massima privacy
VLM locale (Qwen2.5-VL)	Modello multimodale offline tramite Ollama	Offline	Descrizioni complesse, elemeni senza testo visibile
Cloud (Azure / GPT-4.1)	Screenshot inviato a LLM multimodale cloud	Internet (Azure OpenAI / OpenAI)	Massima accuratezza, ragionamento contestuale

🖥️ Backend locale — OCR + GroundingDINO

Il backend predefinito. Utilizza due motori in cascata:

EasyOCR — legge tutto il testo visibile sullo schermo e cerca una corrispondenza fuzzy con la parola pronunciata.
GroundingDINO — se OCR non trova nulla, cerca l'oggetto descritto nell'immagine tramite rilevamento visivo. La query viene automaticamente tradotta in inglese prima di essere passata al modello.

💡 Prestazioni OCR è molto veloce (1–2 secondi). GroundingDINO è più lento (3–8 s su CPU) ma può trovare elementi grafici senza testo (icone, immagini, logo). Con GPU la velocità migliora significativamente.

✅ Multi-monitor Puoi scegliere di cercare su un singolo monitor o su tutti in sequenza. Impostazione: Schermo → scheda Riconoscimento.

🤖 Backend VLM locale — Qwen2.5-VL

Usa un modello di linguaggio visivo (Vision Language Model) che gira offline sul tuo computer tramite Ollama. Il modello predefinito è Qwen2.5-VL (Alibaba, ~4–8 GB a seconda della quantizzazione).

Primo avvio

Seaclic gestisce automaticamente l'installazione di Ollama e il download del modello al primo utilizzo, con richiesta di consenso e barra di avanzamento. Dopo il download, il modello resta disponibile offline.

Perché usarlo

Capisce descrizioni complesse: "il campo di testo con il cursore", "l'avatar del profilo in alto a destra".
Funziona su elementi puramente grafici senza testo.
Necessario per la modalità Spiega.
Tutto offline: nessun dato inviato fuori dal dispositivo.

⚠️ Requisiti hardware Il VLM richiede almeno 8 GB di RAM (16 GB consigliati). Con GPU NVIDIA compatibile CUDA, l'inferenza è molto più veloce (2–5 s invece di 15–30 s su CPU).

☁️ Backend Cloud — Azure OpenAI / GPT-4.1

Invia lo screenshot a un modello multimodale cloud (Azure OpenAI o OpenAI GPT-4.1). Il modello ragiona sull'immagine intera e risponde con coordinate precise.

Griglia di precisione

Il backend cloud usa una griglia numerata sovrapposta allo schermo. Il modello indica la cella della griglia dove si trova l'elemento, e Seaclic calcola le coordinate esatte. La precisione della griglia è regolabile:

Precisione griglia	Celle	Nota
1 (bassa)	poche celle grandi	Veloce, meno token
5 (media)	griglia bilanciata	Buon compromesso
10 (alta)	molte celle piccole	Massima precisione, più token

Con precisione alta, se l'elemento non è stato trovato nella prima griglia, Seaclic può effettuare un refinement multi-passo: zooma sulla cella candidata e ripete l'analisi con una griglia più fine.

Configurazione

Nella scheda Cloud Vision delle impostazioni, seleziona il provider (Azure o OpenAI).
Inserisci l'API key e, per Azure, l'endpoint e il nome del deployment.
Imposta la Precisione griglia (default: 5).

⚠️ Privacy Con il backend cloud, ogni ricerca invia uno screenshot del tuo schermo al provider cloud. Non usare questa modalità se lo schermo contiene informazioni riservate o sensibili.

💬 Modalità Spiega

Spiega è una sotto-modalità di Trova che usa il VLM o il backend Cloud per descrivere la schermata a voce e rispondere a domande. Invece di cliccare su un elemento, l'IA parla.

⚠️ Requisito Spiega richiede il backend VLM locale o Cloud. Non funziona con il backend OCR+DINO (che non ha capacità di generare testo descrittivo).

Cosa puoi fare

Descrizione generale: dici "spiega" o "descrivi schermo" e l'IA descrive cosa vede ad alta voce (TTS).
Domande contestuali: fai domande in linguaggio naturale, es. "quanti messaggi non letti ci sono?", "che ora è?".
Conversazione multi-turno: Spiega mantiene il contesto degli ultimi scambi. Puoi fare domande di follow-up senza ricominciare da capo.
Azioni da conversazione: puoi chiedere "clicca su OK" e Spiega passerà automaticamente a Trova per localizzare e cliccare l'elemento menzionato.

Flusso tipico

Attiva Spiega

Abilita la modalità Trova. La sotto-modalità Spiega si attiva automaticamente se usi il VLM o Cloud backend.

Fai una domanda

Dici ad esempio "cosa c'è su questo schermo?" o "spiega cosa sta succedendo".

Ascolta la risposta

L'IA descrive la schermata ad alta voce via TTS e mostra il testo nella finestra chat.

Continua la conversazione

Fai domande di approfondimento. Il contesto viene mantenuto tra le domande.

⚙️ Impostazioni chiave

Impostazione	Default	Dove	Descrizione
Backend Trova	Locale (OCR+DINO)	Scheda Riconoscimento	Scegli tra locale, VLM o cloud
Monitor	Monitor principale	Scheda Riconoscimento	Quale schermo usare per Trova
Usa OCR	Sì	Scheda Riconoscimento	Abilita/disabilita EasyOCR nel backend locale
Usa Detection (DINO)	Sì	Scheda Riconoscimento	Abilita/disabilita GroundingDINO nel backend locale
Precisione griglia cloud	5	Scheda Cloud Vision	1–10; valori più alti → più precisione, più token API
Modello VLM (Ollama)	qwen2.5vl (auto-download)	Scheda VLM	Modello Ollama da usare per VLM locale e Spiega