πŸ“– Come funziona Trova

Quando Trova Γ¨ attivo, pronuncia il nome di qualsiasi elemento visibile sullo schermo e Seaclic lo cerca e ci clicca sopra automaticamente.

1. Parli

Dici ad esempio "File", "Cerca", "pulsante verde" o la descrizione di qualcosa che vedi.

2. Cattura schermo

Seaclic scatta un'istantanea del monitor (o di tutti i monitor se configurato).

3. Analizza

Il backend attivo (vedi sotto) analizza l'immagine e localizza l'elemento.

4. Clic

Il cursore si sposta sulla posizione trovata e viene simulato un click sinistro.

βš™οΈ I tre backend

Puoi scegliere il backend nella scheda Riconoscimento delle impostazioni. Ogni backend ha caratteristiche diverse in termini di precisione, velocitΓ  e privacy.

BackendFunzionamentoConnessioneAdatto per
Locale (OCR + DINO) EasyOCR per testi, GroundingDINO per oggetti Offline Uso generico, massima privacy
VLM locale (Qwen2.5-VL) Modello multimodale offline tramite Ollama Offline Descrizioni complesse, elemeni senza testo visibile
Cloud (Azure / GPT-4.1) Screenshot inviato a LLM multimodale cloud Internet (Azure OpenAI / OpenAI) Massima accuratezza, ragionamento contestuale

πŸ–₯️ Backend locale β€” OCR + GroundingDINO

Il backend predefinito. Utilizza due motori in cascata:

  1. EasyOCR β€” legge tutto il testo visibile sullo schermo e cerca una corrispondenza fuzzy con la parola pronunciata.
  2. GroundingDINO β€” se OCR non trova nulla, cerca l'oggetto descritto nell'immagine tramite rilevamento visivo. La query viene automaticamente tradotta in inglese prima di essere passata al modello.
πŸ’‘ Prestazioni OCR Γ¨ molto veloce (1–2 secondi). GroundingDINO Γ¨ piΓΉ lento (3–8 s su CPU) ma puΓ² trovare elementi grafici senza testo (icone, immagini, logo). Con GPU la velocitΓ  migliora significativamente.
βœ… Multi-monitor Puoi scegliere di cercare su un singolo monitor o su tutti in sequenza. Impostazione: Schermo β†’ scheda Riconoscimento.

πŸ€– Backend VLM locale β€” Qwen2.5-VL

Usa un modello di linguaggio visivo (Vision Language Model) che gira offline sul tuo computer tramite Ollama. Il modello predefinito Γ¨ Qwen2.5-VL (Alibaba, ~4–8 GB a seconda della quantizzazione).

Primo avvio

Seaclic gestisce automaticamente l'installazione di Ollama e il download del modello al primo utilizzo, con richiesta di consenso e barra di avanzamento. Dopo il download, il modello resta disponibile offline.

PerchΓ© usarlo

  • Capisce descrizioni complesse: "il campo di testo con il cursore", "l'avatar del profilo in alto a destra".
  • Funziona su elementi puramente grafici senza testo.
  • Necessario per la modalitΓ  Spiega.
  • Tutto offline: nessun dato inviato fuori dal dispositivo.
⚠️ Requisiti hardware Il VLM richiede almeno 8 GB di RAM (16 GB consigliati). Con GPU NVIDIA compatibile CUDA, l'inferenza Γ¨ molto piΓΉ veloce (2–5 s invece di 15–30 s su CPU).

☁️ Backend Cloud β€” Azure OpenAI / GPT-4.1

Invia lo screenshot a un modello multimodale cloud (Azure OpenAI o OpenAI GPT-4.1). Il modello ragiona sull'immagine intera e risponde con coordinate precise.

Griglia di precisione

Il backend cloud usa una griglia numerata sovrapposta allo schermo. Il modello indica la cella della griglia dove si trova l'elemento, e Seaclic calcola le coordinate esatte. La precisione della griglia Γ¨ regolabile:

Precisione grigliaCelleNota
1 (bassa)poche celle grandiVeloce, meno token
5 (media)griglia bilanciataBuon compromesso
10 (alta)molte celle piccoleMassima precisione, piΓΉ token

Con precisione alta, se l'elemento non Γ¨ stato trovato nella prima griglia, Seaclic puΓ² effettuare un refinement multi-passo: zooma sulla cella candidata e ripete l'analisi con una griglia piΓΉ fine.

Configurazione

  1. Nella scheda Cloud Vision delle impostazioni, seleziona il provider (Azure o OpenAI).
  2. Inserisci l'API key e, per Azure, l'endpoint e il nome del deployment.
  3. Imposta la Precisione griglia (default: 5).
⚠️ Privacy Con il backend cloud, ogni ricerca invia uno screenshot del tuo schermo al provider cloud. Non usare questa modalità se lo schermo contiene informazioni riservate o sensibili.

πŸ’¬ ModalitΓ  Spiega

Spiega Γ¨ una sotto-modalitΓ  di Trova che usa il VLM o il backend Cloud per descrivere la schermata a voce e rispondere a domande. Invece di cliccare su un elemento, l'IA parla.

⚠️ Requisito Spiega richiede il backend VLM locale o Cloud. Non funziona con il backend OCR+DINO (che non ha capacità di generare testo descrittivo).

Cosa puoi fare

  • Descrizione generale: dici "spiega" o "descrivi schermo" e l'IA descrive cosa vede ad alta voce (TTS).
  • Domande contestuali: fai domande in linguaggio naturale, es. "quanti messaggi non letti ci sono?", "che ora Γ¨?".
  • Conversazione multi-turno: Spiega mantiene il contesto degli ultimi scambi. Puoi fare domande di follow-up senza ricominciare da capo.
  • Azioni da conversazione: puoi chiedere "clicca su OK" e Spiega passerΓ  automaticamente a Trova per localizzare e cliccare l'elemento menzionato.

Flusso tipico

Attiva Spiega

Abilita la modalitΓ  Trova. La sotto-modalitΓ  Spiega si attiva automaticamente se usi il VLM o Cloud backend.

Fai una domanda

Dici ad esempio "cosa c'Γ¨ su questo schermo?" o "spiega cosa sta succedendo".

Ascolta la risposta

L'IA descrive la schermata ad alta voce via TTS e mostra il testo nella finestra chat.

Continua la conversazione

Fai domande di approfondimento. Il contesto viene mantenuto tra le domande.

βš™οΈ Impostazioni chiave

ImpostazioneDefaultDoveDescrizione
Backend Trova Locale (OCR+DINO) Scheda Riconoscimento Scegli tra locale, VLM o cloud
Monitor Monitor principale Scheda Riconoscimento Quale schermo usare per Trova
Usa OCR Sì Scheda Riconoscimento Abilita/disabilita EasyOCR nel backend locale
Usa Detection (DINO) Sì Scheda Riconoscimento Abilita/disabilita GroundingDINO nel backend locale
Precisione griglia cloud 5 Scheda Cloud Vision 1–10; valori piΓΉ alti β†’ piΓΉ precisione, piΓΉ token API
Modello VLM (Ollama) qwen2.5vl (auto-download) Scheda VLM Modello Ollama da usare per VLM locale e Spiega