π Trova e Spiega
Clicca su qualsiasi elemento dello schermo pronunciandone il nome. Chiedi all'IA di descrivere la schermata.
π Come funziona Trova
Quando Trova Γ¨ attivo, pronuncia il nome di qualsiasi elemento visibile sullo schermo e Seaclic lo cerca e ci clicca sopra automaticamente.
1. Parli
Dici ad esempio "File", "Cerca", "pulsante verde" o la descrizione di qualcosa che vedi.
2. Cattura schermo
Seaclic scatta un'istantanea del monitor (o di tutti i monitor se configurato).
3. Analizza
Il backend attivo (vedi sotto) analizza l'immagine e localizza l'elemento.
4. Clic
Il cursore si sposta sulla posizione trovata e viene simulato un click sinistro.
βοΈ I tre backend
Puoi scegliere il backend nella scheda Riconoscimento delle impostazioni. Ogni backend ha caratteristiche diverse in termini di precisione, velocitΓ e privacy.
| Backend | Funzionamento | Connessione | Adatto per |
|---|---|---|---|
| Locale (OCR + DINO) | EasyOCR per testi, GroundingDINO per oggetti | Offline | Uso generico, massima privacy |
| VLM locale (Qwen2.5-VL) | Modello multimodale offline tramite Ollama | Offline | Descrizioni complesse, elemeni senza testo visibile |
| Cloud (Azure / GPT-4.1) | Screenshot inviato a LLM multimodale cloud | Internet (Azure OpenAI / OpenAI) | Massima accuratezza, ragionamento contestuale |
π₯οΈ Backend locale β OCR + GroundingDINO
Il backend predefinito. Utilizza due motori in cascata:
- EasyOCR β legge tutto il testo visibile sullo schermo e cerca una corrispondenza fuzzy con la parola pronunciata.
- GroundingDINO β se OCR non trova nulla, cerca l'oggetto descritto nell'immagine tramite rilevamento visivo. La query viene automaticamente tradotta in inglese prima di essere passata al modello.
π€ Backend VLM locale β Qwen2.5-VL
Usa un modello di linguaggio visivo (Vision Language Model) che gira offline sul tuo computer tramite Ollama. Il modello predefinito Γ¨ Qwen2.5-VL (Alibaba, ~4β8 GB a seconda della quantizzazione).
Primo avvio
Seaclic gestisce automaticamente l'installazione di Ollama e il download del modello al primo utilizzo, con richiesta di consenso e barra di avanzamento. Dopo il download, il modello resta disponibile offline.
PerchΓ© usarlo
- Capisce descrizioni complesse: "il campo di testo con il cursore", "l'avatar del profilo in alto a destra".
- Funziona su elementi puramente grafici senza testo.
- Necessario per la modalitΓ Spiega.
- Tutto offline: nessun dato inviato fuori dal dispositivo.
βοΈ Backend Cloud β Azure OpenAI / GPT-4.1
Invia lo screenshot a un modello multimodale cloud (Azure OpenAI o OpenAI GPT-4.1). Il modello ragiona sull'immagine intera e risponde con coordinate precise.
Griglia di precisione
Il backend cloud usa una griglia numerata sovrapposta allo schermo. Il modello indica la cella della griglia dove si trova l'elemento, e Seaclic calcola le coordinate esatte. La precisione della griglia Γ¨ regolabile:
| Precisione griglia | Celle | Nota |
|---|---|---|
| 1 (bassa) | poche celle grandi | Veloce, meno token |
| 5 (media) | griglia bilanciata | Buon compromesso |
| 10 (alta) | molte celle piccole | Massima precisione, piΓΉ token |
Con precisione alta, se l'elemento non Γ¨ stato trovato nella prima griglia, Seaclic puΓ² effettuare un refinement multi-passo: zooma sulla cella candidata e ripete l'analisi con una griglia piΓΉ fine.
Configurazione
- Nella scheda Cloud Vision delle impostazioni, seleziona il provider (Azure o OpenAI).
- Inserisci l'API key e, per Azure, l'endpoint e il nome del deployment.
- Imposta la Precisione griglia (default: 5).
π¬ ModalitΓ Spiega
Spiega Γ¨ una sotto-modalitΓ di Trova che usa il VLM o il backend Cloud per descrivere la schermata a voce e rispondere a domande. Invece di cliccare su un elemento, l'IA parla.
Cosa puoi fare
- Descrizione generale: dici "spiega" o "descrivi schermo" e l'IA descrive cosa vede ad alta voce (TTS).
- Domande contestuali: fai domande in linguaggio naturale, es. "quanti messaggi non letti ci sono?", "che ora Γ¨?".
- Conversazione multi-turno: Spiega mantiene il contesto degli ultimi scambi. Puoi fare domande di follow-up senza ricominciare da capo.
- Azioni da conversazione: puoi chiedere "clicca su OK" e Spiega passerΓ automaticamente a Trova per localizzare e cliccare l'elemento menzionato.
Flusso tipico
Attiva Spiega
Abilita la modalitΓ Trova. La sotto-modalitΓ Spiega si attiva automaticamente se usi il VLM o Cloud backend.
Fai una domanda
Dici ad esempio "cosa c'Γ¨ su questo schermo?" o "spiega cosa sta succedendo".
Ascolta la risposta
L'IA descrive la schermata ad alta voce via TTS e mostra il testo nella finestra chat.
Continua la conversazione
Fai domande di approfondimento. Il contesto viene mantenuto tra le domande.
βοΈ Impostazioni chiave
| Impostazione | Default | Dove | Descrizione |
|---|---|---|---|
| Backend Trova | Locale (OCR+DINO) | Scheda Riconoscimento | Scegli tra locale, VLM o cloud |
| Monitor | Monitor principale | Scheda Riconoscimento | Quale schermo usare per Trova |
| Usa OCR | Sì | Scheda Riconoscimento | Abilita/disabilita EasyOCR nel backend locale |
| Usa Detection (DINO) | Sì | Scheda Riconoscimento | Abilita/disabilita GroundingDINO nel backend locale |
| Precisione griglia cloud | 5 | Scheda Cloud Vision | 1β10; valori piΓΉ alti β piΓΉ precisione, piΓΉ token API |
| Modello VLM (Ollama) | qwen2.5vl (auto-download) | Scheda VLM | Modello Ollama da usare per VLM locale e Spiega |