|
Usare OCR per trasferire testi
dalla carta al computer
L’OCR è un sistema per copiare
pagine da un libro stampato senza troppa FATICA grazie a un software di
riconoscimento ottico dei caratteri, che si può trovare gratis e che è
inserito in ogni cd di installazione di uno scanner.
Noi lo troviamo essenziale, serve per rimediare testi per i siti usando
materiale cartaceo come fonte di informazioni. È una modalità di scansione
che - facendo la scansione di una pagina di testo o di un libro - restituisce
un testo in word o in .rtf. I più usati OCR sono
Textbridge della Xerox (che è quello che usiamo noi) oppure Omnipage
I programmi per l’O.C.R. sono sistemi in grado di convertire l’immagine
digitalizzata di un documento in testo e sono solitamente forniti unitamente
allo scanner (periferica che consente di importare a video immagini o
testi su carta). Più in dettaglio l’OCR, acronimo di Optical Character
Recognition o Riconoscimento ottico dei caratteri, è un particolare algoritmo
che si prefigge il compito di riconoscere tutti gli elementi testuali
presenti all’interno di file grafici. Ad esempio, se si acquisisce tramite
scanner una pagina di un libro, la stessa sarà trattata come una fotocopia,
è un’immagine, la foto di un libro stampato, sarà editabile da programmi
grafici come Adobe Photoshop, ma non direttamente da word, il file stesso
non potrà essere aperto da applicazioni quali Word o Works atti alla manipolazione
di file di testo. In nostro soccorso viene proprio l’OCR che, prelevando
la foto della pagina del libro, tramite particolari calcoli statistici
e applicazioni di algoritmi di intelligenza artificiale, la trasforma
in una serie di caratteri di testo. Attualmente esistono in commercio
numerosi programmi che eseguono egregiamente questo compito compiendo
errori inferiori al 5%. Certamente il pacchetto OCR più diffuso e facile
da usare è TextBridge della Xerox.
La zona di testo successiva è
stata rimossa; è presente solo nelle dispense inviate a chi si
iscrive al corso. Per richiedere l’iscrizione al corso, o ricevere maggiori
informazioni sulle sue modalità, si può scrivere al docente
Francesco Cascioli
Informazioni e curiosità
sull’indicizzazione e il posizionamento
su Google e i motori di ricerca
I motori di
ricerca visualizzano bene il vostro codice?
Noi consigliamo un utile programma
gratuito per scaricare siti. Lo si può trovare alla pagina www.ilpalo.com/utili
si chiama Naviga off line - Whtrack.
Quando si lancia per scaricare un sito, se fatica a capire una zona di codice,
quando si vanno a rivedere le pagine salvate, la visualizzazione è imperfetta,
mentre sul web sembra funzionare.
Questo non sarebbe un bel segnale.
Google suggerisce di provare a far visionare il proprio sito da Lynx (è
al punto 08 delle dispense). Consiglia Google:
Utilizzate un browser di testo come Lynx per esaminare il vostro sito, in
quanto molti spider dei motori di ricerca rilevano il sito allo stesso modo
di Lynx. Se caratteristiche avanzate quali Javascript, cookies, ID di sessione,
frame, DHTML o Flash vi impediscono di visualizzare l’intero sito in un
browser di testo, anche gli spider dei motori di ricerca potrebbero incontrare
problemi durante la scansione del vostro sito.
Come guadagna Google
Molta gente pensa che il posto
in classifica su Google.it si paga, che il motore di ricerca venda l’essere
primi nei risultati, mentre non è così. Non è possibile ottenere a pagamento
l’inserimento nei primi posti visualizzati da Google, ma solo acquistare
gli spazi pubblicitari visualizzati a destra dei risultati. Google guadagna
vendendo ad aziende il suo sistema per creare motori di ricerca interna,
e poi vende pubblicità, che però è manifesta, presente in riquadri accanto
alla lista dei primi dieci siti, e segnalata dalla scritta "collegamenti
sponsorizzati".
Ebbene: pochissime notano quelle pubblicità!
Questo perché su internet siamo sempre spasmodicamente intenti a non farci
distrarre da nulla, concentrati su quei primi 10 risultati che - si spera
- contengano l’informazione ricercata.
Paura di internet
La mente di chi cerca informazioni
su internet è ormai a senso unico: ha paura della novità. Per le troppe
pubblicità non gradite, pop up, pulsanti misteriosi, registrazioni di cui
si sospetta la buona fede, ecco che l’utente certe cose o non le vede o
ne ha una paura superiore alla curiosità. Di sicuro c’è che, nell’esitazione,
certi pulsanti non li schiaccia mai. Tipici sono i quattro pulsanti di Google
oltre all’unico usato da tutti, il primo, l’insostituibile "WEB".
Il 90% degli utenti non ha mai visitato "Gruppi" o "Directory".
Non ha mai schiacciato "mi sento fortunato" che merita il premio
di "peggiore descrizione di pulsante" della storia di Internet:
doveva chiamarsi "apri direttamente il primo indirizzo che consigli".
Il realizzatore di pagine deve tener conto di questa paura, di questa prudenza,
e scegliere sempre soluzioni scontate, classiche, già viste, entrate a far
parte del modo di navigare degli utenti. Se l’utente si aspetta che le parole
che portano a nuove pagine siano contraddistinte dal sottolineato blu, è
follia volersi distinguere dagli altri facendole apparire sottolineate in
nero. È una originalità inconcludente, un errore metodologico. Se l’utente
si aspetta il blu, dategli il blu. Se l’utente si aseptta un pulsante "contattaci",
è stupido chiamarlo "perché non ci scrivi?". L’utente perderà
più tempo a trovarlo. Internet non è il posto dove fare gli originali. Se
volete comunicare, scegliete le forme più semplici e scontate. L’utente
comunicherà più volentieri. Altrettanto deprecabile è la pulsantiera scritta
in inglese in un sito con testi in italiano. È un far sfoggio di internazionalità,
invece di rassicurare l’utente che il sito parla proprio il suo linguaggio.
Il monopolio di Google.it
Negli ultimi anni Google si è
trasformato nel più importante strumento di ricerca su Web, tanto da acquistare
un ruolo in qualche misura anche "politico" e "commerciale".
Google, svolge anche - e quasi inevitabilmente - una funzione di selezione
e di filtro. Davanti alla sterminata quantità di informazioni disponibile
in rete, l’uso di strumenti di selezione è certo necessario, e nel complesso
Google svolge assai bene il suo lavoro. Il ruolo-chiave di Google non deve
essere sottovalutato: anche un motore di ricerca non è mai uno strumento
totalmente neutrale.
Alcuni commentatori hanno sottolineato il ruolo di possibile ’grande fratello’
che viene a delinearsi per il motore di ricerca. La gestione di Google per
ora non sembra giustificare queste preoccupazioni, ma è bene comunque tenerle
presenti.
Noi italiani che abbiamo i monopoli di Berlusconi, noi che giustamente sopportiamo
male Bill Gates, noi siamo, come miliardi di altre persone nel mondo, fruitori
di un servizio monopolistico: Google.
Magari la gente non l’ha mai visto sotto questa luce, anche perché il motore
rende servizi ottimi e ormai insostituibili, e proprio questo "insostituibili
" potrebbe in futuro essere un problema.
Il tutto avviene senza che la gente abbia chiaro come Google svolge il suo
servizio, come realizza le sue classifiche. L’utilizzo dei dati archiviati
non è chiaro. Il suo funzionamento non è di dominio pubblico.
Il modo nel quale posiziona le pagine è un segreto commerciale, fuori da
qualsiasi supervisone esterna. La maggioranza delle persone non sanno
come Google guadagna, come si ripaga dei suoi computer messi a disposizione
gratis sulla Rete.
Questa posizione di "forza eccessiva" di Google, è l’aspetto più
preoccupante.
Domina il mercato dei motori di ricerca, tanto che nessuno può
permettersi di ignorare Google, e indicizza così bene il web che pochi utenti
pensano di utilizzare un altro motore. Google è una compagnia privata statunitense
che ha come "policy" il raccogliere la quantità maggiore possibile
di informazioni su tutti coloro che utilizzano il suo strumento di ricerca.
Google archivierà il vostro indirizzo IP, la data, l’ora, le caratteristiche
del vostro browser, nonché quelle del sistema operativo, e le chiavi di
ricerca immesse.
Questo significa che Google costruisce con gli anni un profilo
dettagliato delle chiavi di ricerca.
Google sa probabilmente - anche se ancora non sa come sfruttarlo
- che malattie hanno avuto i vostri bambini e quale è il vostro "avvocato
divorzista", o - se questo sembra un po’ eccessivo - comunque Google
sa in che data avete chiesto "avvocato divorzista" e quale siti
consigliati avete scelto di visitare.
Ormai a Google non si scappa.
Monopolio di Google. Contro.
Noi italiani che abbiamo avuto
i monopoli di Berlusconi, noi che giustamente poco sopportiamo Bill Gates,
siamo, come miliardi di altre persone, fruitori di un servizio monopolistico:
Google.it
Magari non l’abbiamo mai visto sotto questa luce, anche perché il motore
rende servizi ottimi e ormai insostituibili, e proprio questo "insostituibili
" potrebbe in futuro essere un problema.
Il tutto avviene senza che la gente abbia chiaro come Google.it esplica
il suo servizio, come realizza le sue classifiche.
Come segnala Danilo Moi nella sua "Breve indagine su Google",
la posizione di "forza eccessiva" di Google è l’aspetto che più
ci interessa, e ci può e ci deve preoccupare.
Google è una compagnia privata statunitense che ha come "policy"
il raccogliere la quantità maggiore possibile di informazioni su tutti coloro
che utilizzano il a suo strumento di ricerca.
Questo archivierà il vostro indirizzo IP, la data, l’ora, le
caratteristiche del vostro browser, nonché quelle del sistema operativo,
e le chiavi di ricerca immesse.
Introduce nel vostro computer un cookie che non scadrà fino
al 2038. Questo significa che Google costruisce con gli anni un profilo
dettagliato delle chiavi di ricerca.
Google sa probabilmente - anche se ancora non sa come sfruttarlo
- quando avete ipotizzato di essere incinta, che malattie hanno avuto i
vostri bambini e quale è il vostro "avvocato divorzista" o - se
questo onestamente appare un po’ eccessivo - comunque quel motore di ricerca
sa in che data avete chiesto "avvocato divorzista" e quale siti
consigliati avete prescelto. Infatti la tanto amata Google toolbar spiffera
anche l’indirizzo di tutte le pagine che avete visto.
Domina inoltre il mercato dei motori di ricerca tanto che nessun sito può
permettersi di ignorarlo, e indicizza così bene il web che pochi utenti
pensano di utilizzarne un altro. Il modo nel quale posiziona le pagine è
un segreto commerciale, fuori da qualsiasi supervisone esterna.
Monopolio di Google. A favore
Per quanto riguarda le riflessioni
sul monopolio di Google, molte critiche rivolta a Google sono ugualmente
muovibili ad una qualsiasi altra azienda che offre servizi in rete.
Il vero dettaglio importante per cui non può essere ingiusto paragonare
il monopolio di Google (perché c’è, questo è innegabile) a quello di Microsoft,
è che Google non fa nulla nei tuoi confronti che tu non possa evitare. In
effetti si tratta di un intermediario. Le informazioni che Google raccoglie
non sono pubblicate a priori da una singola entità. Google le raccoglie
e le rende di facile accesso, ma non le crea. Se io faccio una pagina su
di me, lo faccio con l’intento di farmi conoscere. Se poi voglio che Google
non la raccolga, mi basta mettere dentro di essa un comando che istruisce
il motore di ricerca a non catalogarla (il tag ’no-robot’ di cui si parla
per il Google Bombing di Berlusconi). Google è solo un sintomo manifesto
del grande circolare di informazioni che ci sono nella rete. Quando abbiamo
la febbre e la nostra temperatura sale, non ce la prendiamo con la temperatura
alta, ma con la febbre. Allo stesso modo non dovremmo prendercela con Google,
ma pensare a gestire meglio la nostra identità "digitale".
MSN.com è il motore di ricerca
di Bill Gates
MSN.com è il motore di ricerca
di Bill Gates. È uno dei più utilizzati dagli utenti, perché nel caso si
digiti il nome di un sito sbagliato su Internete Explorer, searchmsn.com
apre una finestra che risponde "sito inesistente" aprendo un elenco
di siti simili, in pratica si tratta di un codice che scatta in automatico
quando il nome di un sito è sbagliato.
Inoltre msn.it è settato come pagina iniziale di internet direttamente dal
sistema operativo window di Bill Gates-Microsoft. Molti utenti non sanno
come cambiare questa impostazione. Si fa portandosi sulla pagina che si
predilige come inizio, ad esempio Google.it; una volta sulla pagina si sceglie
dal menù strumenti / opzioni / e si preme "pagina corrente", così
d’ora in poi il computer la sceglierà come pagina iniziale.
Basandosi su questa ignoranza, Msn se ne approfitta ed ha un numero di utenti
maggiore.
L’unico altro motore di ricerca da tener presente è Yahoo, che ha alcuni
punti di forza (ad esempio yahoo gruppi, il miglior gestore gratuito di
mailing list, o Geocities, che regala spazi web a chiunque). Yahoo nelle
sue ricerche si muove autonomamente, cataloga nuovi siti senza bisogno di
andarglieli a segnalare. |