| Come funzionano i motori di ricerca |
|
L'operazione che Sinfotech svolge è quella di indicare delle parole chiave o keyword di ricerca, inerenti all'argomento di cui vogliamo ricevere informazioni e il motore ci restituisce in tempi brevissimi una lista di indirizzi web che contengono le keyword specificate. Ciò ci fa intuire che al suo interno è contenuto un programma in grado di analizzare le pagine web, che riesce a stabilire se le parole chiave sono contenute in essa. Per fare ciò, il motore di ricerca scansiona periodicamente le pagine presenti in rete, che sono decine di miliardi e di ognuna ne memorizza parte del contenuto in un archivio elettronico, definito indice o index. Benché tale lettura avvenga in un tempo estremamente ridotto, dato il numero smisurato di pagine web presenti in rete (decine di miliardi), sarebbe impensabile eseguire una ricerca in tempo reale. Pertanto, il motore di ricerca esegue periodicamente una lettura del web, memorizzandone parte dei contenuti in un archivio elettronico, detto indice (index). Così facendo, quando noi eseguiamo una ricerca inserendo le parole chiave, facciamo in modo che il motore interroghi il database e in tempi molto brevi, lui ci fornirà una lista di indirizzi di pagine che contengono le parole chiave da noi indicate. Tutto questo lavoro è volto a ridurre l'enorme quantità di informazioni presenti in rete. Per capirci meglio, si può tranquillamente pensare all'indice di un libro, in cui troviamo un sommario del contenuto con i numeri delle pagine in cui tali informazioni sono reperibili. Chi svolge il lavoro di andare a leggere l'infinità di pagine web presenti in rete è lo spider (sinonimi sono crawler, bot, robot, agent, scooter). Quest'applicazione percorre il web, leggendo automaticamente le pagine, andando a seguire quelli che sono i link ipertestuali e ne memorizza nell'indice le informazioni. Ogni motore di ricerca ha diversi spider che tutti i giorni percorrono il web in lungo e in largo. La percentuale di web coperto dai motori di ricerca si aggira intorno al 15% e i 2 principali motori di ricerca sono Google e Yahoo! La percentuale potrebbe sembrare molto bassa, ma questo è dovuto a delle limitazioni intrinseche che rendono molte pagine, e talvolta interi siti, inaccessibili ai motori di ricerca. Questi fanno capo a tre problematiche principali: 1. Irraggiungibilità: lo spider visita un sito se trova almeno un link che conduce ad esso. Molti siti non sono linkati e dunque risultano irraggiungibili. 2. Illeggibilità: i motori di ricerca prediligono siti statici con pagine scritte in html standard. Gli spider infatti trovano difficoltà ad entrare nei siti che usano tecnologie sofisticate, e/o grandi database. Il numero elevato di pagine di un sito, e le dimensioni eccessive rappresentano ulteriori ostacoli. 3. Aggiornamento: le nuove pagine messe online non entrano subito nell’indice. Gli spider passano a intervalli molto lunghi, e l’aggiornamento del database avviene quando un ciclo è completato. Questo può richiedere anche diversi mesi. |







Un motore di ricerca è un sistema istantaneo di reperimento di informazioni contenute nel web.