glossario
In conclusione di questo lavoro è utile riportare un breve elenco di termini informatici connessi con i motori di ricerca con la loro relativa spiegazione.
Adjacency (Adiacenza)
Individua una particolare relazione tra le parole in una query su un motore di ricerca. Alcuni motori spesso consentono di definire, nella ricerca, quale relazione deve sussistere tra le parole immesse, se queste si devono trovare esattamente l'una vicino all'altra o se è sufficiente che si trovino l'una nelle vicinanze dell'altra.
Applet
È un programma di piccole dimensioni, che viene eseguito nel browser di navigazione come parte della pagina Web visitata, spesso è scritto in Java. È possibile che l'uso di un programma Applet possa impedire a spider e robot l'indicizzazione della pagina stessa.
ArchitextSpider
Il nome dello spider di Excite.
Ask Jeeves
È il nome di un metamotore di ricerca in gradi di rispondere a domande poste in linguaggio naturale (lingua inglese). È utilizzato anche da Altavista ed è rintracciabile all'indirizzo: http://www.askjeeves.com/.
Bridge Page (Pagina ponte)
Vedi Gateway Page.
Client (Cliente)
È un computer, un processo o un programma che richiede informazioni ad un altro computer, processo o programma. I Web browser sono programmi client. Gli spider dei motori di ricerca sono (o si può dire che si comportano come) client.
Click through
È il processo con cui cliccando su di un link in una pagina dei risultati generata da un motore di riceca, si può visitare il sito indicizzato. Si tratta di un collegamento importante per ricevere visitatori al sito per mezzo dei motori di ricerca.
Cloaking (Nascondere)
Tecnica che consente di "nascondere" il contenuto di una pagina. Lo scopo è quello di proteggere il codice delle pagine ben posizionate.
Clustering (Raggruppare)
Alcuni motori permettono ad ogni sito Web di comparire per non più di una volta negli elenchi di risposta ad una interrogazione. Questo evita che un numero ridotto di siti occupi tutte le posizioni di testa, rendendo così i risultati più chiari e utilizzabili dagli utenti.
Crawler
Vedi Spider.
Dead Link (Collegamenti Inattivi)
È un collegamento ipertestuale che non conduce ad una pagina o sito, probabilmente perché il server è fuori uso, la pagina è stata spostata o non esiste più. La maggior parte dei motori di ricerca dispongono di tecniche per rimuovere automaticamente queste pagine dai loro elenchi, tuttavia a causa della continua crescita delle dimensioni di Internet, diventa sempre più difficile il controllo regolare di tutte le pagine dell'indice.
De-listing (Cancellazione dall'elenco)
È la rimozione di pagine dall'indice di un motore di ricerca. La rimozione può verificarsi per varie ragioni: ad esempio l'inaffidabilità della macchina che ospita il sito o perché è stato percepito un tentativo di spamdexing.
Description (Descrizione)
È il testo descrittivo associato ad una pagina Web, generalmente viene esposto assieme al titolo ed all'url, nella pagina di risposta all'interrogazione di un motore di ricerca o directory. Alcuni motori riportano come descrizione il testo inserito nel tag Meta DESCRIPTION, altri la generano selezionando automaticamente una parte del testo presente nella pagina. Le directories usano abitualmente il testo fornito dall'utente durante la registrazione.
Directory
È un server, o un insieme di server, dedicato all'indicizzazione delle pagine Web in Internet. Quando viene interrogato è in grado di restituire elenchi di link a pagine Web attinenti agli argomenti cercati. Le directories (conosciute anche come Indexes) sono di norma compilate manualmente, per mezzo di una sottomissione dell'utilizzatore (come ad esempio whatsnew.com), e spesso implicano un processo editoriale di selezione e/o catalogazione (come ad esempio: Yahoo e LookSmart).
Domain (Dominio)
È un sotto insieme di indirizzi internet. I domini sono gerarchici, ed un dominio di basso livello spesso si riferisce a siti web particolari con un dominio di primo livello. La parte più significativa di un indirizzo si trova alla fine - domini di primo livello tipici sono: .com, .edu, .gov, .org (che suddividono gli indirizzi in aree d'uso). I domini di primo livello possono anche avere un'estensione di tipo geografico, che si riferisce a particolari paesi (ad esempio: .ar, .ca, .it, .fr, .ro, ecc.).
Nel contesto dei motori di ricerca i domini che possiedono un dominio proprio (ad esempio http://www.nativetongues.com) ottengono spesso un posizionamento migliore rispetto a siti Web che esistono come sotto directory di un'altra organizzazione (ad esempio http://ourworld.compuserve.com/homepages/tijana/).
Doorway Page (Pagine d'ingresso)
Vedi Gateway Page.
Dynamic content
I siti a contenuto dinamico hanno le informazioni contenute nelle pagine che cambiano automaticamente. Ci sono alcuni segnali che ci avvertono della tecnica in uso, ad esempio quando l'URL termina con estensione .asp, .cfm, .cgi o .shtml.
Entry Page
Vedi Gateway Page
False Drop (Risultato non attinente)
È una pagina, ottenuta come risultato di una interrogazione ad un motore di ricerca o directory, che non ha attinenza con quanto richiesto. Questo fenomeno può addebitarsi ad una delle seguenti ragioni:
-La pagina Web contiene le parole chiave utilizzate per definire la ricerca, ma queste sono usate in un contesto diverso, con un altro significato, o con una interconnessione diversa da quella cercata.
-La pagina Web è un tentativo di spamdexing.
-Il motore ha un difetto nel database o un errore nel programma che gestisce la query.
Font and Background Spoofs
Sono svariate tecniche usate per inserire testo invisibile in una pagina Web, per cercare di migliorarne il posizionamento senza influenzarne l'aspetto. Queste tecniche sono generalmente basate nell'assegnare lo stesso valore (ad es. bianco) ai caratteri del testo ed allo sfondo della pagina. La maggior parte dei motori rileva questi trucchi.
Frames
È una tecnica HTML per unire due o più documenti HTML in un unica schermata del browser. I documenti interattivi composti possono essere creati per costruire una pagina web più efficace con una presentazione in finestre o sotto finestre multiple.
Gateway Page (Pagina d'ingresso)
Pagina sottoposta ad un motore di ricerca costruita con l'intento di fornire all'algoritmo di indicizzazione i dati necessari, nel formato necessario, per ottenere un livello appropriato di rilevanza nell'argomento in questione. Una "Gateway page" può fornire contenuti differenti a seconda che chi la visiti sia un robot o un utente "umano".
Ci sono diverse ragioni che spingono all'utilizzo di questa tecnica: l'autore della pagina potrebbe non volere rendere pubbliche le sue tattiche di piazzamento, oppure perché il formato con cui è costruita una pagina, ottimizzato per il robot, non è presentabile ad un visitatore umano. Inoltre i formati da utilizzare per ottenere il posizionamento sono spesso diversi da motore a motore. Utilizzando le "gateway pages" si può presentare il sito ad ogni motore nella forma che si sa o si pensa possa essere la migliore per il robot di quel motore. Le gateway page sono conosciute anche come bridge pages, doorway page, entry page, portal o portal page.
Gulliver
Il nome dello spider di Northern Light.
Heading
Molti motori di ricerca attribuiscono molta importanza al testo che trovano all'interno della sezione <head>, quindi tra i marcatori <title> e <meta>, fatto da tenere in considerazione durante la costruzione delle pagine Web.
Hidden Text (Testo nascosto)
Testo di una pagina Web visibile agli spiders dei motori di ricerca ma invisibile agli utenti in carne ed ossa. Questo è spesso dovuto alla selezione del colore del testo identico a quello dello sfondo della pagina, all'utilizzo multiplo del titolo (title tag), o perché il testo è inserito come commento al codice HTML. Il testo nascosto è spesso usato come tecnica di spamdexing. Molti motori di ricerca sono in grado di individuare il testo nascosto, e di rimuovere le pagine che ne fanno uso dal loro database, o di peggiorarne il posizionamento.
Hit
Nel contesto delle visite ad una pagina un "Hit" è una singola richiesta di accesso ad un file di testo o grafico. Nel contesto dei motori di ricerca, gli hit misurano il numero di pagine rilevanti in una interrogazione.
HTML
Acronimo di HyperText Markup Language - è il linguaggio principale usato per costruire pagine Web.
HTTP
Acronimo di HyperText Transfer Protocol - è il protocollo di comunicazione principale usato tra il Web server ed il web browsers (detto anche client).
Inktomi
È il database utilizzato da alcuni fra i più grandi motori di ricerca tra cui Hotbot. Inktomi viene anche utilizzato da Yahoo quando nessun documento nel suo database è in grado di soddisfare la richiesta.
Keyword (Parola chiave)
Parola facente parte di un interrogazione (query) ad un motore di ricerca, serve a identificare l'argomento al quale le pagine Web trovate dovrebbero attenersi.
Keyword Density (Densità delle parole chiave)
Una proprietà del testo di una pagina Web che indica la densità con cui le parole chiave appaiono, corrisponde al rapporto frequenza parola chiave/numero totale di parole della pagina. Alcuni motori di ricerca usano questa proprietà per il posizionamento.
Keyword Domain Name
Tecnica che prevede l'inserimento delle parole chiave come parte dell'URL di un sito web. In alcuni motori di ricerca le pagine che contengono le keyword nell'URL possono ottenere un posizionamento migliore.
Keyword Phrase (Frase chiave)
Frase facente parte di un interrogazione ad un motore di ricerca, serve a identificare l'argomento al quale le pagine Web trovate dovrebbero attenersi.
Keyword Stuffing (Imbottitura di parole chiave)
È la ripetizione delle parole o frasi chiave nei tag di META o in altre parti della pagina.
Link Popularity
Vedi page popularity.
Log File
È un file che si trova sul server in cui vengono registrati tutti dettagli degli accessi ai file ospitati sul server stesso. L'analisi dei Log file è un ottimo metodo per avere informazioni sui visitatori come ad esempio: il sito da cui provengono, quali pagine hanno visionato, quali query sono state usate per trovare il sito sui motori di ricerca.
Meta search (Meta ricerca)
È una ricerca di ricerche. Un'interrogazione viene sottoposta a più di un motore di ricerca o directory, i risultati che si ottengono si riferiscono a tutti i motori mentre i link doppi vengono rimossi. Vedi anche la parte dedicata ai meta motori.
Meta search engine (Meta motori di ricerca)
Un server in grado di interrogare contemporaneamente vari motori di ricerca e/o directories e di riassumere i risultati ottenuti. Ask Jeeves, Dogpile, Infind, Metacrawler, Metasearch, Metafind sono esempi di meta motori di ricerca.
Meta tag
È un tag o marcatore (ossia un'istruzione in linguaggio HTML) situato nell'intestazione (HEADER) di una pagina Web, fornisce informazioni che non sono visibili utilizzando un browser. I più comuni fra i Meta tag (sono anche i più rilevanti per il posizionamento sui motori di ricerca) sono KEYWORD e DESCRIPTION. Il tag KEYWORD consente all'autore di enfatizzare l'importanza di certe parole che compaiono nella pagina. Alcuni motori sono sensibili alla presenza di questo tag, mentre altri lo ignorano. Il tag DESCRIPTION consente all'autore di determinare il testo che il motore esporrà come sommario descrittivo della pagina nei risultati di un'interrogazione, anche in questo caso alcuni motori ignorano questa informazione.
Mirror Sites
Sono copie multiple di siti o pagine Web, spesso ospitate su server diversi. Il processo di registrazione nei motori di ricerca di queste copie multiple viene spesso considerato spamdexing, perché incrementa artificialmente l'importanza delle pagine. I filtri, come Sniffer di Infoseek, sono ora in grado di rimuovere i mirror multipli dagli indici.
Misspellings (Ortografia sbagliata)
Chi utilizza i motori di ricerca spesso commette errori nello scrivere le parole. Le pagine che usano parole con i più frequenti errori di ortografia possono ricevere qualche visita extra, diventa così una tecnica efficace l'inserimento degli errori ortografici più comuni nei marcatori alt, keywords, nel nome o nel titolo della pagina. Un effetto simile si ha quando si omettono gli spazi e due parole sono accidentalmente scritte l'una attaccata all'altra.
Multiple Keyword Tags
Consiste nell'utilizzo di più di un Keywords META tag per cercare di incrementare l'importanza delle keyword principali in una pagina. Non è una tecnica consigliabile, in quanto può essere percepita come un tentativo di spamming, oppure il motore potrebbe rendere vano il tentativo ignorando le copie del tag.
Multiple Titles (Titoli Multipli)
Tecnica che prevede la ripetizione del tag TITLE, nell'intestazione della pagina, per migliorare il posizionamento nei motori di ricerca. La maggior parte dei motori rileva questo trucco.
Open Directory Project
Si tratta di una directory (costruita sul modello Yahoo), per la realizzazione della quale collaborano migliaia di redattori volontari sparsi su tutto il pianeta. L'indirizzo del sito è: http://directory.dmoz.org/
Optimization (Ottimizzazione)
Insieme di cambiamenti fatti ad una pagina Web per migliorarne il posizionamento su uno o più motori di ricerca. L'intenzione è quella di aiutare clienti potenziali e visitatori a trovare il sito. L'ottimizzazione consiste in cambiamenti nel testo dei comandi TITLE e META, negli attributi ALT oltre che cambiamenti nelle prime 200-250 parole del testo principale.
Page Popularity (Popolarità di una pagina)
Misura il numero e la qualità dei link che portano ad una pagina determinata (Inbound link). Alcuni motori di ricerca (in particolare Infoseek) utilizzano questo valore come parte del processo di posizionamento. Il numero e la qualità degli imbound link diventa così tanto importante quanto lo è l'ottimizzazione del contenuto delle pagine.
Portal Site (Sito Portale)
È un termine generico che indica ogni sito che rappresenti un punto d'entrata in Internet per un numero significativo di utilizzatori. Sono esempi di portali i motori di ricerca, le directory le homepage inserite di default nei browser (tipicamente quelle dei produttori o dei service provider che garantiscono il collegamento dell'utente), siti collegati con pulsanti del browser, siti che offrono homepage o email gratuite, o che forniscono notiziari personalizzati, siti popolari (o altamente publicizzati) che un numero significativo di persone ha inserito nelle proprie preferenze o ha selezionato come pagina di accesso alla rete.
Positioning (Posizionamento)
È il processo con cui un motore di ricerca ordina i siti o le pagine Web presenti nel suo database, in modo che in un'interrogazione i siti più rilevanti appaiano per primi.
Positioning Technique
Ogni metodo di modifica di una pagina Web con lo scopo di indurre un motore di ricerca a considerare la pagina con maggiore rilevanza in una determinata interrogazione.
Query (Interrogazione)
Una parola, frase o un gruppo di parole, meglio se combinata con altra sintassi, utilizzata per istruire un motore di ricerca o directory affinché individui pagine Web.
Ranking
Vedi Positioning.
Registration (Registrazione)
Il processo con cui si informa un motore di ricerca, o directory, dell'esistenza di una nuova pagina Web, o di un nuovo sito, da indicizzare.
Relevancy Algorithm (Algoritmo di rilevanza)
È il metodo usato da un motore di ricerca per mettere in relazione le parole chiave di un'interrogazione con i contenuti delle pagine Web, in modo che le pagine trovate possano essere ordinate adeguatamente nella pagina dei risultati. Ogni algoritmo, diverso per ogni motore di ricerca o directory, viene cambiato di tanto in tanto, nel tentativo di migliorarlo.
Re-submission
È la ripetizione della registrazione della stessa pagina o sito, presso un motore di ricerca, per una o più volte. In alcune circostanze, l'operazione è vista con sospetto dal motore di ricerca.
Robot
Qualunque programma in grado di seguire i collegamenti ipertestuali e di accedere alle pagine Web, senza controllo umano. Ne sono un esempio i "ragni" spiders dei motori di ricerca e i programmi "harvesting" che estraggono indirizzi e-mail e altri dati dalle pagine Web. Un database di robot è mantenuto da Webcrawler.
robots.txt
È un file di testo memorizzato nella directory di primo livello di un sito Web per impedire che i robot accedano a certe pagine o sub-directories del sito. Solo i robot conformi alle regole del Robots Exclusion Standard leggeranno e seguiranno i comandi contenuti nel file.
Scooter
Il nome dello spider di Altavista.
Search Engine (Motore di ricerca)
È un server o un insieme di server, dedicati all'indicizzazione delle pagine Web di Internet. Quando viene interrogato è in grado di restituire elenchi di link a pagine Web attinenti ad una determinata interrogazione. Gli indici sono solitamente generati utilizzando i robot. Il termine Search Engine è spesso usato per rappresentare sia le directories che i motori di ricerca.
Search Term
Vedi Query.
Server
È un computer, un processo o un programma che risponde a richieste di informazioni da parte di client. In Internet tutte le pagine Web sono ospitate da server, incluse le parti accessibili dai motori di ricerca.
Sidewinder
Il nome dello spider di Infoseek.
Siphoning (Travaso)
È l'uso di vari mezzi per rubare il traffico di un altro sito. Le tecniche usate comprendono la copiatura integrale delle pagine Web (cambiando in maniera minima la pagina per indirizzare i visitatori ad un sito differente, per poi registrarla presso i motori di ricerca) e l'uso di parole o frasi chiave appartenenti ad altre organizzazioni, società o siti Web.
Slurp
Il nome dello spider di Inktomi.
Spamdexing
La creazione o alterazione di un documento con l'intento di ingannare l'algoritmo di un motore di ricerca. Qualunque tecnica che incrementi il posizionamento di un sito ai danni della qualità del database del motore di ricerca può essere considerata spamdexing - conosciuta anche come spamming o spoofing.
Spamming
Vedi spamdexing. Lo spamming è anche usato per indicare l'invio non richiesto di posta elettronica. L'uso di questo termine nell'ambito dei motori di ricerca deriva appunto da questa definizione.
Spider, Spyder (Ragno, Robot)
Parte dei motori di ricerca che naviga il Web, memorizza le URL e indicizza le parole chiave ed il testo di tutte le pagine che incontra.
Spidering
È il processo che prevede la navigazione del Web, a cui segue la memorizzazione e l'indicizzazione di parole chiave, link e testo. Neppure il motore di ricerca più grande può effettuare lo spidering di tutte le pagine della rete. Questo è dovuto all'enorme ammontare di dati disponibili, alla velocità con cui questi dati appaiono, a regole di correttezza (vedi politeness windows) a limiti pratici sul numero di pagine che possono essere visitate nell'unità di tempo. I motori di ricerca sono costretti a fare alcuni compromessi allo scopo di esplorare quanti più siti possibile e nel farlo seguono strade differenti. Per esempio, alcuni motori indicizzano solo la homepage di ogni sito, altri solo siti che gli sono stati segnalati, altri giudicano l'importanza dei siti (dal numero e dalla qualità dei collegamenti ipertestuali esterni [inbound links]) prima di scavare in profondità analizzando anche le pagine secondarie.
Stop Word
È una parola che quando viene inserita in un'interrogazione viene sistematicamente ignorata dal motore, questo perché il termine è talmente comune nel database che il suo utilizzo come parametro di ricerca fornisce un contributo nullo. Ne sono esempio alcune parole legate al mondo Internet come computer e web, e altre parole molto comuni come the, and o in Italiano e, di.
Title (Titolo)
È il testo contenuto all'interno dell'omonimo marcatore. Questo testo è associato con la pagina Web contenente questo marcatore (ma non viene mostrato nella medesima), esso viene visualizzato dal browser in una posizione apposita, generalmente all'estremità superiore della finestra di lavoro. Il testo del titolo è importante perché generalmente costituisce il link dalla pagina dei risultati del motore di ricerca, questi ultimi inoltre fanno particolare attenzione al testo contenuto nel marcatore del titolo quando indicizzano la pagina. Non confondete il testo del titolo con l'intestazione nella pagina la quale si costruisce utilizzando un marcatore di intestazione (h1, h2, ecc.) o con una grande dimensione del carattere (font size).
Traffic (Traffico)
I visitatori di una pagina o di un sito Web. Si riferisce anche al numero di visitatori, contatti, accessi, etc, in un periodo di tempo determinato.
Unique Visitor
È un visitatore reale di un sito Web. I server Web memorizzano l'indirizzo IP di ogni visitatore, utilizzando questo dato come misura del numero di persone che hanno esplorato un sito Web. Se ad esempio, qualcuno naviga su venti pagine di un sito, il server conterà soltanto un unico visitatore (perché gli accessi alle pagine sono tutti associati con il medesimo indirizzo IP) con venti accessi a singole pagine.
URL
Acronimo di Universal Resource Locator. È un indirizzo con cui si individuano risorse in modo univoco. La prima parte dell'indirizzo indica il tipo di risorsa - ad esempio http: per le pagine Web, ftp: per il trasferimento di file, telnet: per un collegamento remoto o mailto: per gli indirizzi e-mail.
|