Sito dinamico e motori di ricerca

Un sito dinamico, per definizione, è un sito il cui livello di presentazione non corrisponde alla fornitura di file preesistenti sui dischi disponibili al server, ma che genera documenti preparati al volo in base alla richiesta e utilizzando una disponibilità di informazioni.
Opportuni programmi provvedono alla costruzione della presentazione.

L’associazione tra URL richiesta e informazione restituita, dunque, è affidata a dei programmi, i quali possono virtualmente rispondere in modo positivo a qualsiasi richiesta. Nei fatti, solo alcune richieste vengono ricevute positivamente (altre restituiranno un errore 404, Not Found), ma è evidente che un sito di grandi dimensioni può essere realizzato solo in questo modo.

Dal punto di vista dei motori di ricerca globali, la dinamicità dei contenuti è del tutto irrilevante, se non per connotati minori che analizzo più avanti. La presentazione dei contenuti è tecnologicamente identica a quella dei contenuti statici e crawling e indicizzazione avvengono nello stesso modo.

Con il crawling tradizionale, i motori di ricerca “inseguono” i collegamenti trovati nelle pagine e indicizzano le pagine successive (se autorizzati) esplorando in questo modo i contenuti dell’intero sito.
Inoltre è possibile offrire ai motori di ricerca un ulteriore schema dei contenuti disponibili utilizzando un’opportuna sitemap. La sitemap è uno strumento potente, che indica ai motori di ricerca la gerarchia dei contenuti e anche, volendolo, intere strutture di contenuti privi di collegamenti nell’albero principale.

Gli accorgimenti necessari per rendere quanto più efficiente possibile il lavoro dei motori di ricerca globali sono numerosi, ma fortunatamente ben noti (anche se in alcune parti poco standard). Un ottimo riferimento è il Google Webmaster Central Blog e in particolare, se si vuole un documento più consistente, la Guida introduttiva di Google all’ottimizzazione per motori di ricerca (SEO).
Nella realizzazione di un sito web, soprattutto se di grandi dimensioni, questi accorgimenti sono curati con estrema attenzione.

Un elenco degli accorgimenti principali può essere il seguente:

  • utilizzo rigoroso della semantica (x)HTML;
  • utilizzo attento e ricco dei meta tag (x)HTML;
  • scrittura di una buona sitemap;
  • utilizzo attento degli URL (indicazione del canonical, redirect, ecc.);
  • qualità nella scrittura dei testi.

Questa è, ovviamente, una manciata di indicazioni, che non descrive certamente l’universo tutto dei particolari da curare.

Un sito dinamico, perciò, non è diverso da un sito statico, se visto dai motori di ricerca. La cura dinamica degli accorgimenti è generalmente più adeguata di quella manuale, purché si badi ad alcuni elementi frequentemente introdotti.

È facile che uno stesso contenuto sia accessibile attraverso URL duplicati. Questo accade, ad esempio, quando si usano URL amichevoli o quando si indica la lingua nell’indirizzo. Può succedere insomma che www.example.com/?id=41, www.example.com/ultime-novita e www.example.com/it/ultime-novita si riferiscano allo stesso contenuto. In tal caso, è necessaria l’indicazione dell’URL canonico in quelle che devono essere considerati copie dell’originale.

Per ragioni analoghe, è frequente l’uso dei redirect. Una scelta differente dalla precedente potrebbe inviare da www.example.com/ultime-novita a www.example.com/it/ultime-novita, ma in tal caso è essenziale che il web server risponda con un adeguato status code (301).

Con questi accorgimenti (e altri analoghi) si può disporre di un sito adeguato, con una disponibilità di URL elevatissima.

Ci sono altri modi per indicizzare le informazioni?

Se si realizza un motore di ricerca interno, (cioè in cui il crawling avviene in sistemi trusted) si possono progettare forme diverse di indicizzazione. In un sistema trusted, infatti, il crawler può avere accesso alle stesse fonti di informazione e indicizzarle, purché il motore di ricerca sia a conoscenza degli algoritmi che collegano le informazioni indicizzate con gli URL (canonici) che ne consentono la visualizzazione.

In questo modo, il motore di ricerca può avere un approccio diverso alle informazioni e offrire chiavi di consultazione alternative a quelle del sito stesso.

Si tratta di un lavoro sofisticato che può essere fatto se si ha a disposizione un software altrettanto sofisticato per il motore di ricerca, il know how necessario e un adeguato tempo di preparazione.

Questo approccio, dunque, può essere soddisfatto se coesistono due condizioni: la prima è che la progettazione del sito conviva con quella del motore di ricerca, mentre la seconda è che la struttura del sito sia lentamente variabile (abbastanza lentamente da adeguare gli algoritmi del motore di ricerca).

Nel caso del sito in lavorazione, i contenuti provengono interamente da web service.
Gli elementi principali di alimentazione del sito sono il sistema di gestione dei documenti (in preparazione) e il database di diffusione (in preparazione). Entrambi i sistemi offrono i loro contenuti con semplici tecnologie REST/JSON, così ben articolati da consentire una “consultazione” completa da parte del sito principale, che raccoglie i contenuti in base alla richiesta e produce una presentazione come risposta. Altri sistemi potrebbero affacciarsi, in futuro, ad arricchire il sito di nuove informazioni.

Il sito in lavorazione, dunque, non solo non possiede documenti o dati su disco, ma non è associato a nessun archivio interno (flat file, database, ecc.) affidando interamente la titolarità delle informazioni ai sistemi chele hanno in cura.

D’altra parte, il sito stesso provvederà a fornire a tutti i motori di ricerca una ricchissima collezione di informazioni necessarie ad una adeguata indicizzazione. La struttura stessa del sito viene costruita non solo concependo una navigazione in senso tradizionale, ma supponendo che l’accesso alle pagine avvenga prevalentemente attraverso i motori di ricerca (esterni o interno). Ogni pagina verrà concepita come punto d’accesso e le strutture di navigazione saranno agili e immediate.

Tornando al motore di ricerca interno, se da un lato la progettazione del sito è avvenuta in modo indipendente da quella del motore di ricerca, dall’altro (e soprattutto) occorre considerare l’organizzazione del lavoro e la dinamica evolutiva del sito.
Il sito in lavorazione è caratterizzato da doti di grandissima flessibilità. Se il suo primo rilascio avrà caratteristiche circoscritte, è prevedibile che già nel corso del 2011 il ventaglio delle funzionalità prodotte e delle informazioni offerte si estenderà notevolmente. Sarebbe estremamente deludente se un motore di ricerca (che già soffre come suo difetto “naturale” di tempi di indicizzazione apprezzabili) fosse incapace di un’adeguata indicizzazione perché basata su algoritmi insufficienti.

Analisi degli accessi a www.istat.it
×
', 'auto'); ga('require', 'displayfeatures'); ga('set', 'forceSSL', true); ga('send', 'pageview');