Capitolo 11-12. Sistemi informatici per la condivisione di risorse e di informazioni. Ricercare Informazioni e Risorse su Internet
Ricercare dati ed informazioni da indici organizzati non è una novità nata con internet e il web. Le biblioteche hanno sempre usato enormi indici di catalogazione delle informazioni custodite, formati da schede scritte con grande precisione. Ricordo ancora con piacere una mia esperienza professionale nel corso della quale, dovendo preparare i materiali per la produzione di un filmato pubblicitario per un importante gioielliere che voleva documentare di essere stato fornitore della Casa Reale Borbonica, mi obbligai a spendere oltre due settimane nell’Archivio storico nella ricerca, tra i registri dei fornitori personali della regina Maria Cristina, di documenti storici attestanti la reale benemerenza del mio cliente. Riuscii a trovare tali prove grazie alla preziosa indicizzazione di informazioni suddivise in categorie prestabilite con dati sensibili formattati secondo determinate linee guida.
Se avessi avuto la possibilità di raggiungere informazioni digitalizzate attraverso il web avrei forse speso due ore invece di due settimane e il cliente avrebbe risparmiato un sacco di soldi. |
Questo per dire che Internet (più correttamente, il web) è diventato in meno di dieci anni un gigantesco contenitore di informazioni, di tutti i generi. Anche se le informazioni disponibili non sono formattate nello stesso modo, non sono necessariamente accurate, aggiornate o scritte con una corretta ortografia.
Per questo motivo una corrente di ricercatori e sviluppatori di applicativi informatici ha subito compreso che la creazione di software in grado di selezionare ed indicizzare automaticamente le informazioni distribuite per mezzo della Rete in maniera per lo più anarchica, avrebbe costituito un obiettivo prioritario da raggiungere. Tali software vengono comunemente chiamati “motori di ricerca” e si sono rapidamente evoluti. |
Motori di ricerca
Un motore di ricerca è un sistema automatico che analizza un insieme di dati - spesso da esso stesso raccolti - e restituisce un indice dei contenuti disponibili classificandoli in base a formule matematiche che indicano il grado di rilevanza data una determinata chiave di ricerca. La maggior parte dei motori di ricerca che impieghiamo per le nostre attività sul web è gestito da compagnie private che utilizzano algoritmi proprietari e database tenuti segreti. |
Attualmente i motori di ricerca non sono “semantici”, ma fra non molto tempo anche questo traguardo sarà raggiunto, allorquando i motori di ricerca diventeranno “intelligenti” perché implementati da sofisticate tecnologie che rientrano nella branca delle scienze informatiche definita “Intelligenza Artificiale” (AI) . Un motore di ricerca semantico è uno strumento di ricerca in grado di capire cosa sta cercando l’utente - al di là della parola chiave o della frase chiave introdotte nella finestra di ricerca, e per quale motivo un utente fa una richiesta.
|
Prima di introdurre il concetto di funzionamento di un motore di ricerca, è importante assimilare i seguenti concetti.
Il world wide web non è una biblioteca! Non è organizzata come tale. Non ha una fonte centralizzata di informazioni sui dati disponibili sui vari web server, non esiste uno staff di persone preposto impegnato a classificare le informazioni, indicizzare le nuove informazioni secondo una metodologia standardizzata, condivisa e seguita universalmente. Nessun motore di ricerca, ad oggi, è in grado di riconoscere tutto ciò che viene archiviato, aggiornato quotidianamente sui webserver. Nessun motore di ricerca attuale è in grado di verificare la veridicità delle informazioni e l’attendibilità delle fonti. Non tutte le informazioni sul web, dunque, sono vere! Possono essere di parte, distorte più o meno intenzionalmente e semplicemente errate. Per chi di voi ha un po’ di dimestichezza con la lingua inglese (non dimenticate, però, che esistono i traduttori on-line) il sito http://www.snopes.com vi offre l’opportunità di farvi un’idea sulla quantità e la qualità delle informazioni deliberatamente errate e messe in rete. Nessun motore di ricerca attuale ha strumenti di filtraggio perfetti, in grado di eliminare dalla ricerca informazioni offensive per l’utente, in funzione dei suoi principi etici e culturali, della sua sensibilità, etc. Generalmente, esistono due tipi di motori di ricerca: - Motori di ricerca ad indice degli argomenti - Motori di ricerca a testo completo |
Il secondo tipo, come “Google”, è un tipo di motore che impiega software speciali di indicizzazione, tecnicamente chiamati “spider”, in grado di analizzare i contenuti di miliardi di pagine web archiviate sui webserver collegati alla rete. La ricerca nelle pagine può essere selezionata dall’utente per titolo delle informazioni o per contenuto delle informazioni presenti, consentendo ricerche molto più selettive.
Quando inseriamo più parole chiave, il motore deve capire se intendiamo fare domande di ricerca (tecnicamente chiamate “query”) su contenuti che contengono una delle parole o tutte le parole chiave che inseriamo. In base ad un principio di ricerca booleano (cioè basato sul principio che regola la logica binaria del calcolo informatico: vero=1 falso=0) possiamo escludere o inserire dalla ricerca le parole chiave. Ad esempio:
|
Alcuni motori di ricerca hanno impostazioni booleane predefinite, Google ad esempio usa in maniera predefinita “AND”.
Alcuni motori di ricerca distinguono tra parole scritte con caratteri minuscoli o maiuscoli, ovvero gestiscono la ricerca in base al modo esatto in cui sono stati digitati alla fonte. La maggioranza dei motori di ricerca non gestisce query composte da oltre 10 parole, per cui è inutile inserire intere frasi, il motore non restituirà alcun risultato. I motori di ricerca più evoluti hanno un numero variabile di funzioni speciali di ricerca avanzata. Ciò consente di rendere le ricerche più selettive e di trovare l’informazione richiesta in un numero inferiore di pagine web. Queste funzioni vengono gestite molto spesso per mezzo di form che contengono tutte le variabili di funzione speciale di cui il motore è dotato. Interrogando un motore di ricerca evoluto, inoltre, si ha la possibilità di usare altre funzioni come, ad esempio: |
di opzione di data: che consente risultati di ricerca di contenuti aggiornati sul web in intervalli di tempo più o meno brevi
|
Analisi del campo d’azione
Per analizzare il Web i motori di ricerca utilizzano dei programmi detti crawler (spider/robot) che si occupano di visitare automaticamente gli URI contenuti nel database e seguire i successivi Uri che trovano all’interno dei documenti analizzati, inserendo di volta in volta nel database tutte le informazioni “sensibili” della pagina Catalogazione del materiale ottenuto Dopo l’analisi della pagine a seconda di criteri che variano da motore a motore, alcune di esse vengono inserite nel database e nell’indice del motore di ricerca. La parte testuale archiviata verrà in seguito analizzata per fornire le risposte alle ricerche degli utenti. Risposta alle richieste dell’utente Implica la necessità di elencare i siti in ordine di rilevanza rispetto alla richiesta ricevuta. Per stabilire la rilevanza di un sito vengono cercati nel database quei documenti che contengono la parola chiave inserita dall’utente; in seguito, ogni motore di ricerca sfrutta propri algoritmi per classificare le pagine. |
I motori di ricerca presenti sul world wide web, su Internet, sono numerosi, qui di seguito ne riportiamo un elenco.
http://www.yahoo.com/ Yahoo è uno dei portali più utilizzati per le ricerche, è attualmente uno dei siti web più frequentati in assoluto http://it.msn.com/ Il progetto originario di MSN era basato su una tecnologia sviluppata internamente da Microsoft. Un annuncio ufficiale, però, dichiarò che il motore di ricerca che Microsoft voleva sviluppare si sarebbe appoggiato alla tecnologia Inktomi, già utilizzata da altri motori di ricerca. Solo nel 2005 Microsoft riuscirà a rilasciare una versione del motore di ricerca basata su tecnologia proprietaria. http://www.altavista.com AltaVista usa una procedura (chiamata scooter) di registrazione delle pagine Web molto sofisticata: scandaglia il WWW e riesce ad inserire quasi 10 milioni di nuove pagine Web ogni giorno. Il motore di indicizzazione è in grado di esaminare circa un miliardo di caratteri l'ora. Implementa la tecnologia di ricerca con una caratteristica unica tra i motori di ricerca che identifica la lingua originaria dei contenuti delle pagine web fornendo così un criterio di ricerca in più per gli utenti http://www.godado.it/ Sviluppato in Italia, Godado, è uno dei pochi motori di ricerca europei in grado di offrire l'opportunità di incrementare la visibilità e il traffico di visitatori del proprio sito attraverso un sistema a pagamento trasparente.Una meccanica impostata “ad asta d’offerta” decide la posizione nei risultati di ricerca. Gli inserzionisti scelgono le parole-chiave più adatte a descrivere i contenuti del proprio sito e chi assegna alla parola-chiave il valore economico più alto esce al primo posto nei risultati di ricerca.Le aziende che iscrivono il proprio sito a Godado pagano solo quando l'utente entra nel sito, per cui il pagamento all’azienda viene calcolato sul numero di accessi reali. http://www.google.it/ Google usa una tecnologia chiamata pagerank in grado di selezionare i risultati di ricerca valutando l'importanza di ogni pagina web con metodi matematici, in base ad un controllo di oltre 500 milioni di variabili e di 2 miliardi di termini. Questa tecnologia controlla sia il contenuto della pagina web, sia i collegamenti che eventuali altri siti hanno verso una pagina: in base alla quantità ed alla qualità del tipo di link, la pagina riceve una valutazione più o meno alta, che fa salire il contenuto in alto alla graduatoria. http://arianna.libero.it/ Funziona con tecnologia sviluppata in Italia. Uno degli obiettivi su cui punta Arianna è l'attendibilità dei dati censiti, sia dal punto di vista qualitativo che quantitativo. Per fare ciò, cerca automaticamente le pagine Web in lingua italiana e le controlla ad intervalli regolari, così da mantenere aggiornato il database, scartando le pagine non più disponibili http://www.alltheweb.com/ In servizio dal 1999, il motore AlltheWeb ad agosto dello stesso anno aveva già indicizzato 200 milioni di pagine arrivando a 300 nel gennaio 2000. Agli inizi del 2003 si stimava fossero 2 miliardi di pagine indicizzate. Fino ad un paio di anni fa era il maggior rivale di Google nella categoria di motori a ricerca di contenuto. http://www.alice.it/oggi/index.html Virgilio censisce solo i siti in lingua italiana. È costituito da una directory elenco di siti suddiviso in base alla loro tipologia e strutturato in macro categorie, a loro volta, distinte in gruppi più analitici. http://www.hotbot.com/ Mediante una tecnologia chiamata smartcrawl, HotBot è caratterizzato da funzioni quasi uniche, tra le quali una flessibile e potente funzione di ricerca avanzata, oltre ad una tecnologia di acquisizione automatica dei siti in grado di analizzare 10 milioni di documenti al giorno. http://www.excite.com/ Excite era fino a due anni fa uno dei cinque motori di ricerca più utilizzati al mondo. Si sta configurando sempre più come un portale. http://it.ask.com/?o=312#subject:ask|pg:1 Le query sottoposte al motore Ask Jeeves danno risultati che sono il prodotto di 4 distinti database principali: Le risposte che forniscono gli editori alle domande dei navigatori Il numero di link sponsorizzati acquistati direttamente da Ask Jeeves I link a pagamento del Google AdWords I risultati del motore di ricerca Teoma, di proprietà dello stesso Ask Jeeves http://www.lycos.com/ Lycos ha il primato di essere stato uno dei primi motori di ricerca ad essere stato progettato e, per alcuni anni, è stato considerato leader tra i motori di ricerca. Negli ultimi anni è stato un po' ridimensionato http://search.looksmart.com/ Looksmart è un motore di ricerca composto da distinte directory di categorie di contenuti. la sua missione è quella di creare un indice il cui contenuto sia incentrato sulla qualità dei siti censiti |
La struttura di Internet che, come abbiamo visto, è a nodi distribuiti collegati semanticamente riflette i reticoli sociali. Ha assunto la funzione di coalizzare gli utenti in spazi comunicazionali condivisi. Il Cyberspazio è, pertanto, un contenitore di aggregazioni sociali nel quale è possibile condurre analisi ed indagini proprio secondo gli schemi delle discipline che studiano i comportamenti sociali. Poiché le informazioni sono distribuite su internet già in formato digitale, il vantaggio aggiuntivo che se ne ricava è quello di poter condurre le analisi utilizzando tecniche di calcolo matematico per la navigazione e la valutazione dei contenuti.
In sostanza, con l’affermarsi di internet come infrastruttura di comunicazione di massa a livello globale in grado di essere nel contempo uno strumento di comunicazione per temi di nicchia nell’ambito di comunità virtuali accomunate da interessi comuni, è possibile “viaggiare” nel Cyberspazio per analizzare direttamente tendenze sociali, scenari di crisi, situazioni di pericolo nell’ambito di indagini investigative e di intelligence come nel caso della lotta al terrorismo globale. Il concetto di www data mining - che sotto l’aspetto funzionale tecnologico si rifà, più o meno, al concetto di motore di ricerca - consiste nell’estrazione di informazioni sensibili, utili, in modo automatico, semiautomatico o manuale da una grande quantità di dati che vengono in seguito analizzati. |
Definito il problema (tecnicamente, “problem setting”), per fare una ricerca si deve rispondere alle seguenti domande: perché sto facendo una ricerca? Che cosa spero di trovare? Che cosa devo cercare? Come devo cercare (definendo la scelta di parole chiave e criteri di ricerca)? Dove devo cercare, nei data base, nei motori di ricerca, in particolari siti, …?
|
I risultati della ricerca risolvono il problema (problem solving).
La necessità di ricercare informazioni e dati su Internet con l’ausilio dei motori di ricerca, e, in futuro, con il grande aiuto degli agenti intelligenti (i più avanzati nella ricerca sono i russi, gli americani e gli israeliani, per usi quasi prettamente militari o investigativi) sta configurando delle nuove figure professionali, caratterizzate da una cultura di base multidisciplinare e in continua formazione, come |
Questi nuovi professionisti sono già molto ricercati.
In un futuro non prossimo, con lo sviluppo degli agenti intelligenti, che sono dei software applicativi simili ai virus, si svilupperanno applicazioni anche per uso civile. Applicazioni innovative nel campo delle “cose intelligenti”, quali le case e i vestiti, i sistemi mobili per il "spontaneous networking", i videogiochi distribuiti. |
Nel capitolo 8 abbiamo iniziato a capire come funziona Internet. Utilizzata, per alcuni anni, quasi esclusivamente per condividere risorse e scambiare dati e informazioni tramite tecnologie come, ad esempio, i server FTP e i BBS.
|
I Portali
Con la diffusione di Internet tra gli utenti comuni si è anche fatta strada l’esigenza di facilitare la veicolazione delle informazioni contenute in maniera semplice ed organizzata. Più o meno nello stesso periodo in cui si andavano sviluppando i primi motori di ricerca, intorno alla fine degli anni ’90, nascevano, quindi, i primi portali web. I portali sono siti web progettati allo scopo di costituire una “porta di ingresso” per l’accesso ad un insieme di risorse e di informazioni contenute nei siti Internet. I portali tengono costantemente aggiornati gli indici dei contenuti tramite applicativi chiamati portlets, gestiti dall’amministratore del portale. Inoltre, i migliori portali consentono ai loro utenti di personalizzare alcune loro prestazioni. |
Open Directory Project (ODP), uno dei più grandi progetti di indicizzazione, nasce nel 1998. Il progetto, fondato da Rich Skrenta e Bob Truel, all’inizio era stato chiamato Gnuhoo e, successivamente, Newhoo, nell’intento di comunicare al pubblico quella che era la nuova alternativa a Yahoo creata dal lavoro di volontari.
ODP è una enorme Directory che indicizza costantemente milioni di URL dopo che i contenuti dei siti sono stati censiti. L’indicizzazione viene messa a disposizione degli editori di portali web sotto forma di licenza open content. Le diverse centinaia di portali web realizzati nelle varie lingue sono sviluppati e tenuti aggiornati mediante i Contenuti ODP creati dagli editori che aderiscono al progetto. Chiunque può diventare editore, ma la sua accettazione da parte della comunità è legata alla forma in cui egli redige l’apposita domanda. Alla URL http://dmoz.org/World/Italiano/help/become.html si trovano tutte le indicazioni necessarie per diventare editore, nel caso voi o i vostri assistiti foste interessati |
La directory del progetto ODP indicizza le URL dei siti secondo gli argomenti dei contenuti trattati e seguendo una scala gerarchica a vari livelli. I principali tra essi sono costituiti dalle macroaree tematiche del tipo Arte, Affari, Computers, Salute, Società, etc...
Attualmente il progetto ODP censisce e indirizza 4.830.584 siti web, conta 75.151 editori e 590.000 categorie indicizzate nelle diverse macroaree. Fino ad ora abbiamo affrontato il tema della ricerca delle informazioni su Internet.
|
Ma per avere a disposizione un software cosa dobbiamo fare? Dobbiamo per forza comprare una suite Microsoft, Adobe o Norton (solo per citare tre delle innumerevoli aziende che sviluppano e commercializzano software applicativi - non se ne vogliano gli altri produttori!) per editare testi, fare una presentazione, lavorare su fogli di calcolo elettronici oppure modificare un’immagine o un filmato, o ancora per proteggere il nostro computer da attacchi esterni o da virus?
|
NO!
|
Per quanto concerne i sistemi operativi, il discorso è diverso e - a meno che non vogliate diventare esperti di Linux - purtroppo per voi siete quasi obbligati a comprare un SO Microsoft Windows © o MAC-OS©, le cui versioni meno spinte però non sono molto costose. Ricordate, sempre, che usare software pirata è illegale. Si viene puniti penalmente!
Ma se intendete dedicarvi ad altri tipi di elaborazione con il vostro computer, in giro su Internet trovate release di qualche applicativo che può fare al caso vostro, per il cui uso dovete pagare nulla o un piccolo “premio” al suo creatore. |
Nel capitolo 5 abbiamo definito le varie categorie di software. Sul world wide web è presente un enorme numero di siti dai quali scaricare programmi freeware, shareware oppure programmi open source, come versioni “lite” di programmi commercializzati operativi al 100%, con solo qualche limitazione nelle applicazioni.
Nella loro ricerca, potrete essere aiutati dai Portali generici che hanno sicuramente una directory: computer>software. |
Esistono poi i portali specializzati nel fornire soluzioni di ricerca solo per gli applicativi di ogni categoria.
Ogni portale specializzato indicizza in maniera leggermente diversa le varie categorie. Qui di seguito vi riporto una delle classificazioni più usate delle principali categorie di software applicativi:
Vi elenco anche alcuni dei portali specializzati per la ricerca di software, in cui vengono classificati indistintamente sia software commerciali che liberi o semiliberi, da usare per i diversi sistemi operativi che avete installato sui vostri pc. Vicino alla descrizione delle funzionalità di ogni uno di essi, vi trovate generalmente specificate anche le condizioni di utilizzo e gli eventuali commenti di coloro che li hanno utilizzati:
Ecco un portale specializzato solo per applicativi Mac-OS |
GRAFICA
|
GIMP
PhotoFiltre IcoFX XnView ArtRage free edition Sqirlz Lite |
Per il fotoritocco: è il programma alternativo gratuito a suite come Adobe Photoshop
Filtri per le foto: PhotoFiltre mette a disposizione per la postproduzione delle foto digitali. Offre più di cento filtri. Per la creazione di icone: per creare icone personalizzate. Per la conversione tra i vari formati grafici Per il disegno a mano libera: un programma per l’arte digitale utile per disegnare con colori, pennelli, matite, gessetti, pennarelli, pastelli a cera e tele, tutti virtuali. Per le animazioni: Sqirlz Lite permette di creare animazioni imprevedibili partendo da due immagini distinte. |
AUDIO |
Audacity
MediaCoder MP3 Repair Tool MP3myMP3 Recorder YamiPod The GodFather |
Editor audio: per registrare, modificare, mixare tra loro tracce diverse. Applicare degli effetti o cambiare l’intonazione della voce senza alterare la velocità di riproduzione
Conversione formati audio: per convertire file audio nel formato mp3 o in altri formati. Riparazione mp3: per ripare file mp3 se smettono di funzionare all’improvviso. Registrazione: registra in formato digitale MP3 ogni suono che passa attraverso la scheda audio del tuo computer. Gestione iPod: l’iPod è la copia speculare della libreria musicale gestita dal software di Apple. Se hai cancellato qualche brano dal computer è impossibile recuperarlo dall’iPod tramite iTunes. YamiPod ti offre ulteriori funzioni Gestione archivi mp3: per fare ordine nella tua collezione di brani musicali |
VIDEO |
DVDx
DivX for Windows DivFix 1.10 AVS DVD Player Jahchaka VLC |
Conversione da Dvd: per convertire i Contenuti di Dvd in un file più leggero
Player DivX – software per vedere contenuti audiovideo in formato DivX Riparazione Divx: come per Mp3 repair, DivFix ripara molto bene file incompleti o corrotti Player Dvd: per gestire la visione di un Dvd Editing video e post-produzione: per aggiungere nuovi “oggetti”, per ritoccare le immagini fotogramma per fotogramma, per creare titoli e tutto l’occorrente per animazioni ed effetti speciali. Videoregistrazione: per la registrazione di filmati impossibili da salvare sul computer ma che puoi unicamente guardare online, come su Youtube |
SICUREZZA |
Alwil – Avast Home Edition
Spybot - Search & Destroy Starter ZoneAlarm SyncBack Freeware |
Antivirus potente: la versione home è gratuita e sempre aggiornabile. L’antivirus è indispensabile
Antispyware: è un programma che capisce se sei sotto “controllo” di qualcuno che raccoglie le tue informazioni personali quando navighi. E vi pone rimedio Per controllare l’avvio dei programmi: quando Windows impiega troppo tempo ad avviarsi può significare che c’è qualcosa che non va. Questo programma serve a gestire l’avvio dei vari programmi, anche quelli che potrebbero essere un pericolo alla sicurezza Firewall: tiene sotto controllo le comunicazioni in entrata e in uscita dal tuo PC e blocca le eventuali intrusioni. Un firewall è necessario Per effettuare i backup: con SyncBack puoi effettuare dei backup (copiare file in un’altra directory, hard disk, server FTP o altrove. Inoltre consente la sincronizzazione, mantenendo identici i contenuti di due directory |
UFFICIO |
OpenOffice
Photocopier PDF Creator |
Suite completa open source: per il lavoro, come Office, ha un word processor (Writer), un foglio elettronico (Calc), un programma di disegno vettoriale (Draw), un modulo per la creazione di presentazioni (Impress), un database (Base) e un editor di formule (Math).
Programma per sostituire una fotocopiatrice: se hai uno scanner e una stampante, sei a posto, fa tutto da solo Per la conversione di documento nel formato Pdf |