Sfida al deep web: la Kosmix prova
a svelare le pagine nascoste di internet

Sfida al deep web: la Kosmix prova a svelare le pagine nascoste di internet
2 Minuti di Lettura
Lunedì 23 Febbraio 2009, 17:46 - Ultimo aggiornamento: 18:25
ROMA (23 febbraio) - Un abisso buio, ancora tutto da scoprire, profondo e inavvicinabile proprio come Atlantide, che resta un mistero soprattutto dopo la bufala di qualche giorno fa pubblicata suThe Sun che annunciava che Google Ocean aveva fotografato la città sommersa



L'abisso del web, appunto "deep web", non è una novità. Sono miliardi le pagine che restano invisibili, o meglio, non indicizzate dai motori di ricerca senza riuscire salire a galla ("surface web"). E quel miliardo di miliardi di pagine indicizzate proclamato dal "padrone" del web Google è solo l'inizio dell'opera di "estrazione" dei pixel che restano al buio.



Una nuova tecnologia per il deep web. Sembra essere sempre più vicina la scoperta di nuova tecnologia che estenderà il raggio d'azione dei motori di ricerca negli angoli nascosti della Rete.



«La Rete navigabile è la punta di un iceberg» dice sul New York Times Anand Rajaraman, cofondatore di Kosmix, una start-up creata per la ricerca nel deep web, fra i cui investitori c'è Jeffrey P. Bezos, amministratore delegato di Amazon.com.



Nel deep web si nascondono soprattutto le pagine dei database, quelli magari pubblicate in pdf, che non vengono linkate ad altre pagine. Eh sì, proprio senza quel "sacro" link che permette ai crawler di rincorrere le pagine online e di indicizzarle. 



Dal protocollo OAI-PMH alla rete di tipo semantica. Ai crawler dopottutto non si può chiedere di umanizzarsi all'infinito e di diventare capaci di interrogare un database vista l'infinità di termini che si possono ricercare. Per ovviare a questo maldestro cammino dei software "acchiappa pagine", c'è ad esempio Openarchives.org, un protocollo  (OAI-PMH ) che aiuta a indicizzare i documenti sui motori di ricerca inviando ai motori  metadati in genere in formato XML. L'obiettivo è quello di una rete di tipo semantica, in grado di dare significato alle frasi dal punto di vista dell'indicizzazione (qui qualche esempio di motori di ricerca semantici).



La sfida è quella di riuscire a creare motori di ricerca in grado di rispondere a domande che prevedono un ragionamento alla base (si fa quest'esempio: «Quale è la migliore tariffa da New York a Londra

giovedì prossimo?»). Qualcuno sta studiando ormai da tempo la tecnica del motore inferenziale che sfrutta un algoritmo che simulerebbe le modalità con cui la mente umana ragiona. Impegnato a stanare il deep web anche il professor Juliana Freire della università dello Utah che ha creato il progetto DeepPeep. Ma i passi da fare sono ancora molti.