Web bot per monitorare siti

Questo è un tema difficile da trattare, da quando il web è nato esiste la possibilità di fare crawling. Google è nata facendo crawling. Airbnb, la legenda narra che al loro inizio un web bot controllava tutti gli annunci su Craiglist per contattarli e spingerli a mettere gli annunci anche su Airbnb.

Ad oggi non esiste una normativa che regolamenta il crawling, nella giungla del web chi non gradisce il crawling del proprio sito lo puó dichiarare in diversi modi: robots.txt oppure condizioni e termini di utilizzo del sito.

la comunità del web al momento è daccordo che se un informazione è accessibile pubblicamente allora questa puó essere soggetta ad estrapolazione automatica. Questa è una conclusione raggiunta anche grazie a vicende realmente accadute e sono conclusioni ottenute in sedi giudiziarie statunitensi.

Io personalmente è da anni che mi appassiona il crawling, ed infatti di conseguenza l’enorme quantità di dati che se ne puó ottenere. È per questo che sono stato costretto ad imparare a padroneggiare Big data sia cone database che cone processamento.

Un giorno in esecuzione ho avuto 400 server in contemporanea che facevano sia crawling che data processing.