U 2016. Google je obradio preko 3,2 bilijuna upita za pretraživanje, no rezultati koje je pružala tražilica činili su samo djelić dostupnog sadržaja na mreži. Mnoge informacije dostupne na mreži nisu dostupne tražilicama, pa morate koristiti posebne alate ili sami istražiti web stranice kako biste pronašli ove skrivene stranice. Poznate kao duboka mreža, ove skrivene informacije čine do 5000 puta više od dostupnih pomoću tipičnih tehnika pretraživanja.
Vrste skrivenog sadržaja
Skrivene stranice web stranica spadaju u kategorije koje opisuju zašto ostaju nevidljive tražilicama.
Neki čine dinamični sadržaj koji se poslužuje samo kada posjetitelj na web mjestu pošalje određeni zahtjev koji koristi kôd vođen bazom podataka za predstavljanje ciljanih rezultata. Kao primjer, ove stranice mogu sadržavati rezultate kupnje na temelju određenih kombinacija kriterija proizvoda. Tražilice nisu namijenjene praćenju i pohrani podataka pohranjenih u tim bazama podataka. Da biste pronašli ove stranice, morali biste otići na web mjesto i potražiti određene informacije koje tražite ili upotrijebiti uslugu pretraživanja usmjerenu na baze podataka poput Bright Planet.
Neke stranice nemaju veze koje ih povezuju s izvorima koji se mogu pretraživati. Privremeni resursi, poput više inačica web stranica u fazi izrade, mogu spadati u ovu kategoriju, kao i loše dizajnirane web stranice. Na primjer, ako je netko stvorio web stranicu i učitao je na poslužitelj web stranice, ali nije uspio dodati vezu na nju na trenutnim stranicama web stranice, nitko ne bi znao da je ona tu, uključujući tražilice.
Još više stranica zahtijeva vjerodajnice za prijavu da bi ih pregledalo ili pristupilo njima, poput web mjesta s pretplatom. Web dizajneri stranice i odjeljke web mjesta određuju kao ograničene za tražilice, učinkovito uklanjajući njihovo pronalaženje uobičajenim sredstvima. Da biste pristupili tim stranicama, obično morate stvoriti račun prije nego što dobijete dopuštenje za pristup njima.
Korištenje datoteka Robots.txt
Tražilice pretražuju stranice web stranice i indeksiraju njegov sadržaj kako bi se mogao prikazati kao odgovor na upite. Kada vlasnik web stranice želi izuzeti neke dijelove svoje domene iz ovih postupaka indeksiranja, ona dodaje adrese tih direktorija ili stranica u posebnu tekstualnu datoteku pod nazivom robots.txt, pohranjenu u korijenu svoje web stranice. Budući da većina web lokacija sadrži datoteku robota, bez obzira na to dodaju li joj izuzeća, za prikaz sadržaja možete koristiti predvidljivo ime dokumenta.
Ako upišete "[naziv domene] /robots.txt" bez navodnika u liniju lokacije vašeg preglednika, zamjenjujući "[ime domene]" adresom web lokacije, sadržaj datoteke roboti često se pojavljuje u prozoru preglednika nakon pritisnete tipku "Enter". Unosi koji su označeni s "zabraniti" ili "zabraniti" predstavljaju dijelove web mjesta koji ostaju nedostupni putem tražilice.
Uradite sami hakiranje web stranica
Osim datoteka robot.txt, često možete pronaći i skriveni sadržaj tako što ćete u web-preglednik upisati web adrese za određene stranice i mape. Na primjer, ako ste gledali web mjesto umjetnika i primijetili da se svaka stranica koristi istim pravilima imenovanja - poput gallery1.html, gallery2.html, gallery4.html - tada ćete možda moći pronaći skrivenu galeriju upisivanjem stranice " gallery3.html. " u vašem web pregledniku.
Slično tome, ako primijetite da web mjesto koristi mape za organiziranje stranica - poput example.com/content/page1.html, pri čemu je mapa "/ content" - tada ćete možda moći pregledati samu mapu upisivanjem web mjesta i mape , bez stranice, kao što je "example.com/content/" u vašem web pregledniku. Ako pristup mapi nije onemogućen, možda ćete moći kretati stranicama koje sadrži, kao i stranicama u bilo kojim podmapama, kako biste pronašli skriveni sadržaj.