Internet est en grande partie inorganisé et les informations sur ses pages Web sont de qualité très variable, y compris des informations industrielles, des répertoires nationaux, des sélections de références de recherche et des sélections de documents personnels. Les moteurs de recherche comme Google essaient de déterminer les pages fiables en les pondérant ou en les classant en fonction de la quantité d’autres pages Web qui y font référence, en identifiant les « autorités » auxquelles font référence de nombreuses pages et en identifiant les « hubs » qui font référence à de nombreuses pages. Ces techniques peuvent fonctionner correctement, mais l’utilisateur doit néanmoins faire preuve d’habileté pour sélectionner des combinaisons appropriées de termes de recherche. Une recherche d’institution financière peut renvoyer des centaines de millions de pages (« hits »), dont de nombreuses provenant de banques industrielles. La recherche de river bank peut néanmoins revenir à plus de 10 millions de pages Web, dont beaucoup proviennent d’institutions bancaires avec river dans le titre. Seules d’autres améliorations telles que les berges et les riverains réduisent le nombre de visites à des milliers et des milliers de pages, de loin les plus notables qui concernent les rivières ainsi que leurs berges. Les moteurs de recherche utilisent des robots, des applications qui explorent le Web en utilisant des hyperliens hypertextes de page en page Web, enregistrant tout sur une page (appelée mise en cache) ou des parties d’une page Web, ainsi qu’une méthode exclusive d’étiquetage du contenu à être capable de développer des indices pondérés. Les sites Web se composent souvent de leurs propres balises sur les pages Web, qui ne sont généralement vues que par les robots d’exploration, afin d’améliorer la correspondance entre les requêtes ainsi que leurs sites Web. Les abus de ce marquage volontaire peuvent fausser les résultats des moteurs de recherche s’ils ne sont pas pris en compte lors de la réalisation des moteurs de recherche. De même, un utilisateur doit savoir si un moteur de recherche spécifique met aux enchères en ligne des mots-clés et des expressions, en particulier si les sites Web qui ont payé pour un positionnement préférentiel ne sont généralement pas indiqués séparément. Même les moteurs de recherche de base les plus importants comme Google, tels que Google, Yahoo!, Baidu et Bing, ne peuvent pas suivre la prolifération des pages Web, et chacun laisse simplement de grandes portions découvertes. lien de site Web, un lien entre des informations associées par des contacts numériques afin de permettre à un utilisateur un accès rapide entre les deux. L’hypertexte, un lien de site Web concernant un contenu textuel, est une fonction de certains programmes informatiques qui permettent à un individu de médias numériques de choisir n’importe quoi parmi le contenu textuel et de recevoir des informations supplémentaires concernant ce mot, comme une définition ou des recommandations associées au sein du contenu textuel. Dans l’article « baleine » d’une encyclopédie électronique, par exemple, un hyperlien hypertexte dans la référence à la baleine bleu clair permet à votre lecteur d’accéder à l’article sur cette variété en cliquant simplement sur le texte « baleine bleue » avec une souris d’ordinateur . Le lien hypertexte est généralement indiqué en présentant le terme ou la phrase pertinente dans un contenu textuel ayant une police ou une couleur différente. Les backlinks peuvent également connecter du contenu textuel à des photos, des sons ou des séquences de dessins animés. Les hyperliens entre différentes parties d’un document ou entre divers documents créent une structure de branchement ou de réseau qui prendra en charge des sauts immédiats et sans intermédiaire vers des éléments de détails associés. La structure arborescente des hyperliens détaille les différences en utilisant le cadre linéaire d’une encyclopédie imprimée ou d’un thésaurus, par exemple, dont les éléments ne sont physiquement accessibles qu’au moyen d’une série statique et linéaire d’éléments en achat alphabétique. Les backlinks sont, en quelque sorte, des recommandations croisées qui offrent un accès immédiat pour se concentrer sur des détails. Ce type d’hyperliens est plus avantageux lorsqu’il est appliqué à une grande variété de détails qui sont organisés en de nombreux éléments associés de plus petite taille, donc lorsqu’un individu ne demande qu’une petite partie d’informations à la fois. Les hyperliens ont déjà été utilisés avec le plus de succès par les sites Web sur Internet. Pour accueillir cette masse d’informations sans précédent, Google a construit 11 centres d’information dans le monde entier, chacun d’eux contenant plusieurs centaines de milliers de serveurs (essentiellement des ordinateurs multiprocesseurs et des disques durs montés dans des étagères exclusivement construites). Les ordinateurs interconnectés de Google sont probablement plusieurs millions. Le cœur de la procédure de Google, néanmoins, est constitué de trois morceaux propriétaires de code informatique personnel : les moteurs de recherche Document Program (GFS), Bigtable et MapReduce. GFS gère le stockage des informations en « morceaux » sur un certain nombre de machines ; Bigtable est le programme de source de données de l’entreprise ; et MapReduce est utilisé par les moteurs de recherche pour créer des informations de niveau supérieur (par exemple, constituer un index de pages Web contenant le texte « Chicago », « théâtre » et « participatif »).