Rechercher dans les sites d'archives

Rechercher dans les sites d'archives

Notre équipe travaille sur un service unique qui combine les capacités du système Web Archive (archive.org) et un moteur de recherche.

Les données historiques sont très importantes.

L'expérience acquise dans la création du service de récupération de site Archivarix nous a permis de commencer à travailler sur quelque chose de grand.

le recherche plein texte

le recherche plein texte

Nous classons et indexons toutes les données récupérées afin de faciliter la recherche.

Stockage de données

Les données ne sont pas supprimées et sont stockées dans un format pratique pour un traitement ultérieur.

Stockage de données
Travail pratique avec les données

Travail pratique avec les données

Les sites enregistrés sont techniquement statiques. Des outils tels que Archivarix CMS vous permettent de les voir et de les éditer comme un seul site, d'ajouter une partie dynamique, de combiner les données de différents sites et de faire l'optimisation nécessaire sans avoir de connaissances techniques.

2020

Depuis le lancement du projet Archivarix Site Restore en 2017, nous avons commencé à collecter des données de site en direct en parallèle.

2020

Nous avons collecté et collectons des métriques historiques de diverses métriques de site et informations de domaine depuis 2009, que nous mettons à jour chaque jour.

2020

Le contenu des sites que nous traitons pour la recherche en texte intégral et la classification du contenu commence en 1996.

0M +

Notre base de données contient des informations sur les données historiques de plus de 350 millions de domaines.

1+

Le nombre de serveurs de traitement Spider et Archivarix impliqués dépasse déjà 50.

1GB +

Nos serveurs téléchargent quotidiennement plus de 100 Go de contenu de site Web à partir d'Internet.

Analyse de sites Web de différentes sources.

Chaque jour, nous collectons et analysons environ 50 Go de données métriques pour des domaines et des sites provenant de diverses sources. Certains d'entre eux sont énumérés ci-dessous.

Logo Ahrefs

Nous avons lancé notre propre index de backlinks en 2010 et aujourd'hui, leurs araignées parcourent jusqu'à 8 milliards de pages par jour.

Logo Alexa Internet

Alexa Internet collecte des statistiques de trafic sur les sites Web, des classements mondiaux et d'autres informations depuis 1996. En 1999, Amazon a acheté le service.

Logo Internet Archive

Fondé par Brewster Keil, qui a fondé Alexa Internet quelques années plus tôt. Conserve des copies des pages Web depuis 1996 et archive divers formats de matériel pour un accès gratuit.

Logo Cisco

Une entreprise qui développe et vend des équipements de réseau. Mais à côté de cela, il fournit des données utiles dans le domaine de la sécurité, qu'il forme à partir des statistiques de ses équipements.

Logo Icann

Une société internationale indépendante qui réglemente les noms de domaine, les adresses IP et d'autres aspects importants d'Internet.

Logo Majestic SEO

Initialement appelé MajesticSEO depuis 2008, il fournit de nombreux outils utiles aux webmasters.

Logo Moz

Le service (initialement appelé SEOmoz) a été fondé en 2004 en tant que blog et article en ligne sur le thème de l'optimisation des moteurs de recherche. Il fournit désormais de nombreux outils utiles aux webmasters.

Logo Verisign

La société américaine qui gère deux des treize services racine DNS et gère également les registres de deux des zones de domaine les plus importantes sur Internet .com et .net.