Nossa equipe está trabalhando em um serviço exclusivo que combina os recursos do sistema Web Archive (archive.org) e um mecanismo de pesquisa.
A experiência na criação do serviço de recuperação de sites Archivarix nos permitiu começar a trabalhar em algo grande.
Classificamos e indexamos todos os dados recuperados para facilitar a pesquisa.
Os dados não são excluídos e são armazenados em um formato conveniente para processamento posterior.
Os sites salvos são tecnicamente estáticos. Ferramentas como Archivarix CMS permitem que você os veja e edite como um único site, adicione uma parte dinâmica, combine dados de diferentes sites e faça a otimização necessária sem ter conhecimento técnico.
Começando com o lançamento do Projeto de restauração de sites Archivarix em 2017, começamos a coletar dados de sites ativos em paralelo.
Coletamos e estamos coletando métricas históricas de várias métricas do site e informações de domínio desde 2009, que atualizamos todos os dias.
O conteúdo dos sites que processamos para pesquisa de texto completo e classificação de conteúdo começa em 1996.
Nosso banco de dados contém informações sobre dados históricos de mais de 350 milhões de domínios.
O número de servidores de processamento Spider e Archivarix envolvidos já ultrapassa 50.
Nossos servidores baixam mais de 100 GB de conteúdo do site da Internet todos os dias.
Todos os dias, coletamos e analisamos cerca de 50 GB de dados de métricas para domínios e sites de várias fontes. Alguns deles estão listados abaixo.
Lançamos nosso próprio índice de backlinks em 2010 e hoje seus spiders estão rastreando até 8 bilhões de páginas por dia.
Alexa Internet tem coletado estatísticas de tráfego de sites, classificações globais e outras informações desde 1996. Em 1999, a Amazon comprou o serviço.
Fundada por Brewster Keil, que fundou a Alexa Internet alguns anos antes. Retém cópias de páginas da web desde 1996 e arquiva vários formatos de material para acesso gratuito.
Empresa que desenvolve e comercializa equipamentos de rede. Mas, além disso, fornece dados úteis no campo da segurança, que forma a partir das estatísticas de seus equipamentos.
Uma empresa internacional independente que regulamenta os nomes de domínio, endereços IP e outros aspectos importantes da Internet.
Chamado originalmente de MajesticSEO desde 2008, ele fornece muitas ferramentas úteis para webmasters.
O serviço (originalmente chamado de SEOmoz) foi fundado em 2004 como um blog e uma postagem online sobre o tópico de otimização de mecanismos de pesquisa. Ele agora oferece muitas ferramentas úteis para webmasters.
A empresa americana que mantém dois dos treze serviços de raiz do DNS e também gerencia os registros de duas das zonas de domínio mais importantes na Internet .com e .net.