Il nostro team sta lavorando a un servizio unico che combina le funzionalità del sistema Web Archive (archive.org) e un motore di ricerca.
L'esperienza nella creazione del servizio di ripristino del sito di Archivarix ci ha permesso di iniziare a lavorare su qualcosa di grande.
Classifichiamo e indicizziamo tutti i dati recuperati in modo da rendere più comoda la ricerca.
I dati non vengono cancellati e vengono memorizzati in un formato conveniente per un'ulteriore elaborazione.
I siti salvati sono tecnicamente statici. Strumenti come Archivarix CMS consentono di visualizzarli e modificarli come un unico sito, aggiungere una parte dinamica, combinare dati da siti diversi e fare l'ottimizzazione necessaria senza avere conoscenze tecniche.
A partire dal lancio del progetto Archivarix Site Restore nel 2017, abbiamo iniziato a raccogliere dati dal sito in tempo reale in parallelo.
Abbiamo raccolto e stiamo raccogliendo metriche storiche di varie metriche del sito e informazioni sul dominio dal 2009, che aggiorniamo ogni giorno.
Il contenuto dei siti che elaboriamo per la ricerca full-text e la classificazione dei contenuti inizia nel 1996.
Il nostro database contiene informazioni sui dati storici per oltre 350 milioni di domini.
Il numero di server di elaborazione Spider e Archivarix coinvolti supera già i 50.
I nostri server scaricano ogni giorno oltre 100 GB di contenuti del sito Web da Internet.
Ogni giorno raccogliamo e analizziamo circa 50 GB di dati metrici per domini e siti da varie fonti. Alcuni di loro sono elencati di seguito.
Abbiamo lanciato il nostro indice di backlink nel 2010 e oggi i loro spider eseguono la scansione fino a 8 miliardi di pagine al giorno.
Alexa Internet raccoglie statistiche sul traffico del sito Web, classifiche globali e altre informazioni dal 1996. Nel 1999, Amazon ha acquistato il servizio.
Fondata da Brewster Keil, che ha fondato Alexa Internet alcuni anni prima. Conserva copie delle pagine web dal 1996 e archivia vari formati di materiale per l'accesso gratuito.
Una società che sviluppa e vende apparecchiature di rete. Ma oltre a questo, fornisce dati utili nel campo della sicurezza, che forma dalle statistiche delle sue apparecchiature.
Una società internazionale indipendente che regola i nomi di dominio, gli indirizzi IP e altri importanti aspetti di Internet.
Originariamente chiamato MajesticSEO dal 2008, fornisce molti strumenti utili per i webmaster.
Il servizio (originariamente chiamato SEOmoz) è stato fondato nel 2004 come blog e post online sul tema dell'ottimizzazione per i motori di ricerca. Ora fornisce molti strumenti utili per i webmaster.
L'azienda americana che gestisce due dei tredici servizi di root DNS e gestisce anche i registri di due delle zone di dominio più importanti su Internet .com e .net.