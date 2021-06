L’importance d’un archivage de l’internet

L’Internet Archive a d’abord pour but de constituer, stocker, préserver et gérer une archive de l’internet, en stockant la totalité du web tous les deux mois pour offrir un outil de travail aux universitaires, chercheurs et historiens, et préserver un historique de l’internet pour les générations présentes et futures.

Comme expliqué à l’époque sur le site, de tout temps les sociétés ont voulu préserver leur culture et leur héritage pour les générations présentes et futures. Les bibliothèques ont eu pour vocation de conserver les traces écrites de ces cultures et de ces héritages, et d’en procurer l’accès au grand public et aux chercheurs. Il paraît donc essentiel qu’elles étendent leur mission aux nouvelles technologies.

Paradoxalement, le travail de sauvegarde a souvent été mal fait au début du 20e siècle. Nombreux ont été les premiers films qui ont été recyclés - et donc définitivement perdus - pour récupérer la couche d’argent présente sur la pellicule. Nombre d’émissions de radio et de télévision n’ont pas été conservées. Il importe donc de ne pas reproduire la même erreur pour l’internet, et particulièrement pour le web, un nouveau médium dont la portée, immense, est encore méconnue en 1996, cinq ans après son invention. C’est la raison d’être de l’Internet Archive.

La Wayback Machine

En octobre 2001, avec 30 milliards de pages archivées, l’Internet Archive met ses archives en accès libre grâce à la Wayback Machine, qui permet à tout un chacun de voir l’historique d’un site web, à savoir la présentation et le contenu d’un site web donné tous les deux mois depuis avril 1996 (date de la création de l’Internet Archive).

En 2004, les archives du web représentent plus de 300 To (téra-octets) de données, avec une croissance de 12 To par mois. Le nombre de pages web visibles avec la Wayback Machine est de 65 milliards (provenant de 50 millions de sites web) en décembre 2006, 85 milliards en mai 2007 et 150 milliards en mars 2010.

Un projet de bibliothèque numérique

En 2000, l’Internet Archive débute la constitution de collections numériques, en hébergeant notamment les livres du Million Book Project (10.520 livres en avril 2005), tout comme des archives de films de la période 1903-1973, des archives de concerts live récents, des archives de logiciels, des archives d’images et de vidéos, les sites relatifs au 11 septembre 2001, les sites relatifs aux élections américaines de 2000 (présidentielles) et 2002 (Chambre des représentants), les sites relatifs aux pionniers du web, etc. Toutes ces collections sont en consultation libre.

L’Internet Archive pense aussi qu’une bibliothèque numérique à vocation mondiale ne doit pas être liée à des enjeux commerciaux. Elle veut éviter les travers de Google Books, à savoir la numérisation des livres sous droits sans l’accord préalable des ayants droit, la recherche possible uniquement sur les outils de Google (Google Search et Google Chrome), l’existence de liens pour l’achat de ces livres et la présence de liens publicitaires en haut et à droite de l’écran.

L’Internet Archive lance donc l’Open Content Alliance (OCA) en octobre 2005 pour fédérer un grand nombre de partenaires (bibliothèques, universités, organismes gouvernementaux, associations, organismes culturels, sociétés informatiques). Cette bibliothèque de livres numérisés et de documents multimédias serait respectueuse du copyright des ayants droit et elle aurait un modèle ouvert, avec des collections consultables sur tout moteur de recherche.

La bibliothèque numérique

Les premiers organismes participants sont les bibliothèques des universités de Californie et de Toronto, les Archives européennes, les Archives nationales du Royaume-Uni, O’Reilly Media et les Prelinger Archives. Seuls les livres appartenant au domaine public sont numérisés, pour éviter les problèmes de copyright auxquels se heurte Google. Les livres sous droits ne sont numérisés que si les ayants droit ont expressément donné leur accord. Les collections comprennent 100.000 livres numérisés en décembre 2006, avec 12.000 nouveaux livres par mois, et 200.000 livres numérisés en mai 2007.

En décembre 2006, l’Internet Archive reçoit une subvention d’un million de dollars US de la part de la Sloan Foundation pour numériser plusieurs collections : les collections complètes du Metropolitan Museum of Art (la totalité des livres et plusieurs milliers d’images), une collection de la Boston Public Library (les 3.800 livres de la bibliothèque personnelle de John Adams, deuxième président des États-Unis), une collection de livres d’art du Getty Research Institute, une collection de la John Hopkins University (un ensemble de documents sur le mouvement anti- esclavagiste) et enfin une collection de l’Université de Californie à Berkeley (un ensemble de documents sur la ruée vers l’or).

Les 750.000 livres numérisés par Microsoft pour son projet Live Search Books (débuté en décembre 2006) sont versés dans les collections de l’Internet Archive en mai 2008 lorsque Microsoft met un terme à son projet.

L’Internet Archive offre un million de livres numérisés en décembre 2008 et deux millions de livres numérisés en mars 2010. Dix ans plus tard, elle est la plus grande bibliothèque numérique publique mondiale.

Crédit photo : Internet Archive