Les listes noires

English version here : blacklist of UT1

Historique

Depuis 1997, l'Université Toulouse 1 Sciences Sociales, travaille avec un système de filtrage web qui permet de réguler l'utilisation du web. Pour ces besoins, nous avons commencé à constituer une base de filtrage plus efficace que celle fournie par défaut. Ce travail, de longue haleine, se poursuit à l'heure actuelle avec environ 50 à 200 ajouts quotidiens.

Mise à disposition

Le travail effectué a été mis à disposition de tous, afin que chacun puisse en bénéficier gratuitement sous <!-- Contrat Creative Commons --> <a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/fr/">licence Creative Commons</a>. <a rel="license" href="http://creativecommons.org/licenses/by-sa/2.0/fr/"><img alt="Licence Creative Commons" border="0" src="http://creativecommons.org/images/public/somerights20.gif" /></a><br /> <!-- /Contrat Creative Commons --> Nous demandons simplement aux utilisateurs :

  • de nous remonter les erreurs et les ajouts
  • et aux entreprises françaises qui souhaitent utiliser cette liste de penser à nous, dans le cadre des taxes d'apprentissage, et nous permettre ainsi d'améliorer le service. Elles peuvent me contacter à fabrice.prigent@univ-tlse1.fr pour plus de précisions.

Pour récupérer la liste

Vous pouvez récupérer plusieurs listes, mais celle qui regroupe l'ensemble des autres est blacklists.tar.gz. Les répertoires sont ici :

Vous trouverez un fichier MD5 pour garantir l'intégrité des fichiers téléchargés. Pensez aussi à éviter de charger la liste durant les heures ouvrables (8h00 GMT → 19h00 GMT).

Caractéristiques de la liste

Cette liste regroupe les thèmes suivants:

  • sites adultes (érotiques et pornographiques). C'est la seule liste que nous maintenons activement.
  • sites publicitaires
  • sites warez
  • sites de contournement (redirecteurs divers)
  • sites de forums
  • sites de webmail
  • etc.

Plus

  • une liste blanche (liste_bu) adaptée à nos besoins (pour notre bibliothèque universitaire en sciences sociales).

Cette liste est

  • Internationale (60 langues approximativement)
  • Collaborative (elle dépend de la bonne volonté de chacun)
  • Conçue principalement pour la protection enfantine

Les contributeurs

La liste est collaborative, et bénéficie de l'aide de plusieurs dizaines de contributeurs de toutes nationalités.

  • Barbagelata Pierre (MATICE -rectorat de Nice)
  • Cedric Foll
  • Charles COLLET
  • David Garroux du CARIP de l'académie de Lyon
  • Deckert Florian
  • Francesco Mascaro
  • Jago27
  • Kris Carlier
  • Marc Kool (20% de la base vient de lui)
  • Mark Bizzell
  • Michel Roiron
  • Philippe Ferreira
  • Rick Matthews
  • Rogério Pinheiro da Silva
  • Sean Riley
  • Sylvain Vincent
  • Symon Aked
  • Todd Sieland-Peterson
  • et les nombreux autres anonymes

Comment la base est-elle constituée ?

Elle est constituée par 2 sources : les contributeurs indiqués ci-dessus, et le travail d'un robot d'exploration qui va chercher sur le Net toutes les pages susceptibles de contenir des pages "intéressantes". Ce robot, parallèlement à la récupération des pages, analyse et évalue leur adéquation à une catégorie (pour l'instant uniquement la catégorie adulte).

Quels sont les critères ?

Aucun critère à priori n'existe. Le robot, après une phase d'apprentissage de 100 000 sites, a créé de toutes pièces certains critères permettant de détecter les sites adultes. Tout site visité et qui valide ces critères est alors considéré comme adulte.