Contexte

L'Université Toulouse 1 Capitole diffuse depuis quelques années une liste noire d'URLs, gérée par Fabrice Prigent afin de permettre un meilleur contrôle de l'utilisation d'Internet. Cette base, largement utilisée par les écoles, peut s'intégrer dans un grand nombre d'outils libres ou commerciaux, en complément d'autres listes.
Avec le temps le nombre de catégories a fortement augmenté, et leur rôle a changé. La liste que nous fournissons doit être vue comme une catégorisation des sites, plus que comme une liste à bloquer. Par exemple
  • child est une catégorie dite liste blanche pour les enfants en bas âge
  • liste_bu est une catégorie à ouvrir pour les universités
  • press peut être vue comme à interdire (au travail par exemple) ou à autoriser (CIO, Bibliothèque).
N'oubliez pas que vous pouvez (devez ?) utiliser une catégorie "locale" qui permettrait d'adapter le comportement de votre filtrage. Ainsi les blogs peuvent être interdits de manière générale, mais certains doivent être autorisés pour des raisons pédagogiques.

La licence d'utilisation

Contrat Creative Commons
Cette création est mise à disposition sous un contrat Creative Commons.

Description

Plusieurs catégories sont définies, mais c'est surtout le pornographique qui est activement maintenu.
Pour ceux qui veulent une base de "travail". Je ne mets à jour régulièrement que la base adult qui nous est la plus utile. Si certains d'entre vous décidaient de compléter les autres bases, je me ferais un plaisir de les intégrer dans la mise à jour.
J'ajoute à l'heure actuelle entre 50 et 300 urls par jour (il faut faire des vérifications sur certaines urls) : je ne peux absorber que lentement les ajouts que fait mon robot d'exploration. Veuillez m'en excuser.
Il existe un fichier regroupant toutes les catégories : blacklists.tar.gz C'est la compilation des bases qui sont décrites ci-dessous :
CatégorieNombreDescription
adult2019660 Des sites adultes allant de l'érotique à la pornographie dure.
agressif361 Quelques sites racistes, antisémites, incitant à la haine.
arjel69 Sites de pari en ligne certifiés par l ARJEL
associations_religieuses1 Sites d'associations religieuses
astrology29 Astrologie
audio-video3405 Quelques sites orientés vers l'audio et la vidéo.
bank1708 Banque en ligne
bitcoin255 Sites de bitcoin
blog1471 Quelques sites hébergeant des blogs.
celebrity675 Tout ce qui concerne l actualité dite people
chat230 Site de dialogue et conversation en ligne.
child71 Tout ce qui est autorisé pour des enfants
cleaning173 Sites pour désinfecter et mettre à jour des ordinateurs.
cooking16 Sites de cuisine
cryptojacking7489 Site de mining en hijacking
dangerous_material49 Sites décrivant des moyens de créer du matériel dangereux (explosif, poison, etc.).
dating3573 Sites de rencontres
ddos232 Sites de déni de services
dialer0 Sites de dialer
download66 Sites qui permettent de télécharger des logiciels
drogue1055 Drogue.
educational_games10 Sites de jeux éducatifs
filehosting833 Sites qui hébergent des contenus (vidéos, images, sons)
financial80 Informations financières, bourses.
forums209 Forums.
gambling1120 Sites de jeux en ligne, casino, etc.
games11162 Sites de jeux, en ligne, ou de distributions de jeux.
hacking301 Sites de piratage et d'agressions informatiques.
jobsearch386 Site pour trouver un emploi
lingerie72 Sites de lingerie
liste_bu2849 Une liste très "univ-tlse1.fr" de sites éducatifs pour notre bibliothèque.
malware14542 Tout site qui injecte des malwares
manga736 Tout ce qui est lié à l'univers des mangas et de la bande dessinée
marketingware823 Sites de marketing très spéciaux
mixed_adult152 Sites qui contiennent des portions adultes non structurés
mobile-phone46 Sites pour les mobiles (sonneries, etc.).
phishing63508 Sites de phishing, de pièges bancaires, ou autres.
press4452 Tout site de presse d'information
publicite1454 Publicité.
radio494 Sites de radio sur Internet
reaffected8 Sites qui ont changé de propriétaire et donc de contenu
redirector129519 Quelques sites qui permettent de contourner les filtres.
remote-control44 Site permettant la prise de contrôle à distance
sect144 Secte
sexual_education19 Sites qui parlent d éducation sexuelle et qui peuvent être détectés comme pornographiques
shopping36407 Sites de vente et achat en ligne
shortener262 Raccoursisseur d'URL
social_networks643 Tous les sites de réseaux sociaux
sports2277 Sports
strict_redirector129248 Comme redirector, mais avec les moteurs de recherche classiques.
strong_redirector129248 Comme strict_redirector, mais, pour google et autres, on ne bloque que certains termes.
translation170 Sites de traduction
tricheur46 Sites qui expliquent comme tricher aux examens.
update5 Sites d'update pour les OS ou les logiciels
warez940 Sites distribuant, entre autres, des logiciels ou vidéos pirates.
webmail342 Webmail que l'on trouve sur internet (hotmail, webmail.univ-tlse1.fr, etc.)
Ces listes ont certainement quelques incohérences. Si vous en trouvez signalez le moi fabrice.prigent@ut-capitole.fr ou bien utilisez l'interface suivante. https://dsi.ut-capitole.fr/cgi-bin/squidguard_modify.cgi.

La constitution des bases

La constitution des bases est faite par le biais de 2 moyens :
  • La contribution de personnes (voir ci dessous), qui envoient régulièrement des modifications
  • Un robot qui explore Internet à la recherche de pages pornographiques. Il utilise pour cela diverses méthodes
    • Exploration de pages référencées,
    • Utilisation d'index déjà connus,
    • Utilisation des moteurs de recherche,
    • etc.
      Les bases sont mises à jour 2 à 3 fois par semaine, dépendant essentiellement de mes disponibilités.

Les contributeurs

Cette base n'existe que par le travail de bénévoles, dont plusieurs étrangers. Ceci confère à la base une utilité internationale.
  • Alexandre Chevrier CSVT (pour sa contribution dans les jeux)
  • L'Association www.app3l.org
  • Barbagelata Pierre (MATICE -rectorat de Nice)
  • Benjamin E. Nichols http://www.squidblacklist.org
  • Benjamin Bellec
  • Cedric Foll (Qui désormais a de bien plus grandes responsabilités au ministère)
  • Charles COLLET
  • Christian ORNAGHI
  • David Garroux du CARIP de l'académie de Lyon
  • Deckert Florian
  • Dilain Laurent
  • Eric Jansen (les sites de hosting)
  • Francesco Mascaro
  • Gotzon Astondoa, auteur du logiciel de contrôle parental http://www.wesify.com.
  • Hervé Bienvenu
  • Hans Musil (beaucoup d'ajouts en allemand)
  • Henrique Araujo (beaucoup d'ajouts en espagnol et internationaux)
  • IAE pconline
  • Jago27
  • Josef Skarba
  • Jean François Bellanger (Maison des Sciences de l'Homme) pour tout ce qui concerne les sites de phishing
  • Kris Carlier
  • Laura Cosarca
  • Marc Kool (15% de la base vient de lui)
  • Marcos Manoni (en majorité des sites en langue espagnole)
  • Mark Bizzell
  • Michel Roiron
  • Nicolas DELAMARRE NSI-ADMR (Société dédiée aux systèmes d'information ADMR)
  • Philippe Ferreira
  • Pierre Bardou du MiPih
  • Rick Matthews
  • Rogério Pinheiro da Silva
  • Sean Riley
  • Sylvain Vincent
  • Sylvain Poidras
  • Symon Aked
  • Stéphanie Chevtchenko
  • Société SOFIA Informatique
  • Todd Sieland-Peterson
  • Centre des Systèmes et Réseaux(Université Hassiba Benbouali CHLEF (Algeria))
  • Yann Cézard (CRI - Université de Pau et des Pays de l'Adour) (pour la catégorie games)
  • Yann Guillemot
  • et les nombreux autres anonymes

Les bases malware et marketingware

Ces bases sont alimentées par le travail effectué par :

D'autres bases

D'autres personnes maintiennent des bases de données disponibles, mais elles disparaissent au fur et à mesure...

Télécharger la base

Plusieurs moyens sont disponibles :

Autres informations