Contexte

L'Université Toulouse 1 Capitole diffuse depuis quelques années une liste noire d'URLs, gérée par Fabrice Prigent afin de permettre un meilleur contrôle de l'utilisation d'Internet. Cette base, largement utilisée par les écoles, peut s'intégrer dans un grand nombre d'outils libres ou commerciaux, en complément d'autres listes.
Avec le temps le nombre de catégories a fortement augmenté, et leur rôle a changé. La liste que nous fournissons doit être vue comme une catégorisation des sites, plus que comme une liste à bloquer. Par exemple
  • child est une catégorie dite liste blanche pour les enfants en bas âge
  • liste_bu est une catégorie à ouvrir pour les universités
  • press peut être vue comme à interdire (au travail par exemple) ou à autoriser (CIO, Bibliothèque).
N'oubliez pas que vous pouvez (devez ?) utiliser une catégorie "locale" qui permettrait d'adapter le comportement de votre filtrage. Ainsi les blogs peuvent être interdits de manière générale, mais certains doivent être autorisés pour des raisons pédagogiques.

La licence d'utilisation

Contrat Creative Commons
Cette création est mise à disposition sous un contrat Creative Commons.

Description

Plusieurs catégories sont définies, mais c'est surtout le pornographique qui est activement maintenu.
Pour ceux qui veulent une base de "travail". Je ne mets à jour régulièrement que la base adult qui nous est la plus utile. Si certains d'entre vous décidaient de compléter les autres bases, je me ferais un plaisir de les intégrer dans la mise à jour.
J'ajoute à l'heure actuelle entre 50 et 300 urls par jour (il faut faire des vérifications sur certaines urls) : je ne peux absorber que lentement les ajouts que fait mon robot d'exploration. Veuillez m'en excuser.
Il existe un fichier regroupant toutes les catégories : blacklists.tar.gz C'est la compilation des bases qui sont décrites ci-dessous :
CatégorieNombreDescription
adult3124903 Des sites adultes allant de l'érotique à la pornographie dure.
agressif384 Quelques sites racistes, antisémites, incitant à la haine.
arjel69 Sites de pari en ligne certifiés par l ARJEL
associations_religieuses1 Sites d'associations religieuses
astrology29 Astrologie
audio-video3482 Quelques sites orientés vers l'audio et la vidéo.
bank1839 Banque en ligne
bitcoin263 Sites de bitcoin
blog1471 Quelques sites hébergeant des blogs.
celebrity675 Tout ce qui concerne l actualité dite people
chat239 Site de dialogue et conversation en ligne.
child74 Tout ce qui est autorisé pour des enfants
cleaning173 Sites pour désinfecter et mettre à jour des ordinateurs.
cooking21 Sites de cuisine
cryptojacking13580 Site de mining en hijacking
dangerous_material49 Sites décrivant des moyens de créer du matériel dangereux (explosif, poison, etc.).
dating368599 Sites de rencontres
ddos419 Sites de déni de services
dialer0 Sites de dialer
doh75 Serveurs DNS over HTTP ou équivalent
download4018 Sites qui permettent de télécharger des logiciels
drogue1055 Drogue.
educational_games11 Sites de jeux éducatifs
examen_pix99 Une liste uniquement réservée aux élèves français passant l examen PIX. NE PAS UTILISER dans d autres circonstances
filehosting888 Sites qui hébergent des contenus (vidéos, images, sons)
financial84 Informations financières, bourses.
forums209 Forums.
gambling1219 Sites de jeux en ligne, casino, etc.
games11455 Sites de jeux, en ligne, ou de distributions de jeux.
hacking304 Sites de piratage et d'agressions informatiques.
jobsearch386 Site pour trouver un emploi
lingerie83 Sites de lingerie
liste_bu2890 Une liste très "univ-tlse1.fr" de sites éducatifs pour notre bibliothèque.
malware140008 Tout site qui injecte des malwares
manga779 Tout ce qui est lié à l'univers des mangas et de la bande dessinée
marketingware28 Sites de marketing très spéciaux
mixed_adult153 Sites qui contiennent des portions adultes non structurés
mobile-phone50 Sites pour les mobiles (sonneries, etc.).
phishing137356 Sites de phishing, de pièges bancaires, ou autres. Copie de la catégorie malware.
press4490 Tout site de presse d'information
publicite4044 Publicité.
radio506 Sites de radio sur Internet
reaffected8 Sites qui ont changé de propriétaire et donc de contenu
redirector129635 Quelques sites qui permettent de contourner les filtres.
remote-control48 Site permettant la prise de contrôle à distance
sect144 Secte
sexual_education19 Sites qui parlent d éducation sexuelle et qui peuvent être détectés comme pornographiques
shopping36442 Sites de vente et achat en ligne
shortener317 Raccoursisseur d'URL
social_networks658 Tous les sites de réseaux sociaux
sports2282 Sports
stalkerware22 Site diffusant des outils d'espionnage pour les particuliers
strict_redirector129363 Comme redirector, mais avec les moteurs de recherche classiques.
strong_redirector129363 Comme strict_redirector, mais, pour google et autres, on ne bloque que certains termes.
translation171 Sites de traduction
tricheur46 Sites qui expliquent comme tricher aux examens.
update6 Sites d'update pour les OS ou les logiciels
vpn1397 Site de VPN
warez1013 Sites distribuant, entre autres, des logiciels ou vidéos pirates.
webmail384 Webmail que l'on trouve sur internet (hotmail, webmail.univ-tlse1.fr, etc.)
Ces listes ont certainement quelques incohérences. Si vous en trouvez signalez le moi fabrice.prigent@ut-capitole.fr ou bien utilisez l'interface suivante. https://dsi.ut-capitole.fr/cgi-bin/squidguard_modify.cgi.

La constitution des bases

La constitution des bases est faite par le biais de 2 moyens :
  • La contribution de personnes (voir ci dessous), qui envoient régulièrement des modifications
  • Un robot qui explore Internet à la recherche de pages pornographiques. Il utilise pour cela diverses méthodes
    • Exploration de pages référencées,
    • Utilisation d'index déjà connus,
    • Utilisation des moteurs de recherche,
    • etc.
      Les bases sont mises à jour 2 à 3 fois par semaine, dépendant essentiellement de mes disponibilités.

Les contributeurs

Cette base n'existe que par le travail de bénévoles, dont plusieurs étrangers. Ceci confère à la base une utilité internationale.
  • Alexandre Chevrier CSVT (pour sa contribution dans les jeux)
  • L'Association www.app3l.org
  • Barbagelata Pierre (MATICE -rectorat de Nice)
  • Benjamin E. Nichols http://www.squidblacklist.org
  • Benjamin Bellec
  • Cedric Foll (Qui désormais a de bien plus grandes responsabilités au ministère)
  • Charles COLLET
  • Christian ORNAGHI
  • David Garroux du CARIP de l'académie de Lyon
  • Deckert Florian
  • Dilain Laurent
  • Eric Jansen (les sites de hosting)
  • Francesco Mascaro
  • Gotzon Astondoa, auteur du logiciel de contrôle parental http://www.wesify.com.
  • Hervé Bienvenu
  • Hans Musil (beaucoup d'ajouts en allemand)
  • Henrique Araujo (beaucoup d'ajouts en espagnol et internationaux)
  • IAE pconline
  • Jago27
  • Josef Skarba
  • Jean François Bellanger (Maison des Sciences de l'Homme) pour tout ce qui concerne les sites de phishing
  • Kris Carlier
  • Laura Cosarca
  • Marc Kool (15% de la base vient de lui)
  • Marcos Manoni (en majorité des sites en langue espagnole)
  • Mark Bizzell
  • Maxime Brunier(NITD)
  • Michel Roiron
  • Nicolas DELAMARRE NSI-ADMR (Société dédiée aux systèmes d'information ADMR)
  • Philippe Ferreira
  • Pierre Bardou
  • Nathanaël Bonin du MiPih
  • Rick Matthews
  • Rogério Pinheiro da Silva
  • Sean Riley
  • Sylvain Vincent
  • Sylvain Poidras
  • Symon Aked
  • Stéphanie Chevtchenko
  • Société SOFIA Informatique
  • Todd Sieland-Peterson
  • Centre des Systèmes et Réseaux(Université Hassiba Benbouali CHLEF (Algeria))
  • Yann Cézard (CRI - Université de Pau et des Pays de l'Adour) (pour la catégorie games)
  • Yann Guillemot
  • et les nombreux autres anonymes

Les bases malware et marketingware

Ces bases sont alimentées par le travail effectué par :

D'autres bases

D'autres personnes maintiennent des bases de données disponibles, mais elles disparaissent au fur et à mesure...

Télécharger la base

Plusieurs moyens sont disponibles :

Autres informations