Contexte

L'Université Toulouse Capitole diffuse depuis quelques années une liste noire d'URLs, gérée par Fabrice Prigent afin de permettre un meilleur contrôle de l'utilisation d'Internet. Cette base, largement utilisée par les écoles, peut s'intégrer dans un grand nombre d'outils libres ou commerciaux, en complément d'autres listes.
Avec le temps le nombre de catégories a fortement augmenté, et leur rôle a changé. La liste que nous fournissons doit être vue comme une catégorisation des sites, plus que comme une liste à bloquer. Par exemple
  • child est une catégorie dite liste blanche pour les enfants en bas âge
  • liste_bu est une catégorie à ouvrir pour les universités
  • press peut être vue comme à interdire (au travail par exemple) ou à autoriser (CIO, Bibliothèque).
N'oubliez pas que vous pouvez (devez ?) utiliser une catégorie "locale" qui permettrait d'adapter le comportement de votre filtrage. Ainsi les blogs peuvent être interdits de manière générale, mais certains doivent être autorisés pour des raisons pédagogiques.

La licence d'utilisation

Contrat Creative Commons
Cette création est mise à disposition sous un contrat Creative Commons.

Description

Plusieurs catégories sont définies, mais c'est surtout le pornographique qui est activement maintenu.
Pour ceux qui veulent une base de "travail". Je ne mets à jour régulièrement que la base adult qui nous est la plus utile. Si certains d'entre vous décidaient de compléter les autres bases, je me ferais un plaisir de les intégrer dans la mise à jour.
J'ajoute à l'heure actuelle entre 50 et 300 urls par jour (il faut faire des vérifications sur certaines urls) : je ne peux absorber que lentement les ajouts que fait mon robot d'exploration. Veuillez m'en excuser.
Il existe un fichier regroupant toutes les catégories : blacklists.tar.gz C'est la compilation des bases qui sont décrites ci-dessous :
CatégorieNombreDescription
adult4578402 Des sites adultes allant de l'érotique à la pornographie dure.
agressif394 Quelques sites racistes, antisémites, incitant à la haine.
arjel69 Sites de pari en ligne certifiés par l ARJEL
associations_religieuses1 Sites d'associations religieuses
astrology29 Astrologie
audio-video3866 Quelques sites orientés vers l'audio et la vidéo.
bank1896 Banque en ligne
bitcoin336 Sites de bitcoin
blog1485 Quelques sites hébergeant des blogs.
celebrity673 Tout ce qui concerne l actualité dite people
chat264 Site de dialogue et conversation en ligne.
child75 Tout ce qui est autorisé pour des enfants
cleaning177 Sites pour désinfecter et mettre à jour des ordinateurs.
cooking28 Sites de cuisine
cryptojacking16282 Site de mining en hijacking
dangerous_material50 Sites décrivant des moyens de créer du matériel dangereux (explosif, poison, etc.).
dating4262 Sites de rencontres
ddos421 Sites de déni de services
dialer4 Sites de dialer
doh3016 Serveurs DNS over HTTP ou équivalent
download4033 Sites qui permettent de télécharger des logiciels
drogue1066 Drogue.
educational_games11 Sites de jeux éducatifs
examen_pix347 Une liste uniquement réservée aux élèves français passant l examen PIX. NE PAS UTILISER dans d autres circonstances
fakenews1085 Site diffusant fakenews
filehosting939 Sites qui hébergent des contenus (vidéos, images, sons)
financial472 Informations financières, bourses.
forums225 Forums.
gambling5661 Sites de jeux en ligne, casino, etc.
games35273 Sites de jeux, en ligne, ou de distributions de jeux.
hacking304 Sites de piratage et d'agressions informatiques.
jobsearch421 Site pour trouver un emploi
lingerie136 Sites de lingerie
liste_bu2904 Une liste très "univ-tlse1.fr" de sites éducatifs pour notre bibliothèque.
malware115890 Tout site qui injecte des malwares
manga838 Tout ce qui est lié à l'univers des mangas et de la bande dessinée
marketingware47 Sites de marketing très spéciaux
mixed_adult157 Sites qui contiennent des portions adultes non structurés
mobile-phone51 Sites pour les mobiles (sonneries, etc.).
phishing114263 Sites de phishing, de pièges bancaires, ou autres. Copie de la catégorie malware.
press4574 Tout site de presse d'information
publicite4108 Publicité.
radio540 Sites de radio sur Internet
reaffected8 Sites qui ont changé de propriétaire et donc de contenu
redirector131610 Quelques sites qui permettent de contourner les filtres.
remote-control65 Site permettant la prise de contrôle à distance
residential_proxiesSite diffusant residential_proxies
sect145 Secte
sexual_education20 Sites qui parlent d éducation sexuelle et qui peuvent être détectés comme pornographiques
shopping36860 Sites de vente et achat en ligne
shortener449 Raccoursisseur d'URL
social_networks704 Tous les sites de réseaux sociaux
sports2332 Sports
stalkerware23 Site diffusant des outils d'espionnage pour les particuliers
strict_redirector131338 Comme redirector, mais avec les moteurs de recherche classiques.
strong_redirector131338 Comme strict_redirector, mais, pour google et autres, on ne bloque que certains termes.
translation179 Sites de traduction
tricheur73 Sites qui expliquent comme tricher aux examens.
tricheur_pix85 Sites bloqués lors des examens PIX en FRANCE uniquement.
update33 Sites d'update pour les OS ou les logiciels
vpn5672 Site de VPN
warez1506 Sites distribuant, entre autres, des logiciels ou vidéos pirates.
webmail413 Webmail que l'on trouve sur internet (hotmail, webmail.univ-tlse1.fr, etc.)
Ces listes ont certainement quelques incohérences. Si vous en trouvez signalez le moi fabrice.prigent@ut-capitole.fr ou bien utilisez l'interface suivante. https://dsi.ut-capitole.fr/cgi-bin/squidguard_modify.cgi.

La constitution des bases

La constitution des bases est faite par le biais de 2 moyens :
  • La contribution de personnes (voir ci dessous), qui envoient régulièrement des modifications
  • Un robot qui explore Internet à la recherche de pages pornographiques. Il utilise pour cela diverses méthodes
    • Exploration de pages référencées,
    • Utilisation d'index déjà connus,
    • Utilisation des moteurs de recherche,
    • etc.
      Les bases sont mises à jour 2 à 3 fois par semaine, dépendant essentiellement de mes disponibilités.

Les contributeurs

Cette base n'existe que par le travail de bénévoles, dont plusieurs étrangers. Ceci confère à la base une utilité internationale.
  • Alban Caporossi
  • Alexandre Chevrier CSVT (pour sa contribution dans les jeux)
  • L'Association www.app3l.org
  • Barbagelata Pierre (MATICE -rectorat de Nice)
  • Benjamin E. Nichols http://www.squidblacklist.org
  • Benjamin Bellec
  • Cedric Foll (Qui désormais a de bien plus grandes responsabilités au ministère)
  • Charles COLLET
  • Christian ORNAGHI
  • Christophe Laverdure des "Apprentis d'Auteuil" pour un énorme travail sur presque toute les catégories
  • David Garroux du CARIP de l'académie de Lyon
  • Deckert Florian
  • Dilain Laurent
  • Eric Jansen (les sites de hosting)
  • Federico Ballarini (multiple category with italian sites)
  • Francesco Mascaro
  • Gotzon Astondoa, auteur du logiciel de contrôle parental http://www.wesify.com.
  • Hervé Bienvenu
  • Hans Musil (beaucoup d'ajouts en allemand)
  • Henrique Araujo (beaucoup d'ajouts en espagnol et internationaux)
  • IAE pconline
  • Jago27
  • Josef Skarba
  • Jean François Bellanger (Maison des Sciences de l'Homme) pour tout ce qui concerne les sites de phishing
  • Kris Carlier
  • Laura Cosarca
  • Marc Kool (15% de la base vient de lui)
  • Marcos Manoni (en majorité des sites en langue espagnole)
  • Mark Bizzell
  • Maxime Brunier(NITD)
  • Michel Roiron
  • Nicolas DELAMARRE NSI-ADMR (Société dédiée aux systèmes d'information ADMR)
  • Philippe Ferreira
  • Pierre Bardou
  • Nathanaël Bonin du MiPih
  • Rick Matthews
  • Rogério Pinheiro da Silva
  • Sean Riley
  • Sylvain Vincent
  • Sylvain Poidras
  • Symon Aked
  • Stéphanie Chevtchenko
  • Société SOFIA Informatique
  • Todd Sieland-Peterson
  • Centre des Systèmes et Réseaux(Université Hassiba Benbouali CHLEF (Algeria))
  • Yann Cézard (CRI - Université de Pau et des Pays de l'Adour) (pour la catégorie games)
  • Yann Guillemot
  • et les nombreux autres anonymes

Les bases malware et marketingware

Ces bases sont alimentées par le travail effectué par :

D'autres bases

D'autres personnes maintiennent des bases de données disponibles, mais elles disparaissent au fur et à mesure...

Télécharger la base

Plusieurs moyens sont disponibles :

Autres informations