Contexte

L'Université Toulouse Capitole diffuse depuis quelques années une liste noire d'URLs, gérée par Fabrice Prigent afin de permettre un meilleur contrôle de l'utilisation d'Internet. Cette base, largement utilisée par les écoles, peut s'intégrer dans un grand nombre d'outils libres ou commerciaux, en complément d'autres listes.
Avec le temps le nombre de catégories a fortement augmenté, et leur rôle a changé. La liste que nous fournissons doit être vue comme une catégorisation des sites, plus que comme une liste à bloquer. Par exemple
  • child est une catégorie dite liste blanche pour les enfants en bas âge
  • liste_bu est une catégorie à ouvrir pour les universités
  • press peut être vue comme à interdire (au travail par exemple) ou à autoriser (CIO, Bibliothèque).
N'oubliez pas que vous pouvez (devez ?) utiliser une catégorie "locale" qui permettrait d'adapter le comportement de votre filtrage. Ainsi les blogs peuvent être interdits de manière générale, mais certains doivent être autorisés pour des raisons pédagogiques.

La licence d'utilisation

Contrat Creative Commons
Cette création est mise à disposition sous un contrat Creative Commons.

Description

Plusieurs catégories sont définies, mais c'est surtout le pornographique qui est activement maintenu.
Pour ceux qui veulent une base de "travail". Je ne mets à jour régulièrement que la base adult qui nous est la plus utile. Si certains d'entre vous décidaient de compléter les autres bases, je me ferais un plaisir de les intégrer dans la mise à jour.
J'ajoute à l'heure actuelle entre 50 et 300 urls par jour (il faut faire des vérifications sur certaines urls) : je ne peux absorber que lentement les ajouts que fait mon robot d'exploration. Veuillez m'en excuser.
Il existe un fichier regroupant toutes les catégories : blacklists.tar.gz C'est la compilation des bases qui sont décrites ci-dessous :
CatégorieNombreDescription
adult4532743 Des sites adultes allant de l'érotique à la pornographie dure.
agressif393 Quelques sites racistes, antisémites, incitant à la haine.
arjel69 Sites de pari en ligne certifiés par l ARJEL
associations_religieuses1 Sites d'associations religieuses
astrology29 Astrologie
audio-video3839 Quelques sites orientés vers l'audio et la vidéo.
bank1868 Banque en ligne
bitcoin335 Sites de bitcoin
blog1485 Quelques sites hébergeant des blogs.
celebrity674 Tout ce qui concerne l actualité dite people
chat262 Site de dialogue et conversation en ligne.
child74 Tout ce qui est autorisé pour des enfants
cleaning177 Sites pour désinfecter et mettre à jour des ordinateurs.
cooking28 Sites de cuisine
cryptojacking16290 Site de mining en hijacking
dangerous_material50 Sites décrivant des moyens de créer du matériel dangereux (explosif, poison, etc.).
dating3842 Sites de rencontres
ddos421 Sites de déni de services
dialer4 Sites de dialer
doh3013 Serveurs DNS over HTTP ou équivalent
download4032 Sites qui permettent de télécharger des logiciels
drogue1066 Drogue.
educational_games11 Sites de jeux éducatifs
examen_pix347 Une liste uniquement réservée aux élèves français passant l examen PIX. NE PAS UTILISER dans d autres circonstances
filehosting935 Sites qui hébergent des contenus (vidéos, images, sons)
financial104 Informations financières, bourses.
forums209 Forums.
gambling1457 Sites de jeux en ligne, casino, etc.
games11793 Sites de jeux, en ligne, ou de distributions de jeux.
hacking304 Sites de piratage et d'agressions informatiques.
jobsearch420 Site pour trouver un emploi
lingerie91 Sites de lingerie
liste_bu2904 Une liste très "univ-tlse1.fr" de sites éducatifs pour notre bibliothèque.
malware55994 Tout site qui injecte des malwares
manga834 Tout ce qui est lié à l'univers des mangas et de la bande dessinée
marketingware45 Sites de marketing très spéciaux
mixed_adult154 Sites qui contiennent des portions adultes non structurés
mobile-phone51 Sites pour les mobiles (sonneries, etc.).
phishing55796 Sites de phishing, de pièges bancaires, ou autres. Copie de la catégorie malware.
press4558 Tout site de presse d'information
publicite4087 Publicité.
radio540 Sites de radio sur Internet
reaffected8 Sites qui ont changé de propriétaire et donc de contenu
redirector129703 Quelques sites qui permettent de contourner les filtres.
remote-control59 Site permettant la prise de contrôle à distance
sect145 Secte
sexual_education19 Sites qui parlent d éducation sexuelle et qui peuvent être détectés comme pornographiques
shopping36860 Sites de vente et achat en ligne
shortener422 Raccoursisseur d'URL
social_networks702 Tous les sites de réseaux sociaux
sports2332 Sports
stalkerware23 Site diffusant des outils d'espionnage pour les particuliers
strict_redirector129431 Comme redirector, mais avec les moteurs de recherche classiques.
strong_redirector129431 Comme strict_redirector, mais, pour google et autres, on ne bloque que certains termes.
translation179 Sites de traduction
tricheur73 Sites qui expliquent comme tricher aux examens.
tricheur_pix83 Sites bloqués lors des examens PIX en FRANCE uniquement.
update33 Sites d'update pour les OS ou les logiciels
vpn5667 Site de VPN
warez1493 Sites distribuant, entre autres, des logiciels ou vidéos pirates.
webmail411 Webmail que l'on trouve sur internet (hotmail, webmail.univ-tlse1.fr, etc.)
Ces listes ont certainement quelques incohérences. Si vous en trouvez signalez le moi fabrice.prigent@ut-capitole.fr ou bien utilisez l'interface suivante. https://dsi.ut-capitole.fr/cgi-bin/squidguard_modify.cgi.

La constitution des bases

La constitution des bases est faite par le biais de 2 moyens :
  • La contribution de personnes (voir ci dessous), qui envoient régulièrement des modifications
  • Un robot qui explore Internet à la recherche de pages pornographiques. Il utilise pour cela diverses méthodes
    • Exploration de pages référencées,
    • Utilisation d'index déjà connus,
    • Utilisation des moteurs de recherche,
    • etc.
      Les bases sont mises à jour 2 à 3 fois par semaine, dépendant essentiellement de mes disponibilités.

Les contributeurs

Cette base n'existe que par le travail de bénévoles, dont plusieurs étrangers. Ceci confère à la base une utilité internationale.
  • Alban Caporossi
  • Alexandre Chevrier CSVT (pour sa contribution dans les jeux)
  • L'Association www.app3l.org
  • Barbagelata Pierre (MATICE -rectorat de Nice)
  • Benjamin E. Nichols http://www.squidblacklist.org
  • Benjamin Bellec
  • Cedric Foll (Qui désormais a de bien plus grandes responsabilités au ministère)
  • Charles COLLET
  • Christian ORNAGHI
  • Christophe Laverdure des "Apprentis d'Auteuil" pour un énorme travail sur presque toute les catégories
  • David Garroux du CARIP de l'académie de Lyon
  • Deckert Florian
  • Dilain Laurent
  • Eric Jansen (les sites de hosting)
  • Federico Ballarini (multiple category with italian sites)
  • Francesco Mascaro
  • Gotzon Astondoa, auteur du logiciel de contrôle parental http://www.wesify.com.
  • Hervé Bienvenu
  • Hans Musil (beaucoup d'ajouts en allemand)
  • Henrique Araujo (beaucoup d'ajouts en espagnol et internationaux)
  • IAE pconline
  • Jago27
  • Josef Skarba
  • Jean François Bellanger (Maison des Sciences de l'Homme) pour tout ce qui concerne les sites de phishing
  • Kris Carlier
  • Laura Cosarca
  • Marc Kool (15% de la base vient de lui)
  • Marcos Manoni (en majorité des sites en langue espagnole)
  • Mark Bizzell
  • Maxime Brunier(NITD)
  • Michel Roiron
  • Nicolas DELAMARRE NSI-ADMR (Société dédiée aux systèmes d'information ADMR)
  • Philippe Ferreira
  • Pierre Bardou
  • Nathanaël Bonin du MiPih
  • Rick Matthews
  • Rogério Pinheiro da Silva
  • Sean Riley
  • Sylvain Vincent
  • Sylvain Poidras
  • Symon Aked
  • Stéphanie Chevtchenko
  • Société SOFIA Informatique
  • Todd Sieland-Peterson
  • Centre des Systèmes et Réseaux(Université Hassiba Benbouali CHLEF (Algeria))
  • Yann Cézard (CRI - Université de Pau et des Pays de l'Adour) (pour la catégorie games)
  • Yann Guillemot
  • et les nombreux autres anonymes

Les bases malware et marketingware

Ces bases sont alimentées par le travail effectué par :

D'autres bases

D'autres personnes maintiennent des bases de données disponibles, mais elles disparaissent au fur et à mesure...

Télécharger la base

Plusieurs moyens sont disponibles :

Autres informations