Thèse de doctorat, Soutenue le 10/12/2022 par Fatimetou Abdou Vadhil sous la direction de Mohamedade Farouk Nanne
Mots clés :
IDS, Machine Learning, Deep Learning, SIEM, Big Data, Web Attacks.
Formation doctorale :
Formation doctorale en Mathématique-Informatique, Ecole doctorale des Sciences et Technologies, Université de Nouakchott
Résumé
À mesure que l’accès au réseau interne d’une entreprise pour l’échange d’informations sensibles augmente, de nouvelles méthodes sont créées pour que les attaquants puissent exploiter les systèmes de réseau et leurs utilisateurs. C’est la raison pour laquelle, de plus en plus de recherches sont menées sur des moyens efficaces et efficients pour assurer la protection du réseau.
L’une des solutions de sécurité essentielles est l’utilisation d’un Système de Détection d’Intrusions (IDS), un IDS qui détecte les activités malveillantes sur le réseau et informe ensuite le responsable de la sécurité via une alerte. Les méthodes de détection d’intrusion sont classifiées en deux catégories : une détection basée sur les signatures et une détection basée sur les anomalies. La méthode la plus utilisée sur les IDSs commerciaux et open source est la détection basée sur les signatures. Cependant, les IDSs basés sur cette méthode ne peuvent détecter que les attaques précédemment connues, par ce que leur efficacité dépend fortement du contenu de la base de données des signatures utilisée, ils n’ont donc pas la capacité de reconnaître les écarts qui sont en dehors de leur propres bases de données de signatures. Malgré ça, les entreprises
continuent l’utilisation de ces IDSs dans leurs réseaux.
Les IDSs commerciaux partagent ce problème avec de nombreux IDSs open source, tous les deux étant incapables de détecter les attaques qui n’ont pas de références dans leurs propres bases de données. Dans ce cas, la différence est que les IDSs open source offrent la possibilité d’améliorations. L’idéal est donc de trouver une méthode susceptible de surmonter les problèmes liés aux IDSs open source et les rendre plus efficaces. Dans ce travail, nous avons utilisé Snort, c’est un IDS open source basé sur les signatures et très connu pour son efficacité à détecter les attaques connues.
Dans cette thèse, des modèles de Machine Learning et Deep Learning sont étudiés pour construire des modèles de détection d’intrusions basés sur les anomalies. L’objectif est de créer un IDS basé sur les anomalies, susceptible de détecter les attaques non reconnues par Snort. Ensuite, les nouvelles attaques détectées peuvent être utilisées pour extraire de nouvelles signatures dans le but d’alimenter la base de données de Snort. D’autre part, les logs générés par Snort peuvent être centralisé dans la pile ELK (Elasticsearch, Logstash et Kibana) utilisée comme un système de gestion des informations de sécurité et des événements (SIEM) afin de fournir une interface pour la gestion et l’analyse des logs. Ce travail est effectué dans le contexte des attaques web. Ces attaques sont parmi les plus préoccupantes en raison des données sensibles auxquelles elles peuvent accéder.
Dans l’état de l’art, les jeux de données d’attaques Web sont assez rares par rapport aux jeux de données d’autres formes d’attaques. Cette recherche a été réalisée à l’aide du jeu de données CIC-IDS-2017 de Canadian Institute for Cybersecurity, qui est plus représentatif des attaques web que les jeux de données plus anciens généralement utilisés dans la recherche sur la détection d’intrusion.
Les modèles de Machine Learning et Deep Learning sont passés par une procédure d’optimisation proposée en trois étapes : la sélection des variables les plus pertinentes, l’équilibrage de la distribution des classes dans le jeu de données et le réglage des hyper paramètres de chaque modèle. Afin d’évaluer les modèles, sept métriques de performance sont utilisées : Accuracy, Precision, Recall, F1-mesure, Confusion Matix, AUC Roc et temps de calcul (pour l’entraînement et la prédiction). Il est démontré que cette approche fournit de meilleurs résultats que d’autres dans l’état de l’art.