Notre contribution à la communauté de la sécurité de l'information et des systèmes d'information

Dr Jekyll : Le Big Data au service de la cybersécurité

Dans le domaine très spécifique de la cybersurveillance, tous les grands éditeurs ont désormais investi le marché du Big Data. Les SIEM[1] de 2nde génération permettant la gestion des évènements et des incidents de sécurité viennent renforcer la capacité de détection de la cyber-menace. Ils se distinguent de la 1ère génération notamment par l’usage de base de données orientées Big Data. Couplée à des mécanismes de « machine learning », premier pas vers l’intelligence artificielle, les capacités de corrélation d’évènements sont ainsi décuplées de plusieurs ordres de grandeur par rapport à une solution SQL classique. En effet, l’analyse prédictive est un véritable enjeu de société, la NSA, organe américain de sécurité, construit ainsi le « Utah Data Center ». Il a pour but de stocker jusqu’à 1 yottaoctet[2] d’informations.

En 2015, l’ENISA[3] remontait que le SIEM était le domaine le plus prometteur pour le Big Data (70 %), loin devant l’approche commerciale des usages des internautes (48 %). Ainsi, le CERN[4] utilise le Big Data pour améliorer la maintenance de son système d’accélérateur à particule LCH[5].

En charge de la gestion opérationnelle de la cybersurveillance, les SOC (Security Operations Center) ont un rôle central et primordial dans la cyberdéfense des organisations. Les SOC dits « 2.0 » ont ainsi vu leurs outils évoluer, et profitent de la technologie Big Data pour être plus efficace dans la détection et l’archivage à long terme d’évènements de sécurité, permettant une recherche dans le passé. Ils pilotent la sécurité des infrastructures du SI en prenant en compte l’ensemble des informations et non plus les événements détachés de leur contexte. La puissance de ce nouveau modèle permet outre la détection rapide d’incidents, de les anticiper et d’identifier les sources de menaces avant que l’attaque sur le système d’information supervisé n’aboutisse, et ce grâce à un apprentissage des comportements.

 

Le Big Data change le métier de la cybersurveillance et contribue à anticiper les risques de cyber-attaque ou de fraude informatique, en identifiant les menaces plus rapidement et de manière proactive, et en permettant d’automatiser la réponse à incident.

Pour autant, ces innovations exigent en amont un travail de sélection et d’intégration des données pour que la cybersécurité profite de cette vision enrichie et puisse produire une analyse et des résultats compréhensibles et exploitables pour les décideurs.

 

Mr Hyde : Le Big Data et son data Lake d’incertitudes

Assez paradoxalement, le formidable apporteur de nouvelles perspectives, y compris en matière de cyberdéfense, que constitue le Big Data est néanmoins contrebalancé par sa part d’ombre en matière de cybersécurité. En effet, sa relative complexité et sa « jeunesse » fait que le bag data draine potentiellement avec lui un risque majeur portant sur la protection des données stockées.

La concentration des données en un lieu aiguise les convoitises des cyber attaquants. C’est le Graal pour qui accède à cette source d’information regroupant des données d’authentification, des informations bancaires, des données sensibles et à forte valeur marchande sur le Darknet.

Les infrastructures de données comme Hadoop[6] se démocratisent mais la sécurité de ces solutions fait défaut. Le risque de vulnérabilité majeure pour le Big Data est de plus en plus redouté par les spécialistes. D’après le rapport de l’ENISA[7], les distributions leader (Hadoop, Cassandra, MongoDB63, Couchbase) utilisent encore trop rarement des protocoles de communication sécurisés (par exemple, basé sur SSL). Pourtant ces protocoles garantissent la confidentialité et l’intégrité des données.

Pourtant, un projet Big Data n’est pas différent d’un autre projet informatique, et il doit être pris sous l’angle de la sécurité dès sa conception, avec l’analyse de risques « by design ». Malheureusement, les premiers projets ont voulu faire vite et se sont affranchis des règles de sécurité, coûteuses en temps et en budget. Ils en ont payé le prix (ransomware[8], fuite de données) et ont fait les gros titres[9] de journaux non spécialisés suite aux attaques et aux préjudices subis[10].

La législation va inciter à une meilleure prise en compte de la sécurité, notamment avec le RGPD[11]. Mais pour le monde des affaires, il est important de prévenir le risque en faisant le choix de la solution technologique répondant à ses besoins de sécurité.

L’ENISA recommande ainsi aux organisations souhaitant déployer un système Big Data de renforcer l’analyse et le pilotage des risques, mais également d’étudier avec soin les contrats souscrits avec l’éditeur et/ou l’intégrateur.

L’enjeu pour les entreprises s’appuyant sur une solution Big Data est de disposer d’une architecture robuste en guise de socle technique sécurisé, et ce, afin par exemple de minimiser les risques d’intrusion ou encore d’exfiltration de données sensibles.

L’agrégation des données dans les solutions Big Data apporte un risque supplémentaire, notamment dans la combinaison des données de sensibilités distinctes. Des données sensibles, faute de règles strictes liées au contrôle d’accès type ACL (Access Control List), pourraient se retrouver exposées en tant que donnée résultante de l’agrégat.

La classification des informations et leur caractérisation au sein du système est un exercice préalable à tout projet Big Data, notamment si celui-ci inclus des données à caractère personnel. La gouvernance de la donnée passe par l’identification de la valeur de la donnée. À ce titre, des solutions de type IAG (Identity and Access Governance) commence à préempter les mécanismes d’IAM (Identity and Access Management).

 

Conclusion

Le Big Data fait le grand écart entre opportunité et menace en matière de cybersécurité et protection des données.

Si le Big Data offre des opportunités en innovations formidables, notamment dans le secteur de la détection de cyber-menaces ou de la santé, sa mise en œuvre n’est pour autant pas dénuée de risques à ce jour.

Après les affaires retentissantes de vols de données et de prise en otage des informations en ligne, les projets Big Data grandissent en maturité dans la gestion de la donnée. Pour se démarquer de la concurrence, le « time-to-market » devrait raisonnablement faire place à la confiance numérique, s’appuyant sur la notion de sécurité nativement embarquée.

[1] SIEM : security information and event management : gestion des évènements du système d’information

[2] 1 Yo (yottaoctet) = 1000 Zo (zettaoctets) = 1024 octets. En 2020, le volume de données stocké est estimé à 40 Zo

[3] https://www.enisa.europa.eu/publications/big-data-security

[4] http://www.lebigdata.fr/cern-oracle-lhc-1309

[5] http://openlab.cern/sites/openlab.web.cern.ch/files/presentations/CERN-Big%20Data%20Analytics%20and%20the%20LHC.pdf

[6] http://blog.conix.fr/tour-dhorizon-des-technologies-du-big-data/

[7] https://www.enisa.europa.eu/publications/bigdata-threat-landscape/at_download/fullReport

[8] http://www.zdnet.fr/actualites/le-ransomware-s-invite-dans-les-bases-de-donnees-mongodb-39846616.htm

[9] http://www.leparisien.fr/high-tech/fuite-de-donnees-privees-d-internautes-apres-un-bug-chez-cloudflare-24-02-2017-6709674.php

[10] http://www.lemondeinformatique.fr/actualites/lire-apres-mongodb-les-ransomwares-ciblent-les-clusters-elasticsearch-67075.html

[11] https://www.cnil.fr/fr/reglement-europeen-sur-la-protection-des-donnees-ce-qui-change-pour-les-professionnels

 

Retrouvez un autre article qui vous propose de faire un tour d’horizon des technologies du Big Data

By | 2017-03-03T15:28:40+00:00 03/03/2017|Conix Security|