Cos’è l’incident management e come implementarlo
Secondo lo studio di IBM “Cost of a Data Breach Report 2022”, le organizzazioni impiegano in media 243 giorni per identificare un attacco dannoso o criminale e 77 giorni per contenerlo e ripristinarlo.
Una ricerca del Ponemon Institute afferma che il 77% delle imprese non dispone di un piano di crisis management coerente con la propria organizzazione, ossia ha stilato le procedure da seguire in caso di problema ma senza averle adattate alle proprie esigenze e peculiarità.
In parole povere: non potrà applicare in modo coerente un piano di gestione degli incidenti.
Ma facciamo un passo indietro.
Secondo ITIL, la IT Infrastructure Library, “il processo di gestione degli incidenti assicura che il normale funzionamento del servizio venga ripristinato il più rapidamente possibile e che l’impatto sul business sia ridotto al minimo”.
Gli incidenti sono eventi di qualsiasi tipo che interrompono o riducono la qualità del servizio (o minacciano di farlo). Un’applicazione aziendale che non funziona è un incidente.
Anche un server web che esegue la scansione lentamente può essere un incidente. Funziona male e interferisce con la produttività. Peggio ancora, pone il rischio ancora maggiore di un completo blocco.
La gestione degli incidenti (o incident management) è fondamentale per le organizzazioni che vogliono fronteggiare le sfide del mercato, man mano che queste si presentano, diventando più mature e meno volubili a ciò che succede dentro e fuori l’impresa.
Cos’è un incidente di sicurezza e cos’è la gestione degli incidenti?
Un incidente di sicurezza è una violazione confermata della sicurezza che comporta la distruzione accidentale o illecita, la perdita, l’alterazione, la divulgazione non autorizzata o l’accesso ai dati del cliente o ai dati personali.
Una violazione della sicurezza può portare all’interruzione o alla perdita di operazioni, servizi o funzioni di un’organizzazione.
Definita come accesso non autorizzato a dati, applicazioni, reti o dispositivi informatici, è chiaro che una problematica del genere è ciò che ogni impresa vuole evitare di avere.
Come riuscirci?
Monitorando sempre i propri sistemi così da identificare, analizzare e correggere i pericoli in tempo reale: ossia gestire l’incidente.
Se l’azienda si limita a rispondere alle minacce non appena si presentano, non solo rischia la perdita di dati e il rallentamento delle operazioni, ma manca anche di una caratteristica fondamentale oggi: la proattività.
In tal senso, l’incident management riduce al minimo l’impatto di un incidente anche perché, quando sono in atto adeguate misure di gestione, i danni possono essere contenuti e il rischio ridotto.
La gestione aiuta anche le organizzazioni a identificare rapidamente gli attacchi e previene il ripetersi di un incidente simile.
Gli obiettivi dell’incident management
L’obiettivo principale della gestione degli incidenti è risolvere il problema in maniera rapida, per ripristinare il servizio IT.
Si parte con il categorizzare l’evento, in base a hardware, software, ecc., quindi l’incidente viene assegnato al team appropriato o a una persona che possa intraprendere un’azione di risposta.
Ci sono però alcune metriche standard che devono essere misurate a tal proposito e monitorate in tutti gli incidenti e da tutte le organizzazioni.
Time To Detect (TTD)
Il tempo di rilevamento è quello necessario per rilevare l’interruzione manualmente o tramite avvisi automatici dall’ora di inizio. I team possono adottare una copertura degli avvisi più completa con segnali aggiornati per rilevare le interruzioni rapidamente.
Time To Mitigate (TTM)
Time To Mitigate è il tempo impiegato per mitigare l’impatto dell’utente dall’inizio dell’incidente.
Le fasi di mitigazione sono soluzioni temporanee fino a quando non viene risolta la causa principale del problema. La ricerca di un TTM migliore aiuta ad aumentare la disponibilità del servizio.
Molte aziende si affidano a sistemi residenti in più paesi in modalità attivo-attivo e al reindirizzamento del traffico verso regioni molto differenti, per mitigare gli incidenti più rapidamente. Allo stesso modo, la ridondanza a livello di servizio o di nodo aiuta a mitigare più velocemente in alcune situazioni.
Tempo di risoluzione (TTR)
Il tempo per la risoluzione è il tempo impiegato per risolvere completamente l’incidente dall’inizio dell’evento.
Il Time To Resolution aiuta a comprendere meglio la capacità dell’organizzazione di rilevare e correggere le cause alla radice. Poiché la risoluzione dei problemi costituisce una parte significativa del ciclo di vita della risoluzione, i team possono adottare sofisticati strumenti di osservabilità per aiutare gli ingegneri a scoprire più rapidamente le cause alla radice.
I metadati
I metadati sono una parte essenziale nell’analisi di un incidente. Queste informazioni includono il numero di incidenti, la causa principale, i servizi interessati e il metodo di rilevamento che aiuta l’organizzazione a identificare il TBF (Time Between Failures), con l’obiettivo di aumentare il tempo medio tra i guasti.
L’analisi di questi metadati aiuta a identificare i punti caldi nell’aspetto operativo dell’organizzazione.
Disponibilità dei servizi
La disponibilità del servizio è la percentuale di disponibilità di tale servizio in un periodo di tempo. La metrica della disponibilità viene utilizzata come misura quantitativa della resilienza.
Gli 8 step del processo di incident management
Il processo di gestione degli incidenti può essere riassunto come segue:
- Registrazione degli incidenti.
- Categorizzazione degli incidenti.
- Prioritizzazione degli incidenti.
- Assegnazione dell’incidente.
- Creazione e gestione delle attività.
- Gestione ed escalation degli SLA.
- Risoluzione dell’incidente.
- Chiusura dell’incidente.
1. Registrazione degli incidenti
Un incidente può essere registrato tramite telefonate, e-mail, SMS, moduli web o tramite messaggi di chat dal vivo.
2. Categorizzazione degli incidenti
Gli incidenti possono essere classificati e sotto categorizzati in base all’area dell’IT o dell’azienda in cui l’incidente causa un’interruzione in rete, hardware, ecc.
3. Priorità degli incidenti
La priorità di un incidente può essere determinata in funzione del suo impatto e dell’urgenza utilizzando una matrice di priorità. L’impatto di un incidente indica il grado di danno che il problema causerà all’utente o all’azienda.
L’urgenza di un incidente indica il tempo entro il quale l’incidente dovrebbe essere risolto. In base alla priorità, gli incidenti possono essere classificati come critici, alti, medi, bassi.
4. Instradamento e assegnazione degli incidenti
Una volta che l’incidente è stato classificato in base alla priorità, viene automaticamente indirizzato a un tecnico con le competenze pertinenti.
5. Creazione e gestione delle attività
In base alla complessità dell’incidente, può essere suddiviso in sotto attività o compiti. Le attività vengono in genere create quando la risoluzione di un incidente richiede il contributo di più tecnici di vari reparti.
6. Gestione ed escalation degli SLA
Durante l’elaborazione dell’incidente, il tecnico deve assicurarsi che lo SLA non venga violato. Uno SLA è il tempo accettabile entro il quale un incidente necessita di risposta (SLA di risposta) o risoluzione (SLA di risoluzione).
Gli SLA possono essere assegnati agli incidenti in base ai loro parametri come categoria, richiedente, impatto, urgenza ecc.
Nei casi in cui uno SLA sta per essere violato o è già stato violato, l’incidente può essere intensificato funzionalmente o gerarchicamente per garantire che venga risolto al più presto.
7. Risoluzione dell’incidente
Un incidente è considerato risolto quando il tecnico ha escogitato una soluzione temporanea o una soluzione permanente per il problema.
8. Chiusura dell’incidente
Un incidente può essere chiuso una volta che il problema è stato risolto e l’utente riconosce la risoluzione e ne è soddisfatto.
Revisione post-incidente
Dopo che un incidente è stato chiuso, è buona norma documentare tutti i punti salienti dell’evento. Questo aiuta a preparare meglio i team per incidenti futuri e crea un processo di gestione più efficiente. Il processo di revisione post-incidente può essere suddiviso in vari aspetti ed è particolarmente utile per gli incidenti gravi.
Valutazione esterna
Oltre ai fattori di cui sopra, dovrebbero essere valutati anche alcuni fattori che riguardano l’utente finale. A tal fine, è utile condurre un sondaggio post-chiusura per raccogliere feedback dagli utenti interessati.
Il report dovrebbe essere poi utilizzato per ottenere informazioni in alcune aree chiave, così da migliorare gestione e servizio.
I vantaggi dell’incident management per le aziende
Al centro di una corretta gestione dell’incidente, deve esservi una piattaforma capace di prevenire, indagare e risolvere le problematiche.
Ciò di cui c’è bisogno è un approccio integrato alla gestione di questi eventi, anche tramite l’analisi dei dati e funzionalità di automazione.
Un software di gestione degli incidenti può essere utilizzato per creare un piano di continuità aziendale e una strategia di ripristino di emergenza.
I vantaggi sono molti: dall’aiutare l’organizzazione a evitare costosi tempi di inattività, sfruttando un modo più semplice per gestire gli incidenti, al fornire un flusso continuo di monitoraggio e tracciamento delle informazioni importanti per un’azienda, ma anche l’attuazione di una gestione più larga delle criticità, che porti anche ad adottare un piano di ripristino di emergenza in caso di disastro.
La questione GDPR
Mettere a punto un piano di incident response è fondamentale non solo per limitare i danni e preservare il business ma anche per rispettare le disposizioni di legge in materia di sicurezza informatica, dettate in primis dal GDPR (General Data Protection Regulation).
Nell’ambito della gestione della privacy dei dati, quando menzioniamo le violazioni, implicitamente pensiamo a quelle dei dati personali, che sono definite dal GDPR come:
“Violazioni della sicurezza che comportano accidentalmente o illecitamente la distruzione, la perdita, l’alterazione, la divulgazione non autorizzata o l’accesso ai dati personali trasmessi, archiviati o altrimenti elaborati”.
Gli articoli 33 e 34 del GDPR prevedono rispettivamente la notifica delle violazioni dei dati personali all’autorità di controllo e agli interessati diretti.
Pertanto, i titolari del trattamento dei dati sono tenuti a comunicare all’autorità di controllo tutti i dettagli rilevanti su una violazione senza indebito ritardo e non oltre 72 ore da che ne sono venuti a conoscenza.
Eventuali proroghe devono essere ulteriormente giustificate.
I dettagli che devono essere comunicati all’autorità di controllo includono, a titolo esemplificativo ma non esaustivo, le categorie e un numero approssimativo di interessati dalla violazione, nonché le categorie e un numero approssimativo di record di dati personali che sono stati compromessi.
Inoltre, i titolari del trattamento dei dati devono conservare le registrazioni di tutte le violazioni, di tutti i fatti correlati alle violazioni, delle loro conseguenze e di tutte le azioni intraprese per porvi rimedio.
Tali registrazioni saranno quindi esaminate dall’autorità di controllo al fine di verificarne la conformità.
Detto ciò, è evidente che avere un piano di gestione dell’incidente informatico aiuti anche a rispondere, repentinamente alle richieste delle autorità in materia di dati sensibili.
Nonostante il GDPR non prescriva espressamente di adottare procedure di incident management o implementare un programma di incident response, è evidente che per garantire la conformità all’articolo 33 del regolamento, un’organizzazione non possa farne a meno.
Come implementare l’incident management in azienda
Come anticipato, il punto di partenza, a livello tecnologico, è il software di gestione degli incidenti (IMS).
Una piattaforma del genere può essere utilizzata in qualsiasi settore e organizzazione, per vari scopi.
Alcuni permettono di raccogliere, archiviare e analizzare i dati degli incidenti, di organizzare i dati in modo che sia facile per diversi team trovare le informazioni di cui hanno bisogno e fornire una panoramica di tutti gli incidenti che sono stati segnalati, incluso il loro stato, gravità e priorità.
Ma non solo: un IMS consente di tenere traccia dell’andamento degli incidenti nel tempo, per sapere cosa è stato fatto e cosa no, in passato.
Come funziona?
Il software aiuta a identificare, stabilire le priorità e mitigare i rischi nell’ambiente IT di un’organizzazione; un sistema di applicazioni e tecnologie per prevenire, indagare e risolvere gli incidenti.
Il processo di gestione degli incidenti può sembrare formale, in particolare per le realtà più piccole.
Indipendentemente dalla struttura del team, tuttavia, il ciclo di vita dell’incidente è sempre lo stesso e spesso dipende dal verificarsi di escalation.
Gli incidenti accadono. Ma un solido processo di gestione può ridurne l’impatto e supportare nel ripristino dei servizi.
Ultimi post
- Intranet aziendale
- Sprint Execution
- Network Access Control
- Container as a Service
- Red team e Blue team
Categorie
Tag