Dean Gonsowsk (*)
Dez anos atrás não havia dados demais. As noções sobre os dados serem o “novo petróleo” levaram as empresas a agruparem cada byte que pudessem, na esperança de poder aproveitá-los no futuro. Combinada com a ideia de que “o armazenamento é barato”, essa crença levou muitas organizações a aumentarem exponencialmente seus riscos, em vez de suas oportunidades reais para o negócio. Os novos regulamentos de privacidade de dados, como a LGPD e GDPR, impõem às organizações uma grande carga de cuidado com relação aos processos de coleta de dados.
Na verdade, a minimização de dados é um dos princípios das novas regras e as empresas agora devem limitar o volume de dados pessoais que coletam e devem descartá-los assim que não sejam mais necessários para uma finalidade comercial legítima. Novas obrigações regulatórias exigem que as organizações não apenas controlem as práticas de coleta de dados, mas também reduzam a quantidade dos dados já mantidos em sua base.
Promovendo esse imperativo, a retenção excessiva de registros ou outras informações pode resultar em multas pesadas no caso de violação de dados. Como resultado, as organizações estão se afastando da prática de coletar todos os dados possíveis em direção a um modelo de “se você não pode protegê-los, não os colete”. O foco agora é mitigar o risco, adotando uma estratégia de minimização de dados.
- Dados ROTT: redundante, obsoleto, trivial e transitório – Como os regulamentos não especificam precisamente quais dados devem ser apagados, pode ser difícil determinar por onde começar com a minimização de dados. Para a maioria das organizações, mapear seu patrimônio de dados é a maneira mais pragmática de começar.
Os especialistas em governança de dados frequentemente usam o acrônimo ROT (redundante, obsoleto, trivial) para descrever dados que não fornecem valor comercial para uma organização. Alguns especialistas expandem a sigla para ROTT, adicionando a palavra “transitória” como outra área de vulnerabilidade ou duplicação de dados.
Usando o acrônimo ROTT como guia, a busca por dados que podem ser facilmente descartados deve ser organizada ao longo das seguintes linhas:
. Redundante: as pessoas tendem a subestimar grosseiramente quanto de seus dados são redundantes, aqueles duplicados em vários locais, seja em um único sistema ou em vários sistemas. A qualquer momento, até 30% do armazenamento de uma organização pode ser de dados duplicados. Essa é uma grande quantidade de informações que podem ser removidas e tornam a busca por informações mais fácil.
. Obsoleto: o valor da informação diminui vertiginosamente com o tempo, ao passo que seu risco aumenta. As informações podem se tornar obsoletas se estiverem incompletas, desatualizadas ou incorretas. O uso de informações obsoletas pode levar a uma tomada de decisão errada ou insatisfatória, representando ainda mais riscos para os negócios. Uma maneira fácil de avaliar rapidamente a obsolescência é verificar a data de criação ou do último acesso.
. Trivial: uma quantidade surpreendentemente grande de informações que circulam pelos sistemas de uma organização não tem uma finalidade comercial legítima. Os documentos detalhando quem está trazendo o quê para a festa da firma e conversas sobre agenda de reuniões não fornecem valor e devem ser excluídos assim que possível.
. Transitório: Dados transitórios não são exatamente dados duplicados, mas geralmente incluem dados protegidos em outro lugar. Às vezes, esse tipo de dado cai em mãos erradas, revelando informações confidenciais que foram posteriormente mal utilizadas. Os dados em movimento devem ter uma classificação própria para minimização de dados e precisam ser eliminados quando necessário para minimizar o risco que representa, permanecendo acessível e sem governo.
- Usando o mapeamento para melhorar a higienização dos dados – Poucas organizações possuem conhecimento e entendimento sobre a totalidade de seus dados e menos ainda um único responsável pela proteção de dados ou governança. Em vez disso, há um amplo grupo no C-Suite supervisionando a coleta e uso de dados em seus domínios isoladamente.
O CISO é obcecado por vazamentos, hackers e ataques de phishing. O CIO se concentra em garantir que a empresa possa monetizar seus dados. O CTO analisa os dados pelas lentes do armazenamento. E a equipe jurídica – alguns dos maiores defensores da minimização de dados – vê os dados como uma ameaça legal e regulatória.
Embora apenas um destes “atores” seja geralmente o custodiante designado para a governança da informação, cada executivo também tem uma perspectiva diferente sobre higienização de dados. Como cada um defende naturalmente as necessidades de sua própria área, a única coisa que reunirá esses interesses amplamente diferentes é a compreensão de todos sobre os dados que a organização possui e os riscos que podem representar no caso de manuseio ou guarda equivocada.
O mapeamento é, portanto, a chave para a minimização dos dados. Para começar, é essencial localizar todos os dados que uma organização retém e expor as áreas ocultas de “dados obscuros”. O Gartner define isso como “ativos que as organizações coletam, processam e armazenam durante as atividades comerciais regulares, mas geralmente deixam de usar para outros fins”, tais como análises, relações comerciais e monetização direta.
Esta é a única maneira de medir a profundidade da exposição de uma organização, avaliar a localização e a magnitude dos dados, identificando o que precisa ser corrigido e o que já deveria ter sido apagado. Para fazer isso, uma empresa pode usar uma variedade de tecnologias para:
- Obtenha um inventário de repositório cruzado de todo o conteúdo para identificar os dados reais de valor em seu negócio;
- Adicione regras predefinidas para lidar com uma ampla variedade de conteúdo de lixo eletrônico, obsoleto, desatualizado e transitório (ROTT);
- Adapte regras para torná-las acionáveis em seu ambiente;
- Teste as políticas de minimização em grandes volumes de arquivos para entender seu impacto.
Antes de mais nada, é necessário lançar luz sobre todos os repositórios de dados em potencial. Por exemplo, mesmo que um departamento tenha decidido usar uma solução de armazenamento de dados específica como o Dropbox, há uma boa chance de que departamentos diferentes estejam usando outros, como o SharePoint ou o Box. Todos devem ser examinados.
Depois que o mapeamento de dados estiver concluído, as organizações devem digerir e processar a extensão do caos de seus dados. Internamente, isso inclui discussões sobre orçamento, responsabilidades, autoridade, tempo, pessoas e processos. As organizações precisam entender os vários motivadores de negócios, partes interessadas e áreas de risco na privacidade de dados, como auditorias, litígios, regulamentos LGPD e GDPR, e migrações de dados para a nuvem.
Com essa etapa concluída, as organizações podem decidir o que corrigir e que tipo de ferramentas ou suporte precisarão para remediar os problemas. O que quer que seja o que empresa necessite fazer, lembre-se de que isso não pode ser feito da noite para o dia. Ninguém quer ficar atolado em uma iniciativa de vários anos e milhões de dólares. Após o senso inicial de urgência, os esforços podem, às vezes, paralisados, como resultado de pensar grande demais.
Em vez disso, divida um projeto em pedaços modulares do tamanho de uma “mordida”. Ao longo da jornada, comece a construir conceitos de minimização durante as fases iniciais de um programa de acumulação de dados. Adquira dados progressivamente e apenas os obtenha quando for realmente necessário. Quanto menos informações coletadas, menos terá para armazenar e gerenciar.
Essa é a maneira de obter uma boa higiene de dados e um caminho para a minimização contínua de dados.
(*) – É Diretor de Revenue da ActiveNav, tendo atuado como advogado para grandes empresas de software (https://activenav.com/).