Qualidade de dados e cumprimento do Regulamento Geral de Proteção de Dados

fernandocampos 12 views 52 slides Oct 18, 2025
Slide 1
Slide 1 of 52
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51
Slide 52
52

About This Presentation

Estrutura e metodologia de desenho para a construção de um Safe Center em Educação, cumprindo os principios do Regulamento Geral de Proteção de Dados.


Slide Content

Gestão, Privacidadee Governaçãode Dados
Lisboa, 8 de maio2018
Fernando Rui Campos –EPD-DGEEC
imagem: COMPETE 2020
Nota: Apresentação realizada ao Compete 2020, no âmbito da partilha de boas práticas na Administração Pública

Page.2
Introdução1
Apresentação
Enquadramento
Objetivos
Abordagem
Tecnologia
Qualidade de Dados
Proteção de Dados
Projeto
Visualização/Reporting
1 |
2 |
3 |
4 |
5 |
6|
7|
8 |

Page.3
Introdução1
A Direção-Geral de Estatísticas da Educação e Ciência é um serviço central da
administração direta do Estado, dotado de autonomia administrativa, que tem por
missão garantir a produção e análise estatística da educação e ciência, apoiando
tecnicamente a formulação de políticas e o planeamento estratégico e operacional,
criar e assegurar o bom funcionamento do sistema integrado de informação observar
e avaliar globalmente os resultados obtidos pelos sistemas educativo e científico e
tecnológico, em articulação com os demais serviços, encontrando-se na dependência
do Ministro da Educação e do Ministro da Ciência Tecnologia e Ensino Superior.
A responsabilidade por parte da Direção-Geral de Estatísticas da Educação e Ciência
em garantir a recolha, monitorização, tratamento, produção e divulgação de
informação adequada (designadamente estatística), aliada à volumetria de
informação recolhida de várias fontes (> 1,5 mil milhões registos) e formatos
necessários para assegurar o correto funcionamento do sistema integrado de
informação e gestão da oferta educativa e formativa, representam desafios
constantes.
A estes desafios acresce a necessidade do cumprimento do novo Regulamento Geral
sobre a Proteção de Dados (RGPD) e da Resolução do Conselho de Ministros (RCM)
n.º 41/2018, no que diz respeitos às orientações técnicas.

Page.4
Introdução1
Data Quality& Safe
Centre
Monitorização de
Recolhas de acordo
com RGPD
Visualização &
Exploração
(Visual Analytics
& Statistics)
Gestão Risco &
Compliance
RGPD
(RCM 41/2018)
Proteção de Dados
Roadmapglobal
Ocumprimentodoregulamentoedaproteçãodosdadosacompanhatodooprocesso

Page.5
Introdução1
Data Quality& Safe
Centre
Monitorização de
Recolhas de acordo com
RGPD
Visualização &
Exploração
(Visual Analytics &
Statistics)
Gestão Risco &
ComplianceRGPD
(RCM 41/2018)

Visualização/Reporting8
Pág.7
Trêsvetoresorientadores:
QualidadedosDadosadisponibilizar
deacordocomaspoliticasdeprivacidade
dedadospessoais,tendocomofinalidade
1.cumprimentodoregulamento
geraldeproteçãodedadose
2.disponibilizaçãodosmesmopara
finsestatísticosedeestudos,
nomeadamenteaobtençãodopercursode
ensinoeformaçãodoalunoaolongodos
anos.
Principais Vetores

Visualização/Reporting8
Pág.7
OGDPEFtemcomomissãoarecolha,tratamentoedisponibilizaçãodedadospara
usodaEstatística,InvestigaçãoeCiênciaeTecnologia.
Implementaofluxodedadosdesdeasdiferentesorigensaomodelofinala
disponibilizar,tendoemcontaaspetosdecruzamento,normalizaçãoe
anonimizaçãodosdados.
Bases de Dados

Fonte de Dados

Processos de Qualidade de Dados
Profiling
Validação
Normalização
Integração
Disponibilização …
Proteção
Anonimização
Encriptação
Validação

Exploração

Avaliação de
Risco
Impacto
Privilégios
Controlo de
Acessos
Reporting
GDPEF –Gestão de Dados, Percursos Educativos e Formativos

GDPEF
Abordagem

GDPEF -Abordagem3
Pág.15
Fonte de Dados Processos de Qualidade de Dados
•Validação
•Normalização
•Integração
•Disponibilização
•Anonimização
•Encriptação
Avaliação de Risco
Análise de Impacto
Profiling& Monitorização
Privilégios
Controlo de Acessos

Bases de Dados

Profiling
Validação
NormalizaçãoIntegração
Monitorização
Base de Dados GDPEF Dashboards
ZONA VERMELHA ZONA AMARELA ZONA VERDE
•Base de Dados Consulta
•Formato BD e datasets
•Metainformaçãoe DDI
•Portal de publicação
•Visualização
•Dashboards
Critérios de seleção
de microdados
Profiling& Monitorização
Controlo de Acessos
Critérios de validação e agregação
Técnicas de anonimização
Especificação harmonização de variáveis
Definição de uso de dados pessoais
Definição de metainformação
Critérios de disponibilização
Autorização de acessos a dados
Definição de
metainformaçãode dados
disponíveis
Definição de privilégios
•Ensino Básico e
•Secundário Ensino
Superior
•Formação
•Investigadores
•Outros inquéritos
•IEFP

GDPEF -Abordagem3
Pág.15
Fonte de Dados

Bases de Dados
ZONA VERMELHA Zona Vermelha
Azonavermelhadefineosdadosoriginaisnossistemas
proprietários.
Representamamatériaprimanoseuestadooriginale
definiçãomáxima–microdados.
Sãodadosresidentesemfontes,tecnologiaseaplicações
diversas:
•EnsinoBásicoeSecundário(MISI,E360,RAE)
•EnsinoSuperior(Raides,Rebides,Renates)
•Formação(SIGO)
•Investigadores-CiênciaeTecnologia
•InquéritosfinalSecundário(OTES)
•IEFP(viaficheiros)

GDPEF -Abordagem3
Pág.15
Processos de Qualidade de Dados
•Validação
•Normalização
•Integração
•Disponibilização
•Anonimização
•Encriptação
Profiling
Validação
NormalizaçãoIntegração
Monitorização
ZONA AMARELA
Zona Amarela
Azonaamarelaéazonadetrabalhodosistema.
Osdadossãoobtidossobaformaoriginal,comdados
pessoaisvisíveis.
Nestazona,são
•analisados,
•integrados,
•normalizados,
•anonimizados(comencriptaçãonalgunscasos),
•Webservice(s)deconsultamediantesegurança
definida
•disponibilizadosdeformacoerente.

GDPEF -Abordagem3
Pág.15

Base de Dados GDPEF Dashboards
ZONA VERDE
•Base de Dados Consulta
•Formato BD e datasets
•Metainformaçãoe DDI
•Portal de publicação
(VAAR)
•Visualização
•Dashboards
Zona Verde
Na zona verde os dados ficam disponíveis para
exploração através de acesso à base de dados.
Não existem dados pessoais publicados –cada entidade
é representada por um número.
A metainformaçãodas tabelas disponíveis é visível
através de reportno portal + DDI.
O acesso é controlado por matriz de segurança –grupo
de utilizadores/permissões.
Os reports exemplo para os Estudos são publicados no
portal.
O portal é organizado por áreas de acesso, tendo o EPD/
DPO relatórios específicos dos dataSets.

TECNOLOGIA

Tecnologia4
Pág.14
A componente de qualidade de dados usada incluí uma solução corporativa para Profiling,
Limpeza, Integração e Enriquecimento de dados para criar informação consistente e fiável.
Metodologia Data Quality
Exemplo de solução tecnológica

Tecnologia4
Pág.15
Um dos componentes utilizado foi a Data Qualityque é parte integrante da suite de
Gestão de um fabricante que que forneceu uma solução corporativa para Gestão e
Tratamento de Dados abrangente.
Ferramentas de Gestão de dados

PROCESSOS DE
QUALIDADE DE
DADOS

Processos de Qualidade de Dados
Pág.17
5
Data Profiling
A análise da qualidade dos dados, antes, durante e depois dos processos é importante
para melhor adequação dos processos de normalização e integração de dados.

Processos de Qualidade de Dados
Pág.18
5
Processos ETL (Extract, Transform and Load)
Os dados obtidos a partir das fontes (Extract) por acesso integral às tabelas ou via query,
incluindo possíveis transformações e produzindo uma nova configuração disponível para
carregar em uma ou várias tabelas de base de dados.
Os tipos de fontes é diverso e vai de ficheiros em formato csv, xls, Base de dados SQL de
fabricantes como Microsoft e ORACLE.
No exemplo acima, os dados são obtidos de diferentes bases de dados e integrados num
comum (unions) e entregues numa tabela final .
A configuração dos processos é muito visual e tem um nível de programação reduzida.

Processos de Qualidade de Dados
Pág.19
5
Exemplo de Integração de Entidades
Oprocessodeintegraçãopassapor:
1.Normalizarosdadosintrínsecosparamatch:remoçãovalores“sistemáticos”(00000,99999em
documentos)enormalização.
2.Separação(parse)dascomponentesimportantesparaoprocesso(nomes,datanascimento
combinadadia-mês).
3.Cálculodematchcodesparadiferentessensibilidades.Esteprocessodefinidonaknowledgebase
contemplapassoscomocasing,remoçãodepartículas,erroscomunsdevocabulário,fonéticae
composiçãodaMCcommaior/menorconteúdo(sensibilidade).Processodeterminístico.
4.Agrupamento(cluster)deentidadescomunsporatribuiçãodoCLUSTER_ID,Sãoutilizadasregras
comoNome(--)+DataNascimento(cruzada)+DocId.
5.Asobrevivênciadeéfeitaatravésderegraspararegistosecamposeleiçãodogoldenrecord.

Processos de Qualidade de Dados
Pág.20
5
Exemplo de processo de Sobrevivência do registo (Golden Record)
Os processos de sobrevivência funcionam a 2 níveis concretamente registo e campo;
A sobrevivência de registo permite identificar qual o registo MASTER num cluster de duplicados:
ex. “O mais recente” / “O mais completo”
A sobrevivência de campo permite alimentar o registo identificado através de informação complementar
que os registos agregados possam conter e que se iriam perder ao eliminar da base de dados, dependendo
das regras aplicadas.
De outra forma, propõe-se obter o golden record para cada entidade na base de dados. Ex:

Processos de Qualidade de Dados
Pág.21
5
Modelo de Dados GDPEF (lógico)
Entidades
Alunos
Ens. Básico/Sec
Público
Privado
Formação Adultos
IEFP
E360
Exames (INEB/INES)
Alunos
Ens. Sup.
Inscrições
Mob. Internacional
Diplomados
Docentes
Ens. Sup.
Actividade
Hab. Literárias
Doutorados Inquéritos (Dr.)
Finalistas (12º) Inquéritos (12º)
Formandos Formação (SIGO)
•O modelo final contempla o máximo de
informação possívelproveniente das
fontes.
•Consiste em 3 camadas teóricas, sendo
disponibilizadas 2. Cabeçalho e negócio.
•Na staging, o cálculo de entidades comuns
constrói a tabela Entidades e propaga o
Cluster_IDpara as tabelas de negócio –
nível 3.
•As tabelas disponíveis estão
desnormalizadastanto quanto possível.
•A consulta por ser feita diretamente à BD,
com as permissões específicas, ou utilizar
os datasetspara reportingVAAR.
•Todas as tabelas publicadas têm associada
a metainformaçãoe DDI disponível no
portal.

Processos de Qualidade de Dados
Pág.22
5
GlossáriodeTermos
DefiniçãodostermosdenegócioassociadosàEducação
Adefiniçãoéabstrata–nãoexisteassociaçãoaalgoemconcretoinicialmente.
Associaçãodaclassificaçãodasensibilidadedevariáveisatravésdocampo“Importância”.
Data Governance

Processos de Qualidade de Dados
Pág.23
5
DataLineage
Associaçãodetermosdenegócioaitensconcretos:
Servidores,
Aplicações,
BasesdeDados,
Tabelas,
Campos,
Processos,

Data Governance

Processos de Qualidade de Dados
Pág.24
5
DataLineage–AnálisedeImpacto
Apartirdeumtermodenegócio,identificar
ositensrelacionadoserespetivautilização.
Aalteraçãodeumtermo,respetivasregras
decálculooudefiniçãotemimpactonos
respetivositensassociados.

Processos de Qualidade de Dados
Pág.25
5
Submissãoderegisto(s)deentidade(s)obtendo-seinformaçãodenegócioassociadaàs
mesmas.
WebservicedeConsulta

PROTEÇÃO DE
DADOS

6Proteção de Dados
Pág.27
ApartirdasbasesdedadosMetaPrivacidadeeConsentimentos,utilizandoaclassificação
devaráveisnagovernaçãoquantoàsensibilidade,ficampublicadosnainterfacede
visualizaçãoumconjuntodedashboardsparaacompanhamentodasquestões
relacionadascomRGPD:
•KPIsEstadodasRecolhas,EstadodaMetaPrivacidade
•AnálisedeRiscoMicroDadoseRecolhas
•Monitorizaçãoderegistosdeacesso
•Estadodasrecolhas/aprovação
•Alertassituaçõesanómalas/incidentesprivacidade
•KPIsPrivacidade
Privacidade

6Proteção de Dados
Pág.28
Ferramenta interna desenvolvida pela DGEEC

6Proteção de Dados
Pág.29
Inserção Inicial

6Proteção de Dados
Pág.30
Após texto de avaliação de risco e preenchimento de tabela de verificação AIPD:

6Proteção de Dados
Pág.31
Exemplosdevisualizaçãode
1)Análisedeindicadoresassociadoafontesdedados,utilizandoinformaçãodeclassificaçãodesensibilidadede
variáveisobtidasemDataGovernance.
2)AnálisedeDesviodedadosefetivosdarecolhavsdadosprevistos

6Proteção de Dados
Pág.32
1
1
2
2

6Proteção de Dados
Pág.33
Exemplos de índice de risco de privacidade: [ f(Número de registos, Criticidade dos registos) ]

6Proteção de Dados
Pág.34
Metaprivacidade–Informação Agregada

6Proteção de Dados
Pág.35
Obtenção de detalhes sobre uma determinada recolha
(HTML)

6Proteção de Dados
Pág.36
Tabela de verificação de acordo com o GT29 e proposto pela CNPD

6Proteção de Dados
Pág.37
Monitorização da Recolha

6Proteção de Dados
Pág.38

6Proteção de Dados
Pág.39
Indicadores para o EPD/DPO

6Proteção de Dados
Pág.40
Registo de consentimentos ou declaração de privacidade
Exemplo de inquérito de acordo com RCM n. 41/2018
Primeiro registo após aceitação ou tomada de conhecimento dos termos [C]
Leitura dos termos da declaração de privacidade ou consentimento [R]

Projeto

7Projeto
Pág.42
Milestones
Data Plano
Estimadas
Estado Entregáveis
Instalação software Out’ 2018 Executado
Doc: Guia de
Operação–
Instalação/Manu
tenção
Doc:Plano de
Testes e
Aceitação
Doc: Manual de
Operações
Análisede Fontes de Dados, Regras e
Modelos de Dados
Desenho de processos DQ e Modelo(s)
GDPEF
Análise de primitivas e regras de
Privacidade
Out/Nov’ 2018 Executado
Processos ETL,Data Quality
Nov/Dez’2018Desenvolvimento
Processos Privacidade
Visualizaçãode resultados: reports e
dashboards
Validação de Resultados
(deployconsecutivo)
Dez’2018
Planeado
Formação
Jan’2019
Documentação

7Projeto
Pág.43
Out’18 Nov’18 Dez’18
Jan’19 (1ª
Quinzena)
•Instalação software SAS
•Análise de Fontes de Dados,
Regras e Modelos de Dados
•Desenho de processos DQ e
Modelo(s) GDPEF
•Análise de primitivas e
regras de Privacidade
•Processos ETL, Data Quality
•Processos Privacidade
•Visualização de resultados: reports e
dashboards
•Formação
•Documentação
Hoje Doc: Manual Operação
Solução
Doc: Plano Testes/Aceitação
Plano Projeto –Esquema Calendário
Manual Instalação/Conf

7Projeto
Pág.44
Sponsor
G.Projeto
Equipa e
utilizadores chave
Fernando Campos (GP & GC)
Luísa Loura
Teresa Evaristo, João Batista
Jorge Teixeira
Miguel Dinis
Isaque Gomes
Jorge Pinto
(IT)
Luis Martinho
(BD)
Joana Duarte
Ricardo Santos
Catarina Afflalo
(Estudos)
Nuno
Rodrigues
Carlos Malaca
Marta Oliveira

(Ens.Superior)
Alexandre
Paredes
Filomena
Oliveira
(Ciência e
Tecnologia)
Nuno
Rodrigues
Joaquim
Santos
Rui Mestre
(Ensino Basico
Secundario)
Paula
Ferreira
(Formação
-SIGO)
Equipas de Projeto da DGEEC

7Projeto
Pág.45
Status Report
High Level Plan
•Validações individuais integradas
•(garantir disponibilidade para o final do projeto –semana
Natal/Janeiro)
•Integração E360 –disponibilizar asap
Key Messages
1.Instalação Software SAS Data Flux
–servidores + desktops.
2.ConfiguraçãoBDs
3.Deployhistórico
EBS/EnsSup/CDH15/Inq.Dout.
4.Circuito Zona Vermelha-Verde
Completed Activities
1.EBS/EnsSup–tratamento
ano corrente -validação
2.Publicação GDPEF
3.SDC –StatisticalDisclosure
Control
4.Validações
On Going Activities
1.Incorporar dados E360 + Exames
2.Reports & DDI (disponível caso)
3.Documentação
Activities to be Started
Main Risks & Action Plans
Scope •Fontesde dados disponiveis
Time •Deployde resultados e validações
Resources •Software DQ Server instaladoe acessosàsfontes
Risk: High Risk: Medium Risk: LowLegend:
01/12/2018
65%
Status
Global
Gantt (Progress)
Data:
IteraçõesProjeto:
I -Instalação/Configuraçãoambientetrabalho
III –Desevolvimentoprocessosde Integração, DQ e
Privacidade. Reporting e Dashboards. Validaçãode
Reulstados
II –Análisede Fontese Desenhode processos
de Qualidadede Dados
V –Formação e Documentação

Visualização/Reporting

Visualização/Reporting8
Pág.7
Fácil acesso a grandes
volumes de dados
estruturados e não
estruturados
Juntar tabelas, filtrar
dados e calcular
colunas
Descobrir e explorar
relações entre
variáveis
Visuais atraentes
incluem previsão,
correlações, box plots,
heatmaps, gráficos de
bolhas animados e
muito mais.
Trabalhar com
modelação de
classificação usando
regressão logística e
árvores de decisão
Segmentação
orientada por dados
usando clustering
Criar facilmente
relatórios ou painéis
personalizados por meio
de uma simples interface
de arrastar e soltar
Experiência simplificada
de uso para o utilizador
final
Recursos do Enterprise
Reporting disponíveis
para tornar a vida da TI
mais simples
Aceder facilmente aos
relatórios / painéis
existentes através de
seus dispositivos móveis
(tablets)
Aceder aos relatórios /
painéis existentes
através dos aplicativos
do Office (Word, Excel,
Powerpoint, Outlook)
UMA ÚNICAPLATAFORMAINTEGRADAE PARTILHADA
Visual data
preparation
Visual data exploration /
analytics
Approachable
modelling
Reporting/
Dashboards
Access it anywhere
Visual Analytics
Visual
Analytics
Visual
Analytics
Office
Analytics
Visual
Statistics
Fonte: Apresentação DataQualityViyapara a DGEEC

Visualização/Reporting8
Pág.7
VISUAL ANALYTICS
O SAS Visual Analyticsinclui um ambiente
integrado para
•Descoberta e exploração dos dados,
desenvolvimento e partilha de
relatórios.
•Através de visualizações analíticas é
possível encontrar padrões e relações
nos dados,
•A solução pode ser escalada ao nível
organizacional
•A solução inclui ambientes
diferenciados dependendo dos tipos de
utilizadores
Fonte: Apresentação DataQualityViyapara a DGEEC

Visualização/Reporting8
Pág.7
Fácil acesso a grandes
volumes de dados
estruturados e não
estruturados
Juntar tabelas, filtrar
dados e calcular
colunas
Descobrir e explorar
relações entre
variáveis
Visuais atraentes
incluem previsão,
correlações, box plots,
heatmaps, gráficos de
bolhas animados e
muito mais.
Trabalhar com
modelação de
classificação usando
regressão logística e
árvores de decisão
Segmentação
orientada por dados
usando clustering
Criar facilmente
relatórios ou painéis
personalizados por meio
de uma simples interface
de arrastar e soltar
Experiência simplificada
de uso para o utilizador
final
Recursos do Enterprise
Reporting disponíveis
para tornar a vida da TI
mais simples
Aceder facilmente aos
relatórios / painéis
existentes através de
seus dispositivos móveis
(tablets)
Aceder aos relatórios /
painéis existentes
através dos aplicativos
do Office (Word, Excel,
Powerpoint, Outlook)
PLATAFORMAINTEGRADAE PARTILHADA
Fonte: Apresentação DataQualityViyapara a DGEEC

Visualização/Reporting8
Pág.7
CONSTRUÇÃODE ANÁLISE
Fonte: Apresentação DataQualityViyapara a DGEEC

Visualização/Reporting8
Pág.7
DESKTOP
APPLICATIONS
WEB
COLLABORATION
APPLICATIONSMOBILE
MODELO COLABORATIVO
Fonte: Apresentação DataQualityViyapara a DGEEC

Referências
Campos,F. . DataQuality–Componentes Percursos Educativos e Formativos, 2018. Documentos não publicados.
Direção-Geral de Estatísticas da Educação e Ciência.
Campos, F. . Técnicas Anonimização Microdados, 2017. Manuscrito não publicado. Direção-Geral de Estatísticas da Educação e Ciência.
Campos, F. . Safe Centre Investigadores, 2017 . Manuscrito não publicado. Direção-Geral de Estatísticas da Educação e Ciência.
A. Kowarik, M. Templ, B. Meindl, andF. Fonteneau. sdcMicroGUI: StatisticalDisclosureControlfor Micro-Data
UsingtheR Package sdcMicro.
M. Templ, A. Kowarik, andB. Meindl. sdcMicro: StatisticalDisclosureControlmethods for the generation of
public-and scientific-use files. Manual and Package., 2013. URL http://CRAN.R-roject.org/package=sdcMicro.
R package version4.1.1.
M. Templ, B. MeindlandA. Kowarik: Introduction to Statistical Disclosure Control (SDC).
https://www.data-analysis.at/de_DE/geheimhaltung/.
A. Gregory. TheData DocumentationInitiative(DDI): An Introduction for National StatisticalInstitutes,
2011. Open Data Foundation.
DDI Alliance. DDI specification, 2018. URL http://www.ddialliance.org/specification
SAS. SAS Data Quality, 2018. URL https://www.sas.com/en_us/software/data-quality.html
Campos,F. , Santos, J. , Malaca, C. . Harmonização variáveis de microdados, 2017. Manuscrito não publicado.
Direção-Geral de Estatísticas da Educação e Ciência.
Campos, F. (org.) . Lista de variáveis chave privacidade, 2018. Documento não publicado. Direção-Geral de Estatísticas da Educação e Ciência.
52