Qualidade de dados e cumprimento do Regulamento Geral de Proteção de Dados
fernandocampos
12 views
52 slides
Oct 18, 2025
Slide 1 of 52
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
About This Presentation
Estrutura e metodologia de desenho para a construção de um Safe Center em Educação, cumprindo os principios do Regulamento Geral de Proteção de Dados.
Size: 7.23 MB
Language: pt
Added: Oct 18, 2025
Slides: 52 pages
Slide Content
Gestão, Privacidadee Governaçãode Dados
Lisboa, 8 de maio2018
Fernando Rui Campos –EPD-DGEEC
imagem: COMPETE 2020
Nota: Apresentação realizada ao Compete 2020, no âmbito da partilha de boas práticas na Administração Pública
Page.2
Introdução1
Apresentação
Enquadramento
Objetivos
Abordagem
Tecnologia
Qualidade de Dados
Proteção de Dados
Projeto
Visualização/Reporting
1 |
2 |
3 |
4 |
5 |
6|
7|
8 |
Page.3
Introdução1
A Direção-Geral de Estatísticas da Educação e Ciência é um serviço central da
administração direta do Estado, dotado de autonomia administrativa, que tem por
missão garantir a produção e análise estatística da educação e ciência, apoiando
tecnicamente a formulação de políticas e o planeamento estratégico e operacional,
criar e assegurar o bom funcionamento do sistema integrado de informação observar
e avaliar globalmente os resultados obtidos pelos sistemas educativo e científico e
tecnológico, em articulação com os demais serviços, encontrando-se na dependência
do Ministro da Educação e do Ministro da Ciência Tecnologia e Ensino Superior.
A responsabilidade por parte da Direção-Geral de Estatísticas da Educação e Ciência
em garantir a recolha, monitorização, tratamento, produção e divulgação de
informação adequada (designadamente estatística), aliada à volumetria de
informação recolhida de várias fontes (> 1,5 mil milhões registos) e formatos
necessários para assegurar o correto funcionamento do sistema integrado de
informação e gestão da oferta educativa e formativa, representam desafios
constantes.
A estes desafios acresce a necessidade do cumprimento do novo Regulamento Geral
sobre a Proteção de Dados (RGPD) e da Resolução do Conselho de Ministros (RCM)
n.º 41/2018, no que diz respeitos às orientações técnicas.
Page.4
Introdução1
Data Quality& Safe
Centre
Monitorização de
Recolhas de acordo
com RGPD
Visualização &
Exploração
(Visual Analytics
& Statistics)
Gestão Risco &
Compliance
RGPD
(RCM 41/2018)
Proteção de Dados
Roadmapglobal
Ocumprimentodoregulamentoedaproteçãodosdadosacompanhatodooprocesso
Page.5
Introdução1
Data Quality& Safe
Centre
Monitorização de
Recolhas de acordo com
RGPD
Visualização &
Exploração
(Visual Analytics &
Statistics)
Gestão Risco &
ComplianceRGPD
(RCM 41/2018)
Visualização/Reporting8
Pág.7
Trêsvetoresorientadores:
QualidadedosDadosadisponibilizar
deacordocomaspoliticasdeprivacidade
dedadospessoais,tendocomofinalidade
1.cumprimentodoregulamento
geraldeproteçãodedadose
2.disponibilizaçãodosmesmopara
finsestatísticosedeestudos,
nomeadamenteaobtençãodopercursode
ensinoeformaçãodoalunoaolongodos
anos.
Principais Vetores
Visualização/Reporting8
Pág.7
OGDPEFtemcomomissãoarecolha,tratamentoedisponibilizaçãodedadospara
usodaEstatística,InvestigaçãoeCiênciaeTecnologia.
Implementaofluxodedadosdesdeasdiferentesorigensaomodelofinala
disponibilizar,tendoemcontaaspetosdecruzamento,normalizaçãoe
anonimizaçãodosdados.
Bases de Dados
…
Fonte de Dados
…
Processos de Qualidade de Dados
Profiling
Validação
Normalização
Integração
Disponibilização …
Proteção
Anonimização
Encriptação
Validação
…
Exploração
…
Avaliação de
Risco
Impacto
Privilégios
Controlo de
Acessos
Reporting
GDPEF –Gestão de Dados, Percursos Educativos e Formativos
GDPEF
Abordagem
GDPEF -Abordagem3
Pág.15
Fonte de Dados Processos de Qualidade de Dados
•Validação
•Normalização
•Integração
•Disponibilização
•Anonimização
•Encriptação
Avaliação de Risco
Análise de Impacto
Profiling& Monitorização
Privilégios
Controlo de Acessos
…
Bases de Dados
…
Profiling
Validação
NormalizaçãoIntegração
Monitorização
Base de Dados GDPEF Dashboards
ZONA VERMELHA ZONA AMARELA ZONA VERDE
•Base de Dados Consulta
•Formato BD e datasets
•Metainformaçãoe DDI
•Portal de publicação
•Visualização
•Dashboards
Critérios de seleção
de microdados
Profiling& Monitorização
Controlo de Acessos
Critérios de validação e agregação
Técnicas de anonimização
Especificação harmonização de variáveis
Definição de uso de dados pessoais
Definição de metainformação
Critérios de disponibilização
Autorização de acessos a dados
Definição de
metainformaçãode dados
disponíveis
Definição de privilégios
•Ensino Básico e
•Secundário Ensino
Superior
•Formação
•Investigadores
•Outros inquéritos
•IEFP
GDPEF -Abordagem3
Pág.15
Fonte de Dados
…
Bases de Dados
ZONA VERMELHA Zona Vermelha
Azonavermelhadefineosdadosoriginaisnossistemas
proprietários.
Representamamatériaprimanoseuestadooriginale
definiçãomáxima–microdados.
Sãodadosresidentesemfontes,tecnologiaseaplicações
diversas:
•EnsinoBásicoeSecundário(MISI,E360,RAE)
•EnsinoSuperior(Raides,Rebides,Renates)
•Formação(SIGO)
•Investigadores-CiênciaeTecnologia
•InquéritosfinalSecundário(OTES)
•IEFP(viaficheiros)
GDPEF -Abordagem3
Pág.15
Processos de Qualidade de Dados
•Validação
•Normalização
•Integração
•Disponibilização
•Anonimização
•Encriptação
Profiling
Validação
NormalizaçãoIntegração
Monitorização
ZONA AMARELA
Zona Amarela
Azonaamarelaéazonadetrabalhodosistema.
Osdadossãoobtidossobaformaoriginal,comdados
pessoaisvisíveis.
Nestazona,são
•analisados,
•integrados,
•normalizados,
•anonimizados(comencriptaçãonalgunscasos),
•Webservice(s)deconsultamediantesegurança
definida
•disponibilizadosdeformacoerente.
GDPEF -Abordagem3
Pág.15
…
Base de Dados GDPEF Dashboards
ZONA VERDE
•Base de Dados Consulta
•Formato BD e datasets
•Metainformaçãoe DDI
•Portal de publicação
(VAAR)
•Visualização
•Dashboards
Zona Verde
Na zona verde os dados ficam disponíveis para
exploração através de acesso à base de dados.
Não existem dados pessoais publicados –cada entidade
é representada por um número.
A metainformaçãodas tabelas disponíveis é visível
através de reportno portal + DDI.
O acesso é controlado por matriz de segurança –grupo
de utilizadores/permissões.
Os reports exemplo para os Estudos são publicados no
portal.
O portal é organizado por áreas de acesso, tendo o EPD/
DPO relatórios específicos dos dataSets.
TECNOLOGIA
Tecnologia4
Pág.14
A componente de qualidade de dados usada incluí uma solução corporativa para Profiling,
Limpeza, Integração e Enriquecimento de dados para criar informação consistente e fiável.
Metodologia Data Quality
Exemplo de solução tecnológica
Tecnologia4
Pág.15
Um dos componentes utilizado foi a Data Qualityque é parte integrante da suite de
Gestão de um fabricante que que forneceu uma solução corporativa para Gestão e
Tratamento de Dados abrangente.
Ferramentas de Gestão de dados
PROCESSOS DE
QUALIDADE DE
DADOS
Processos de Qualidade de Dados
Pág.17
5
Data Profiling
A análise da qualidade dos dados, antes, durante e depois dos processos é importante
para melhor adequação dos processos de normalização e integração de dados.
Processos de Qualidade de Dados
Pág.18
5
Processos ETL (Extract, Transform and Load)
Os dados obtidos a partir das fontes (Extract) por acesso integral às tabelas ou via query,
incluindo possíveis transformações e produzindo uma nova configuração disponível para
carregar em uma ou várias tabelas de base de dados.
Os tipos de fontes é diverso e vai de ficheiros em formato csv, xls, Base de dados SQL de
fabricantes como Microsoft e ORACLE.
No exemplo acima, os dados são obtidos de diferentes bases de dados e integrados num
comum (unions) e entregues numa tabela final .
A configuração dos processos é muito visual e tem um nível de programação reduzida.
Processos de Qualidade de Dados
Pág.19
5
Exemplo de Integração de Entidades
Oprocessodeintegraçãopassapor:
1.Normalizarosdadosintrínsecosparamatch:remoçãovalores“sistemáticos”(00000,99999em
documentos)enormalização.
2.Separação(parse)dascomponentesimportantesparaoprocesso(nomes,datanascimento
combinadadia-mês).
3.Cálculodematchcodesparadiferentessensibilidades.Esteprocessodefinidonaknowledgebase
contemplapassoscomocasing,remoçãodepartículas,erroscomunsdevocabulário,fonéticae
composiçãodaMCcommaior/menorconteúdo(sensibilidade).Processodeterminístico.
4.Agrupamento(cluster)deentidadescomunsporatribuiçãodoCLUSTER_ID,Sãoutilizadasregras
comoNome(--)+DataNascimento(cruzada)+DocId.
5.Asobrevivênciadeéfeitaatravésderegraspararegistosecamposeleiçãodogoldenrecord.
Processos de Qualidade de Dados
Pág.20
5
Exemplo de processo de Sobrevivência do registo (Golden Record)
Os processos de sobrevivência funcionam a 2 níveis concretamente registo e campo;
A sobrevivência de registo permite identificar qual o registo MASTER num cluster de duplicados:
ex. “O mais recente” / “O mais completo”
A sobrevivência de campo permite alimentar o registo identificado através de informação complementar
que os registos agregados possam conter e que se iriam perder ao eliminar da base de dados, dependendo
das regras aplicadas.
De outra forma, propõe-se obter o golden record para cada entidade na base de dados. Ex:
Processos de Qualidade de Dados
Pág.21
5
Modelo de Dados GDPEF (lógico)
Entidades
Alunos
Ens. Básico/Sec
Público
Privado
Formação Adultos
IEFP
E360
Exames (INEB/INES)
Alunos
Ens. Sup.
Inscrições
Mob. Internacional
Diplomados
Docentes
Ens. Sup.
Actividade
Hab. Literárias
Doutorados Inquéritos (Dr.)
Finalistas (12º) Inquéritos (12º)
Formandos Formação (SIGO)
•O modelo final contempla o máximo de
informação possívelproveniente das
fontes.
•Consiste em 3 camadas teóricas, sendo
disponibilizadas 2. Cabeçalho e negócio.
•Na staging, o cálculo de entidades comuns
constrói a tabela Entidades e propaga o
Cluster_IDpara as tabelas de negócio –
nível 3.
•As tabelas disponíveis estão
desnormalizadastanto quanto possível.
•A consulta por ser feita diretamente à BD,
com as permissões específicas, ou utilizar
os datasetspara reportingVAAR.
•Todas as tabelas publicadas têm associada
a metainformaçãoe DDI disponível no
portal.
Processos de Qualidade de Dados
Pág.22
5
GlossáriodeTermos
DefiniçãodostermosdenegócioassociadosàEducação
Adefiniçãoéabstrata–nãoexisteassociaçãoaalgoemconcretoinicialmente.
Associaçãodaclassificaçãodasensibilidadedevariáveisatravésdocampo“Importância”.
Data Governance
Processos de Qualidade de Dados
Pág.23
5
DataLineage
Associaçãodetermosdenegócioaitensconcretos:
Servidores,
Aplicações,
BasesdeDados,
Tabelas,
Campos,
Processos,
…
Data Governance
Processos de Qualidade de Dados
Pág.24
5
DataLineage–AnálisedeImpacto
Apartirdeumtermodenegócio,identificar
ositensrelacionadoserespetivautilização.
Aalteraçãodeumtermo,respetivasregras
decálculooudefiniçãotemimpactonos
respetivositensassociados.
Processos de Qualidade de Dados
Pág.25
5
Submissãoderegisto(s)deentidade(s)obtendo-seinformaçãodenegócioassociadaàs
mesmas.
WebservicedeConsulta
PROTEÇÃO DE
DADOS
6Proteção de Dados
Pág.27
ApartirdasbasesdedadosMetaPrivacidadeeConsentimentos,utilizandoaclassificação
devaráveisnagovernaçãoquantoàsensibilidade,ficampublicadosnainterfacede
visualizaçãoumconjuntodedashboardsparaacompanhamentodasquestões
relacionadascomRGPD:
•KPIsEstadodasRecolhas,EstadodaMetaPrivacidade
•AnálisedeRiscoMicroDadoseRecolhas
•Monitorizaçãoderegistosdeacesso
•Estadodasrecolhas/aprovação
•Alertassituaçõesanómalas/incidentesprivacidade
•KPIsPrivacidade
Privacidade
6Proteção de Dados
Pág.28
Ferramenta interna desenvolvida pela DGEEC
6Proteção de Dados
Pág.29
Inserção Inicial
6Proteção de Dados
Pág.30
Após texto de avaliação de risco e preenchimento de tabela de verificação AIPD:
6Proteção de Dados
Pág.31
Exemplosdevisualizaçãode
1)Análisedeindicadoresassociadoafontesdedados,utilizandoinformaçãodeclassificaçãodesensibilidadede
variáveisobtidasemDataGovernance.
2)AnálisedeDesviodedadosefetivosdarecolhavsdadosprevistos
6Proteção de Dados
Pág.32
1
1
2
2
6Proteção de Dados
Pág.33
Exemplos de índice de risco de privacidade: [ f(Número de registos, Criticidade dos registos) ]
6Proteção de Dados
Pág.34
Metaprivacidade–Informação Agregada
6Proteção de Dados
Pág.35
Obtenção de detalhes sobre uma determinada recolha
(HTML)
6Proteção de Dados
Pág.36
Tabela de verificação de acordo com o GT29 e proposto pela CNPD
6Proteção de Dados
Pág.37
Monitorização da Recolha
6Proteção de Dados
Pág.38
6Proteção de Dados
Pág.39
Indicadores para o EPD/DPO
6Proteção de Dados
Pág.40
Registo de consentimentos ou declaração de privacidade
Exemplo de inquérito de acordo com RCM n. 41/2018
Primeiro registo após aceitação ou tomada de conhecimento dos termos [C]
Leitura dos termos da declaração de privacidade ou consentimento [R]
Projeto
7Projeto
Pág.42
Milestones
Data Plano
Estimadas
Estado Entregáveis
Instalação software Out’ 2018 Executado
Doc: Guia de
Operação–
Instalação/Manu
tenção
Doc:Plano de
Testes e
Aceitação
Doc: Manual de
Operações
Análisede Fontes de Dados, Regras e
Modelos de Dados
Desenho de processos DQ e Modelo(s)
GDPEF
Análise de primitivas e regras de
Privacidade
Out/Nov’ 2018 Executado
Processos ETL,Data Quality
Nov/Dez’2018Desenvolvimento
Processos Privacidade
Visualizaçãode resultados: reports e
dashboards
Validação de Resultados
(deployconsecutivo)
Dez’2018
Planeado
Formação
Jan’2019
Documentação
7Projeto
Pág.43
Out’18 Nov’18 Dez’18
Jan’19 (1ª
Quinzena)
•Instalação software SAS
•Análise de Fontes de Dados,
Regras e Modelos de Dados
•Desenho de processos DQ e
Modelo(s) GDPEF
•Análise de primitivas e
regras de Privacidade
•Processos ETL, Data Quality
•Processos Privacidade
•Visualização de resultados: reports e
dashboards
•Formação
•Documentação
Hoje Doc: Manual Operação
Solução
Doc: Plano Testes/Aceitação
Plano Projeto –Esquema Calendário
Manual Instalação/Conf
7Projeto
Pág.44
Sponsor
G.Projeto
Equipa e
utilizadores chave
Fernando Campos (GP & GC)
Luísa Loura
Teresa Evaristo, João Batista
Jorge Teixeira
Miguel Dinis
Isaque Gomes
Jorge Pinto
(IT)
Luis Martinho
(BD)
Joana Duarte
Ricardo Santos
Catarina Afflalo
(Estudos)
Nuno
Rodrigues
Carlos Malaca
Marta Oliveira
…
(Ens.Superior)
Alexandre
Paredes
Filomena
Oliveira
(Ciência e
Tecnologia)
Nuno
Rodrigues
Joaquim
Santos
Rui Mestre
(Ensino Basico
Secundario)
Paula
Ferreira
(Formação
-SIGO)
Equipas de Projeto da DGEEC
7Projeto
Pág.45
Status Report
High Level Plan
•Validações individuais integradas
•(garantir disponibilidade para o final do projeto –semana
Natal/Janeiro)
•Integração E360 –disponibilizar asap
Key Messages
1.Instalação Software SAS Data Flux
–servidores + desktops.
2.ConfiguraçãoBDs
3.Deployhistórico
EBS/EnsSup/CDH15/Inq.Dout.
4.Circuito Zona Vermelha-Verde
Completed Activities
1.EBS/EnsSup–tratamento
ano corrente -validação
2.Publicação GDPEF
3.SDC –StatisticalDisclosure
Control
4.Validações
On Going Activities
1.Incorporar dados E360 + Exames
2.Reports & DDI (disponível caso)
3.Documentação
Activities to be Started
Main Risks & Action Plans
Scope •Fontesde dados disponiveis
Time •Deployde resultados e validações
Resources •Software DQ Server instaladoe acessosàsfontes
Risk: High Risk: Medium Risk: LowLegend:
01/12/2018
65%
Status
Global
Gantt (Progress)
Data:
IteraçõesProjeto:
I -Instalação/Configuraçãoambientetrabalho
III –Desevolvimentoprocessosde Integração, DQ e
Privacidade. Reporting e Dashboards. Validaçãode
Reulstados
II –Análisede Fontese Desenhode processos
de Qualidadede Dados
V –Formação e Documentação
Visualização/Reporting
Visualização/Reporting8
Pág.7
Fácil acesso a grandes
volumes de dados
estruturados e não
estruturados
Juntar tabelas, filtrar
dados e calcular
colunas
Descobrir e explorar
relações entre
variáveis
Visuais atraentes
incluem previsão,
correlações, box plots,
heatmaps, gráficos de
bolhas animados e
muito mais.
Trabalhar com
modelação de
classificação usando
regressão logística e
árvores de decisão
Segmentação
orientada por dados
usando clustering
Criar facilmente
relatórios ou painéis
personalizados por meio
de uma simples interface
de arrastar e soltar
Experiência simplificada
de uso para o utilizador
final
Recursos do Enterprise
Reporting disponíveis
para tornar a vida da TI
mais simples
Aceder facilmente aos
relatórios / painéis
existentes através de
seus dispositivos móveis
(tablets)
Aceder aos relatórios /
painéis existentes
através dos aplicativos
do Office (Word, Excel,
Powerpoint, Outlook)
UMA ÚNICAPLATAFORMAINTEGRADAE PARTILHADA
Visual data
preparation
Visual data exploration /
analytics
Approachable
modelling
Reporting/
Dashboards
Access it anywhere
Visual Analytics
Visual
Analytics
Visual
Analytics
Office
Analytics
Visual
Statistics
Fonte: Apresentação DataQualityViyapara a DGEEC
Visualização/Reporting8
Pág.7
VISUAL ANALYTICS
O SAS Visual Analyticsinclui um ambiente
integrado para
•Descoberta e exploração dos dados,
desenvolvimento e partilha de
relatórios.
•Através de visualizações analíticas é
possível encontrar padrões e relações
nos dados,
•A solução pode ser escalada ao nível
organizacional
•A solução inclui ambientes
diferenciados dependendo dos tipos de
utilizadores
Fonte: Apresentação DataQualityViyapara a DGEEC
Visualização/Reporting8
Pág.7
Fácil acesso a grandes
volumes de dados
estruturados e não
estruturados
Juntar tabelas, filtrar
dados e calcular
colunas
Descobrir e explorar
relações entre
variáveis
Visuais atraentes
incluem previsão,
correlações, box plots,
heatmaps, gráficos de
bolhas animados e
muito mais.
Trabalhar com
modelação de
classificação usando
regressão logística e
árvores de decisão
Segmentação
orientada por dados
usando clustering
Criar facilmente
relatórios ou painéis
personalizados por meio
de uma simples interface
de arrastar e soltar
Experiência simplificada
de uso para o utilizador
final
Recursos do Enterprise
Reporting disponíveis
para tornar a vida da TI
mais simples
Aceder facilmente aos
relatórios / painéis
existentes através de
seus dispositivos móveis
(tablets)
Aceder aos relatórios /
painéis existentes
através dos aplicativos
do Office (Word, Excel,
Powerpoint, Outlook)
PLATAFORMAINTEGRADAE PARTILHADA
Fonte: Apresentação DataQualityViyapara a DGEEC
Visualização/Reporting8
Pág.7
CONSTRUÇÃODE ANÁLISE
Fonte: Apresentação DataQualityViyapara a DGEEC
Visualização/Reporting8
Pág.7
DESKTOP
APPLICATIONS
WEB
COLLABORATION
APPLICATIONSMOBILE
MODELO COLABORATIVO
Fonte: Apresentação DataQualityViyapara a DGEEC
Referências
Campos,F. . DataQuality–Componentes Percursos Educativos e Formativos, 2018. Documentos não publicados.
Direção-Geral de Estatísticas da Educação e Ciência.
Campos, F. . Técnicas Anonimização Microdados, 2017. Manuscrito não publicado. Direção-Geral de Estatísticas da Educação e Ciência.
Campos, F. . Safe Centre Investigadores, 2017 . Manuscrito não publicado. Direção-Geral de Estatísticas da Educação e Ciência.
A. Kowarik, M. Templ, B. Meindl, andF. Fonteneau. sdcMicroGUI: StatisticalDisclosureControlfor Micro-Data
UsingtheR Package sdcMicro.
M. Templ, A. Kowarik, andB. Meindl. sdcMicro: StatisticalDisclosureControlmethods for the generation of
public-and scientific-use files. Manual and Package., 2013. URL http://CRAN.R-roject.org/package=sdcMicro.
R package version4.1.1.
M. Templ, B. MeindlandA. Kowarik: Introduction to Statistical Disclosure Control (SDC).
https://www.data-analysis.at/de_DE/geheimhaltung/.
A. Gregory. TheData DocumentationInitiative(DDI): An Introduction for National StatisticalInstitutes,
2011. Open Data Foundation.
DDI Alliance. DDI specification, 2018. URL http://www.ddialliance.org/specification
SAS. SAS Data Quality, 2018. URL https://www.sas.com/en_us/software/data-quality.html
Campos,F. , Santos, J. , Malaca, C. . Harmonização variáveis de microdados, 2017. Manuscrito não publicado.
Direção-Geral de Estatísticas da Educação e Ciência.
Campos, F. (org.) . Lista de variáveis chave privacidade, 2018. Documento não publicado. Direção-Geral de Estatísticas da Educação e Ciência.
52