Universitat Politècnica de Catalunya. Departament d'Enginyeria Telemàtica
DOCTORAT EN ENGINYERIA TELEMÀTICA (Pla 2013)
(English) The issue of data sharing and the protection of individual privacy is a significant challenge in modern society. The concept of privacy preserving data publishing addresses this problem by enabling the sharing of valuable sensitive data while protecting the legal right to privacy of the individuals who share it. Allowing access to this information is of great value for the proper development of research and various technologies without the burden of strict privacy regulations that private information implies. In this thesis, we have focused on the study of a particular data publishing framework: continuous data publishing, where data is published continuously while being updated between publications. The principal contributions of this thesis to the area of continuous data publishing are described next. Firstly, we have structured the existing corpus of literature. We have identified the principal categories of attackers and organised the existing proposals based on their attacker capacities, privacy guarantees and dataset type. Secondly, we examined the requirements for m-invariance, a state-of-the-art proposal, and how to achieve these requirements in an efficient manner. Existing techniques for generating private datasets necessitate the enforcement of the m-eligible condition, which restricts the distribution of sensitive data values within the dataset. We have investigated the significance of this property and the most efficient methods for handling datasets that do not fulfil m-eligibility, thereby minimizing the loss of utility. Thirdly, we have developed a computationally intensive approach to optimize the utility of publications. Existing algorithms based on the m-invariance notion are simple heuristics that do not prioritize the maximization of data quality but rather the velocity of execution. We have created an alternative approach that is devoted to optimizing data quality. The results demonstrate a substantial enhancement in utility relative to previous algorithms. Finally, we have proposed two novel privacy notions for continuous data publishing. The first is a,m-warden, a privacy notion that limits the capacity of a probabilistic attacker. This is an malicious observer that, knowing the user's data, can infer with a certain probability the sensitive information of the target. On the other hand, m-USP is a privacy notion designed to permit the republication of data between two non-communicating data publishers, while simultaneously preventing attacks derived from the non-coordinated publication of data.
(Català) L'intercanvi de dades i protecció de la privadesa individual és un repte important a la societat moderna. El concepte de publicació de dades per preservar la privadesa (privacy preserving data publishing) aborda aquest problema permetent compartir dades sensibles valuoses alhora que protegeix el dret legal a la privadesa de les persones que les comparteixen. Permetre l'accés a aquesta informació és de gran valor per al bon desenvolupament de la investigació i diverses tecnologies sense la càrrega de les estrictes regulacions de privadesa que implica la informació privada. En aquesta tesi, ens hem centrat en l'estudi d'un marc concret de publicació de dades: la publicació contínua de dades, on les dades es publiquen de manera contínua mentre s'actualitzen entre publicacions. A continuació es descriuen les principals contribucions d'aquesta tesi a l'àmbit de la publicació contínua de dades. En primer lloc, hem estructurat el corpus de literatura existent. Hem identificat les principals categories d'atacants i hem organitzat les propostes existents en funció dels atacants, les garanties de privadesa i el tipus de dades. En segon lloc, vam examinar els requisits per a la m-invariància, una proposta reconeguda a la literatura, i com assolir aquests requisits d'una manera eficient. Les tècniques existents per generar conjunts de dades privats requereixen l'aplicació de la condició de m-elegibilitat, que restringeix la distribució de valors de dades sensibles dins del conjunt de dades. Hem investigat la importància d'aquesta propietat i els mètodes més eficients per gestionar conjunts de dades que no compleixen m-elegibilitat, minimitzant així la pèrdua d'utilitat. En tercer lloc, hem desenvolupat un enfocament computacionalment intensiu per optimitzar la utilitat de les publicacions. Els algorismes existents basats en la noció de m-invariància són heurístiques simples que no prioritzen la maximització de la qualitat de les dades sinó la velocitat d'execució. Hem creat un enfocament alternatiu que es dedica a optimitzar la qualitat de les dades. Els resultats demostren una millora substancial de la utilitat en relació amb els algorismes anteriors. Finalment, hem proposat dues noves nocions de privadesa per a la publicació contínua de dades. El primer és a,m-warden, una noció de privadesa que limita la capacitat d'un atacant probabilístic. Es tracta d'un observador maliciós que, coneixent les dades de l'usuari, pot inferir amb certa probabilitat la informació sensible de l'objectiu. D'altra banda, m-USP és una noció de privadesa dissenyada per permetre la republicació de dades entre dos editors de dades no comunicants, alhora que evita atacs derivats de la publicació no coordinada de dades.
(Español) El desafío de compartir información mientras se protege la privacidad de las personas es un reto importante en la sociedad moderna. El concepto de publicación privada de datos aborda este problema permitiendo compartir datos sensibles valiosos y protegiendo al mismo tiempo el derecho legal a la privacidad de las personas que los comparten. La capacidad de dar acceso a esta información es de gran importancia para el correcto desarrollo de la investigación y de diversas tecnologías, las cuales se verían afectas por las estrictas regulaciones de privacidad que implica la información privada. En esta tesis, nos hemos centrado en el estudio de un marco particular de publicación de datos: la publicación continua de datos, en la que los datos se publican en varias ocasiones entre las cuales son actualizados. Las principales aportaciones de este documento pueden clasificarse en cuatro elementos principales, que se presentarán en los párrafos siguientes. En primer lugar, hemos estructurado el corpus bibliográfico existente. Hemos identificado las principales categorías de atacantes y organizado las propuestas existentes en función de sus capacidades de ataque, garantías de privacidad y tipo de base de datos. En segundo lugar, examinamos los requisitos de m-invarianza, una propuesta presente en la literatura, y cómo lograr estos requisitos de manera eficiente. Las técnicas existentes para generar conjuntos de datos privados requieren el cumplimiento de la condición de m-eligibilidad, que restringe la distribución de los datos sensibles dentro del conjunto de datos. Hemos investigado la importancia de esta propiedad y los métodos más eficientes para tratar los conjuntos de datos que no cumplen la condición m-eligibilidad, minimizando así la pérdida de utilidad. En tercer lugar, hemos desarrollado un enfoque computacionalmente intenso para optimizar la utilidad de las publicaciones. Los algoritmos existentes basados en la noción de m-invarianza son simples heurísticos que no dan prioridad a la maximización de la calidad de los datos, sino a la velocidad de ejecución. Hemos creado un enfoque alternativo que se centra en optimizar la calidad de los datos. Los resultados demuestran una mejora sustancial de la utilidad con respecto a los algoritmos anteriores. Por último, hemos propuesto dos nuevas nociones de privacidad para la publicación continua de datos. La primera es a,m-warden, una noción de privacidad que limita la capacidad de un atacante probabilístico. Un atacante probabilístico es un observador malicioso que, conociendo los datos del usuario, puede inferir con cierta probabilidad la información sensible del mismo. Por otro lado, m-USP es una noción de privacidad diseñada para permitir la republicación de datos entre dos editores de datos sin necesidad de que se comuniquen, impidiendo los ataques derivados de la publicación no coordinada.
Statistical Disclosure Control; Data privacy; Dynamic data; Syntactic Privacy
621.3 Electrical engineering
Àrees temàtiques de la UPC::Enginyeria de la telecomunicació
Tesi amb menció de Doctorat Internacional