Characterization and Mitigation of Algorithmic Bias in Recommender Systems

Author

Gómez Yepes, Elizabeth

Director

Salamó Llorente, Maria

Tutor

Salamó Llorente, Maria

Date of defense

2024-12-17

Pages

200 p.



Department/Institute

Universitat de Barcelona. Departament de Matemàtiques i Informàtica

Doctorate programs

Matemàtiques i Informàtica

Abstract

[eng] Recommender Systems are critical in helping users navigate large amounts of information by providing personalized suggestions. However, these systems can exhibit biases, especially when data imbalances exist, leading to unfair recommendations that favor more popular or majority items over those from minority groups. This thesis explores the identification, characterization, and mitigation of algorithmic bias within Recommender Systems. This research focuses on addressing biases that arise from data imbalances and how these biases can lead to unfair treatment of certain groups, particularly in terms of visibility and exposure in recommendations. The primary goal of the thesis is to mitigate algorithmic bias in Recommender Systems to produce fairer and more equitable recommendation lists, through techniques of post-processing bias mitigation (e.g., re-ranking recommendation results to ensure fairness). This includes identifying and categorizing biases in datasets, designing strategies to mitigate these biases, and developing techniques to optimize recommendation algorithms to reduce bias. The main contributions of this thesis are five, divided into two thematic parts. The first thematic part focuses on Provider Fairness and the second thematic part on Fairness from Multiple Perspectives. Regarding the first thematic part, two contributions have been made. In the first, a Binary Approach was adopted, by categorizing geographic bias or imbalance associated with the country of production of the items and identifying two groups of providers (majority versus rest), and based on the distribution observed in the original training set, the recommendations are adjusted to align with these groups, with the aim of mitigating disparity bias. In the second contribution, we explain the process of categorization and bias mitigation using a Multi-Class Approach. We explore how recommendation algorithms can exacerbate biases by promoting items from certain regions, which could disadvantage underrepresented geographic groups. Concerning the second thematic part, three contributions have been made. The first contribution introduces CONFIGRE, a novel methodology designed to ensure fairness in Recommender Systems by balancing visibility between coarse- and fine-grained demographic groups. In second contribution we present MOReGln, a new approach for managing multiple objectives in Recommender Systems. This method specifically addresses the challenge of achieving both global balance and individual fairness in recommendations. Finally, in an additional contribution, we develop a new dataset (AMBAR, in the music domain) that includes sensitive attributes at various levels of granularity. Furthermore, we extend two real-world datasets (MovieLens­lM and Book-Crossing) with geographic information to study the link between geographic imbalance and disparate impact. This thesis advances on the identification, characterization, mitigation and evaluation of biases in collaborative Recommender Systems. It addresses existing gaps in the analysis of geographical biases in different group settings: from binary groups, multi-class groups to different levels of granularity of groups. The outlined contributions establish a basis for further advancements and effective mitigation of biases without significantly compromising accuracy. Our findings, developed software, and resources presented in this dissertation are available to the community to facilitate further research and knowledge transfer.


[spa] Los Sistemas de Recomendación son fundamentales para ayudar a los usuarios a navegar por grandes cantidades de información al ofrecer sugerencias personalizadas. Sin embargo, estos sistemas pueden presentar sesgos, especialmente cuando existen desequilibrios en los datos, lo que lleva a recomendaciones injustas que favorecen los elementos más populares o mayoritarios sobre los de los grupos minoritarios. Esta tesis explora la identificación, caracterización y mitigación del sesgo algorítmico dentro de los Sistemas de Recomendación. Esta investigación se centra en abordar los sesgos que surgen de los desequilibrios de datos y cómo estos sesgos pueden llevar a un tratamiento injusto de ciertos grupos, particularmente en términos de visibilidad y exposición en las recomendaciones. El objetivo principal de la tesis es mitigar el sesgo algorítmico en los Sistemas de Recomendación para producir listas de recomendaciones más justas y equitativas, a través de técnicas de mitigación de sesgo de posprocesamiento (por ejemplo, reclasificar los resultados de las recomendaciones para garantizar la imparcialidad). Esto incluye la identificación y categorización de sesgos en los conjuntos de datos, el diseño de estrategias para mitigar estos sesgos y el desarrollo de técnicas para optimizar los algoritmos de recomendación para reducir el sesgo. Las principales contribuciones de esta tesis son cinco, divididas en dos partes temáticas. La primera parte temática se centra en la Equidad del Proveedor y la segunda parte temática en la Equidad desde Múltiples Perspectivas. En relación con la primera parte temática, se han realizado dos contribuciones. En la primera, se adoptó un Enfoque Binario, categorizando el sesgo geográfico o desequilibrio aso­ ciado al país de producción de los artículos e identificando dos grupos de proveedores (mayoría versus resto), y en función de la distribución observada en el conjunto de entrenamiento original, se ajustan las recomendaciones para alinearse con estos grupos, con el objetivo de mitigar el sesgo de disparidad. En la segunda contribución, explicamos el proceso de categorización y mitigación de sesgos utilizando un Enfoque Multi-Clase. Exploramos cómo los algoritmos de recomendación pueden exacerbar los sesgos al promover artículos de ciertas regiones, lo que podría perjudicar a grupos geográficos subrepresentados. En relación con la segunda parte temática, se han realizado tres contribuciones. La primera contribución presenta CONFIGRE, una nueva metodología diseñada para garantizar la equidad en los Sistemas de Recomendación al equilibrar la visibilidad entre grupos demográficos de grano grueso y fino. En la segunda contribución presentamos MOReGin, un nuevo enfoque para gestionar múltiples objetivos en Sistemas de Recomendación. Este método aborda específicamente el desafío de lograr tanto el equilibrio global como la equidad individual en las recomendaciones. Finalmente, en una contribución adicional, desarrollamos un nuevo conjunto de datos (AMBAR para música) que incluye atributos sensibles en varios niveles de granularidad. Además, ampliamos dos conjuntos de datos del mundo real (MovieLens-lM y Book-Crossing) con información geográfica para estudiar el vínculo entre el desequilibrio geográfico y el impacto dispar. Esta tesis avanza en la identificación, caracterización, mitigación y evaluación de sesgos en Sistemas de Recomendación colaborativos. Aborda las brechas existentes en el análisis de sesgos geográficos en diferentes configuraciones de grupos: desde grupos binarios, grupos multiclase hasta diferentes niveles de granularidad de grupos. Las contribuciones descritas establecen una base para futuros avances y una mitigación eficaz de los sesgos sin comprometer significativamente la precisión. Nuestros hallazgos, el software desarrollado y los recursos presentados en esta tesis están disponibles para la comunidad para facilitar la investigación y la transferencia de conocimientos.

Keywords

Tecnologia de la informació; Tecnología de la información; Information technology; Cercadors d'Internet; Buscadores de Internet; Web search engines; Processament de dades; Proceso de datos; Data processing

Subjects

004 - Computer science

Knowledge Area

Ciències Experimentals i Matemàtiques

Documents

EGY_PhD_THESIS.pdf

2.825Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc/4.0/

This item appears in the following Collection(s)