Comparison of classifiers models for prediction of intimate partner violence

Guerrero Muguerza, Ashly Mercedes

Ver/

Tesis
(application/pdf: 238.6Kb)

Fecha

2021

Resumen

Intimate partner violence (IPV) is a problem that has been studied by different researchers to determine the factors that influence its occurrence, as well as to predict it. In Peru, 68.2% of women have been victims of violence, of which 31.7% were victims of physical aggression, 64.2% of psychological aggression, and 6.6% of sexual aggression. Therefore, in order to predict psychological, physical and sexual intimate partner violence in Peru, the database of denouncements registered in 2016 of the “Ministerio de la Mujer y Poblaciones Vulnerables” was used. This database is comprised of 70510 complaints and 236 variables concerning the characteristics of the victim and the aggressor. First of all, we used Chi-squared feature selection technique to find the most influential variables. Next, we applied the SMOTE and random under sampling techniques to balance the dataset. Then, we processed the balanced dataset using cross validation with 10 folds on Multinomial Logistic Regression, Random Forest, Naive Bayes and Support Vector Machines classifiers to predict the type of partner violence and compare their results. The results indicate that the Multinomial Logistic Regression and Support Vector Machine classifiers performed better on different scenarios with different feature subsets, whereas the Naïve Bayes classifier showed inferior. Finally, we observed that the classifiers improve their performance as the number of features increased.

La violencia de pareja íntima (VPI) es un problema que ha sido estudiado por diferentes investigadores para determinar los factores que influyen en su ocurrencia, así como para predecirlo. En Perú, el 68,2% de las mujeres han sido víctimas de violencia, de las cuales el 31,7% fueron víctimas de agresión física, el 64,2% de agresión psicológica y el 6,6% de agresión sexual. Por lo tanto, para predecir la violencia psicológica, física y sexual de la pareja íntima en el Perú, se utilizó la base de datos de denuncias registradas en 2016 del “Ministerio de la Mujer y Poblaciones Vulnerables”. Esta base de datos está compuesta por 70510 quejas y 236 variables relativas a características de la víctima y del agresor. En primer lugar, utilizamos la técnica de selección de características de chi-cuadrado para encontrar las variables más influyentes. A continuación, aplicamos las técnicas de muestreo SMOTE y aleatorio para equilibrar el conjunto de datos. Luego, procesamos el conjunto de datos balanceado usando validación cruzada con 10 pliegues en los clasificadores Regresión logística multinomial, Bosque aleatorio, Bayes ingenuo y Máquinas de vectores de apoyo para predecir el tipo de violencia de pareja y comparar sus resultados. Los resultados indican que los clasificadores de Regresión logística multinomial y Máquina de vectores de soporte se desempeñaron mejor en diferentes escenarios con diferentes subconjuntos de características, mientras que el clasificador Naïve Bayes mostró resultados inferiores. Finalmente, observamos que los clasificadores mejoran su rendimiento a medida que aumenta el número de características.

URI

https://hdl.handle.net/20.500.12724/13841

Cómo citar

Guerrero Muguerza, A. M. (2021). Comparison of classifiers models for prediction of intimate partner violence [Tesis para optar el Título Profesional de Ingeniero de Sistemas, Universidad de Lima]. Repositorio institucional de la Universidad de Lima. https://hdl.handle.net/20.500.12724/13841

Editor

Universidad de Lima

Temas

Prospectiva
Violencia contra las mujeres
Acoso moral
Violence against women
Bullying
Forecasting

Coleccion(es)

Tesis [78]

El ítem tiene asociados los siguientes ficheros de licencia:

Creative Commons