Detección de phishing en correos electrónicos mediante procesamiento de lenguaje natural del contenido y URLs ofuscadas

Cabezas Diaz, Adriana; Gutierrez Sisniegas, Jerome Zack Ricardo

dc.contributor.advisor	Ramos Ponce, Oscar Efraín
dc.contributor.author	Cabezas Diaz, Adriana
dc.contributor.author	Gutierrez Sisniegas, Jerome Zack Ricardo
dc.date.accessioned	2024-06-21T13:13:16Z
dc.date.available	2024-06-21T13:13:16Z
dc.date.issued	2023
dc.identifier.citation	Cabezas Diaz, A., & Gutierrez Sisniegas, J. Z. R. (2023). Detección de phishing en correos electrónicos mediante procesamiento de lenguaje natural del contenido y URLs ofuscadas [Tesis para optar el Título Profesional de Ingeniero de Sistemas, Universidad de Lima]. Repositorio Institucional de la Universidad de Lima. https://hdl.handle.net/20.500.12724/20761	es_PE
dc.identifier.uri	https://hdl.handle.net/20.500.12724/20761
dc.description.abstract	El phishing es un tipo de fraude informático común que, por medio de mensajes como correos electrónicos o similar, solicita el ingreso de información personal o el acceso a enlaces maliciosos. Frente a esta problemática, distintos autores han desarrollado modelos de detección de phishing en correos electrónicos basados en análisis de contenido que han demostrado tener altas tasas de detección. Sin embargo, los ciberdelincuentes aplican nuevas técnicas de phishing como el uso de URLs ofuscadas, que consiste en modificar la URL maliciosa para que parezca legítima mediante distintos métodos, como acortar la URL. La presente investigación tiene por objetivo general desarrollar dos métodos de detección de phishing en correos electrónicos mediante procesamiento de lenguaje natural, el primero enfocado en el análisis del contenido y el segundo enfocado en el análisis de URLs ofuscadas. Asimismo, se busca determinar cuál método incrementa la tasa de detección de phishing. Ambos modelos tienen una fase de preprocesamiento que extrae un conjunto de atributos relativos al contenido del correo electrónico y aplica técnicas de procesamiento de lenguaje natural sobre el contenido del correo electrónico. Para el entrenamiento de los modelos, se utilizaron tres datasets: “Enron”, “Spam Archive” y “Ebbu 2017”. Para la validación de los modelos, se tomaron en cuenta las métricas de precisión, sensibilidad, exactitud y puntaje del área debajo de la curva (AUC). Los modelos implementados lograron una precisión máxima del 97.02% y 98.70%. Además, se observó que los modelos propuestos presentaron resultados con una diferencia mínima para detectar phishing en correos electrónicos.	es_PE
dc.description.abstract	Phishing is a common type of computer fraud that, through methods like emails or similar messages, requests the input of personal information or access to malicious links. Faced with this issue, various authors have developed email phishing detection models based on content analysis that have demonstrated high detection rates. However, cybercriminals employ new phishing techniques such as the use of obfuscated URLs, which involve modifying malicious URLs to appear legitimate through various methods, such as URL shortening. The present research aims to develop two general methods for detecting phishing in emails using natural language processing. The first method focuses on content analysis, while the second concentrates on analyzing obfuscated URLs. Likewise, the objective is to determine which method enhances the phishing detection rate. Both models involve a preprocessing phase that extracts a set of attributes related to email content and applies natural language processing techniques to the email content. Three datasets, namely "Enron," "Spam Archive," and "Ebbu 2017," were used for model training. To validate the models, metrics such as precision, sensitivity, accuracy, and the area under the curve (AUC) score were considered. The implemented models achieved a maximum precision of 97.02% and 98.70%. Additionally, it was observed that the proposed models yielded results with minimal differences in detecting phishing in emails.	en_EN
dc.format	application/pdf
dc.language.iso	spa
dc.publisher	Universidad de Lima
dc.rights	info:eu-repo/semantics/openAccess	*
dc.rights.uri	https://creativecommons.org/licenses/by-nc-sa/4.0/	*
dc.source	Repositorio Institucional - Ulima	es_PE
dc.source	Universidad de Lima	es_PE
dc.subject	Fraude informático	en_EN
dc.subject	Correo electrónico	es_PE
dc.subject	Proceso en lenguaje natural (Informática)	es_PE
dc.title	Detección de phishing en correos electrónicos mediante procesamiento de lenguaje natural del contenido y URLs ofuscadas	es_PE
dc.type	info:eu-repo/semantics/bachelorThesis
thesis.degree.level	Título Profesional	es_PE
thesis.degree.discipline	Ingeniería de Sistemas	es_PE
thesis.degree.grantor	Universidad de Lima. Facultad de Ingeniería	es_PE
dc.publisher.country	PE
dc.type.other	Tesis
thesis.degree.name	Ingeniero de Sistemas	es_PE
renati.advisor.orcid	https://orcid.org/0000-0001-5185-9745
renati.discipline	612076
renati.author.dni	74847343
renati.author.dni	75414327
renati.level	https://purl.org/pe-repo/renati/level#tituloProfesional	*
renati.advisor.dni	44196581
renati.juror	Dávila Calle, Guillermo Antonio
renati.juror	Diaz Parra, Jose Raul
renati.juror	More Sanchez, Javier
renati.juror	Ramos Ponce, Oscar Efrain
renati.type	https://purl.org/pe-repo/renati/type#tesis	*
dc.subject.ocde	https://purl.org/pe-repo/ocde/ford#2.02.04
ulima.cat	009