Detección de phishing en correos electrónicos mediante procesamiento de lenguaje natural del contenido y URLs ofuscadas
Ver/
Tesis
(application/pdf: 766.0Kb)
(application/pdf: 766.0Kb)
Autorización
(application/pdf: 218.6Kb)
(application/pdf: 218.6Kb)
Reporte de similitud
(application/pdf: 5.802Mb)
(application/pdf: 5.802Mb)
Fecha
2023Asesor(es)
Metadatos
Mostrar el registro completo del ítemResumen
El phishing es un tipo de fraude informático común que, por medio de mensajes como correos electrónicos o similar, solicita el ingreso de información personal o el acceso a enlaces maliciosos. Frente a esta problemática, distintos autores han desarrollado modelos de detección de phishing en correos electrónicos basados en análisis de contenido que han demostrado tener altas tasas de detección. Sin embargo, los ciberdelincuentes aplican nuevas técnicas de phishing como el uso de URLs ofuscadas, que consiste en modificar la URL maliciosa para que parezca legítima mediante distintos métodos, como acortar la URL. La presente investigación tiene por objetivo general desarrollar dos métodos de detección de phishing en correos electrónicos mediante procesamiento de lenguaje natural, el primero enfocado en el análisis del contenido y el segundo enfocado en el análisis de URLs ofuscadas. Asimismo, se busca determinar cuál método incrementa la tasa de detección de phishing. Ambos modelos tienen una fase de preprocesamiento que extrae un conjunto de atributos relativos al contenido del correo electrónico y aplica técnicas de procesamiento de lenguaje natural sobre el contenido del correo electrónico. Para el entrenamiento de los modelos, se utilizaron tres datasets: “Enron”, “Spam Archive” y “Ebbu 2017”. Para la validación de los modelos, se tomaron en cuenta las métricas de precisión, sensibilidad, exactitud y puntaje del área debajo de la curva (AUC). Los modelos implementados lograron una precisión máxima del 97.02% y 98.70%. Además, se observó que los modelos propuestos presentaron resultados con una diferencia mínima para detectar phishing en correos electrónicos. Phishing is a common type of computer fraud that, through methods like emails or similar messages, requests the input of personal information or access to malicious links. Faced with this issue, various authors have developed email phishing detection models based on content analysis that have demonstrated high detection rates. However, cybercriminals employ new phishing techniques such as the use of obfuscated URLs, which involve modifying malicious URLs to appear legitimate through various methods, such as URL shortening. The present research aims to develop two general methods for detecting phishing in emails using natural language processing. The first method focuses on content analysis, while the second concentrates on analyzing obfuscated URLs. Likewise, the objective is to determine which method enhances the phishing detection rate. Both models involve a preprocessing phase that extracts a set of attributes related to email content and applies natural language processing techniques to the email content. Three datasets, namely "Enron," "Spam Archive," and "Ebbu 2017," were used for model training. To validate the models, metrics such as precision, sensitivity, accuracy, and the area under the curve (AUC) score were considered. The implemented models achieved a maximum precision of 97.02% and 98.70%. Additionally, it was observed that the proposed models yielded results with minimal differences in detecting phishing in emails.
Cómo citar
Cabezas Diaz, A., & Gutierrez Sisniegas, J. Z. R. (2023). Detección de phishing en correos electrónicos mediante procesamiento de lenguaje natural del contenido y URLs ofuscadas [Tesis para optar el Título Profesional de Ingeniero de Sistemas, Universidad de Lima]. Repositorio Institucional de la Universidad de Lima. https://hdl.handle.net/20.500.12724/20761Editor
Universidad de LimaColeccion(es)
- Tesis [52]