Estudio sobre la cantidad mínima de muestras de entrenamiento para la clasificación de modelos vehiculares

Castañeda Haro, Carlos Enrique

Ver/

Tesis
(application/pdf: 383.7Kb)

Autorización
(application/pdf: 182.8Kb)

Reporte de similitud
(application/pdf: 4.739Mb)

Fecha

2022

Resumen

La clasificación de objetos es uno de los campos de estudios más importantes de los últimos años y está asociado a la similitud de características entre los objetos y al continuo crecimiento de los conjuntos de datos de entrenamiento. En base a ello, aumentar el número de muestras de entrenamiento mejora el rendimiento de los clasificadores. Sin embargo, no hay estudios que determinen un estimado de cuántas muestras de entrenamiento son necesarias para generar clasificadores robustos. En esta investigación se intenta responder esta pregunta, enfocando el problema en la clasificación por marca y modelo vehicular. Para ello, se creó un conjunto de datos compuesto por 32 modelos vehiculares diferentes y se utilizó la red VGG16 para la tarea de extracción de características. Asimismo, se utilizaron los algoritmos de clasificación Máquinas de Vector Soporte (SVM), Bosques Aleatorios (RF), Árboles de Decisión (DT) y Naive Bayes (NB). Se realizaron conjunto de entrenamientos en los que se variaron el número de muestras de entrenamiento y el número de categorías a clasificar por cada algoritmo. En estos experimentos, el algoritmo SVM fue el de mayor precisión con un 96.82% para el caso de 32 modelos vehiculares diferentes. Finalmente, se determinó que a medida que se aumenta el número de modelos vehiculares a clasificar, es necesario aumentar las muestras de entrenamiento para estabilizar la precisión, y que el número mínimo de muestras para este comportamiento es de 400 muestras para el escenario de 2 categorías y de 700 muestras para el resto de los escenarios con más categorías.

Object classification is one of the most important fields of study in recent times and it is associated with the similarity between objects and the continuous growth of training data sets. Based on this, increasing the number of training samples improves the performance of the classifiers. However, there are no studies that determine an estimate of how many training samples are necessary to develop solid classifiers. This research attempts to answer this question, focusing the problem on vehicle make and model recognition (VMMR). To do this, a data set composed of 32 different vehicle models was created and the VGG16 network was used for the feature extraction task. Likewise, the Support Vector Machine (SVM), Random Forest (RF), Decision Trees (DT) and Naive Bayes (NB) classification algorithms were used. A set of experiments were carried out in which the number of training samples and the number of categories to be classified by each algorithm were varied. In these experiments, the SVM algorithm was the most accurate with 96.82% for the case of 32 different vehicle models. Finally, it was determined that as the number of vehicle models to be classified is increased, it is necessary to increase the training samples, to stabilize the precision, and that the minimum number of training samples for this stabilization is 400 samples for the scenario of 2 categories and 700 samples for the rest of the scenarios with more categories.

URI

https://hdl.handle.net/20.500.12724/18078

Cómo citar

Castañeda Haro, C. E. (2022). Estudio sobre la cantidad mínima de muestras de entrenamiento para la clasificación de modelos vehiculares [Tesis para optar el Título Profesional de Ingeniero de Sistemas, Universidad de Lima]. Repositorio institucional de la Universidad de Lima. https://hdl.handle.net/20.500.12724/18078

Editor

Universidad de Lima

Temas

Automóviles
Marcas comerciales
Visión por computadora
Vehicles
Trademarks
Computer vision

Coleccion(es)

Tesis [78]

El ítem tiene asociados los siguientes ficheros de licencia:

Creative Commons

Excepto si se señala otra cosa, la licencia del ítem se describe como info:eu-repo/semantics/openAccess