Estudio sobre la cantidad mínima de muestras de entrenamiento para la clasificación de modelos vehiculares
View/ Open
Tesis
(application/pdf: 383.7Kb)
(application/pdf: 383.7Kb)
Autorización
(application/pdf: 182.8Kb)
(application/pdf: 182.8Kb)
Reporte de similitud
(application/pdf: 4.739Mb)
(application/pdf: 4.739Mb)
Date
2022Author(s)
Advisor(s)
Metadata
Show full item recordAbstract
La clasificación de objetos es uno de los campos de estudios más importantes de los últimos años y está asociado a la similitud de características entre los objetos y al continuo crecimiento de los conjuntos de datos de entrenamiento. En base a ello, aumentar el número de muestras de entrenamiento mejora el rendimiento de los clasificadores. Sin embargo, no hay estudios que determinen un estimado de cuántas muestras de entrenamiento son necesarias para generar clasificadores robustos. En esta investigación se intenta responder esta pregunta, enfocando el problema en la clasificación por marca y modelo vehicular. Para ello, se creó un conjunto de datos compuesto por 32 modelos vehiculares diferentes y se utilizó la red VGG16 para la tarea de extracción de características. Asimismo, se utilizaron los algoritmos de clasificación Máquinas de Vector Soporte (SVM), Bosques Aleatorios (RF), Árboles de Decisión (DT) y Naive Bayes (NB). Se realizaron conjunto de entrenamientos en los que se variaron el número de muestras de entrenamiento y el número de categorías a clasificar por cada algoritmo. En estos experimentos, el algoritmo SVM fue el de mayor precisión con un 96.82% para el caso de 32 modelos vehiculares diferentes. Finalmente, se determinó que a medida que se aumenta el número de modelos vehiculares a clasificar, es necesario aumentar las muestras de entrenamiento para estabilizar la precisión, y que el número mínimo de muestras para este comportamiento es de 400 muestras para el escenario de 2 categorías y de 700 muestras para el resto de los escenarios con más categorías. Object classification is one of the most important fields of study in recent times and it is associated with the similarity between objects and the continuous growth of training data sets. Based on this, increasing the number of training samples improves the performance of the classifiers. However, there are no studies that determine an estimate of how many training samples are necessary to develop solid classifiers. This research attempts to answer this question, focusing the problem on vehicle make and model recognition (VMMR). To do this, a data set composed of 32 different vehicle models was created and the VGG16 network was used for the feature extraction task. Likewise, the Support Vector Machine (SVM), Random Forest (RF), Decision Trees (DT) and Naive Bayes (NB) classification algorithms were used. A set of experiments were carried out in which the number of training samples and the number of categories to be classified by each algorithm were varied. In these experiments, the SVM algorithm was the most accurate with 96.82% for the case of 32 different vehicle models. Finally, it was determined that as the number of vehicle models to be classified is increased, it is necessary to increase the training samples, to stabilize the precision, and that the minimum number of training samples for this stabilization is 400 samples for the scenario of 2 categories and 700 samples for the rest of the scenarios with more categories.
How to cite
Castañeda Haro, C. E. (2022). Estudio sobre la cantidad mínima de muestras de entrenamiento para la clasificación de modelos vehiculares [Tesis para optar el Título Profesional de Ingeniero de Sistemas, Universidad de Lima]. Repositorio institucional de la Universidad de Lima. https://hdl.handle.net/20.500.12724/18078Publisher
Universidad de LimaCategory / Subcategory
Ingeniería de sistemas / Tecnologías de la informaciónCollections
- Tesis [48]
The following license files are associated with this item: