Simplemente o haré una pequeña introducción de en qué consisten los Árboles de Decisión dejando el detalle de su funcionamiento par la segunda parte de este post.
Los Árboles de Decisión (AD) son una técnica inductiva mixta que consiste en crear una estructura de árbol que clasifique una serie de datos iniciales en determinados grupos o clases de forma que a posteriori pueda clasificar nuevos datos que le sean presentados. Es decir, a partir de una serie de datos iniciales se crea una estructura de árbol que permitirá clasificar o predecir a que clase o grupo pertencen los datos que se presenten en un futuro. Precisamente su nombre indica su funcionamiento: cuando se le presenta un dato al algoritmo, éste lo va procesando por cada nodo de árbol y "decide" la rama del nodo por la que continuar en función de cómo decida clasificarlo.
Los AD constan de dos elementos básicos: los nodos de decisión y los nodos hojas. Los nodos de decisión son aquellos que representan un atributo de los datos (por ejemplo, el color). De estos nodos salen tantas ramas como valores tenga el atributo (rojo, azul, verde,...) y a su vez van a parar bien a otro nodo de decisión o a un nodo hoja. Los nodos hoja son los nodos finales del árbol y representan el grupo o clase a la que pertence el dato o ejemplo.
Para construir un AD lo que hace el algoritmo con los datos iniciales es ir construyendo los nodos de decisión y sus ramas a partir de los atributos hasta llegar a los nodos hoja. Cuando se quiere clasificar un nuevo dato en un futuro simplemente se presenta éste al AD y se va procesando por cada nodo derivándolo por donde correponda, hasta llegar al nodo hoja que indique a que grupo pertence.
En la segunda parte de este post veremos el algoritmo con detalle, podréis ver como funciona y comprobar su utilidad en ciertos campos como pueden ser la minería de datos, clasificaciones o predicciones.
Los AD vienen ya implementados en diversas bases de datos comerciales en las soluciones que ofrecen para Business Intelligence y Data Mining, aunque siempre está bien poder programarlos para usarlos en diversos tipos de proyectos.
No hay comentarios:
Publicar un comentario