Algoritmos de Data Mining para agrupar datos – Clustering Jerárquico

Algoritmo de clustering jerárquico

El Clustering Jerárquico (agrupamiento jerárquico o Hierarchical Clustering en inglés), es un método de data mining para agrupar datos (en minería de datos a estos grupos de datos se les llama clústers).
El algortimo de clúster jerárquico agrupa los datos basándose en la distancia entre cada uno y buscando que los datos que están dentro de un clúster sean los más similares entre sí.

En una representación gráfica los elementos quedan anidados en jerarquías con forma de árbol.
Lo mejor para explicarlo es una imagen. Así que para ilustrar mejor este tema de agrupación en categorías voy a retomar un ejemplo gráfico muy difundido – y a la vez es el más descriptivo que he encontrado – que es el que exponen en la Wikipedia.
En la primera imagen vemos cómo están distribuidos los datos y a qué distancia se encuentran unos de otros. En la segunda, vemos un ejemplo de clustering jerárquico dónde los datos se agrupan en función de la distancia (en este caso distancia euclidiana) entre ellos.

Agrupamiento jerárquico
Fuente: Wikipedia – Agrupamiento jerárquico
Ejemplo clúster jerárquico forma árbol
Cluster jerárquico en forma de árbol


Al igual que el método de K-Means (aquí puedes ver una introducción al método K-Means publicada en esta web), los algoritmos de agrupamiento jerárquico están dentro de la categoría de algoritmos de aprendizaje no supervisado.

Leer más

Acciones del SP500 por sectores – Ejemplo de K-Means con Python

K- Means: Clustering de acciones

Para continuar con el artículo anterior sobre K-Means, hoy quería ver un lado un poco más práctico. La idea es utilizar minería de datos aplicada a un problema de diversificación y agrupación sectorial de las acciones (no me olvido que en este blog se habla sobre inversión y trading cuantitativo, así que intento no perder demasiado el foco).
En este artículo, como técnica de clustering, utilizaremos el algoritmo K-Means con Python.

Comenzamos:

Leer más

K-Means Clustering: Agrupamiento con Minería de datos

introducción a K-Means

Vamos a comenzar con una pequeña introducción a algunas técnicas de data mining. En el artículo de hoy hablaremos especialmente del algoritmo de agrupamiento (en inglés, clustering) con el método de K-Means.

Como en Estrategias de Trading nos interesamos por sistemas de inversión cuantitativa, nos enfocaremos especialmente en cómo podemos aplicar K-Means para mejorar los métodos de inversión

Comenzamos:

¿De qué hablamos cuando hablamos de Data Mining?

Cuando utilizamos técnicas de minería de datos no nos interesamos por los datos fundamentales o la lógica de los mecanismos en los que se mueve el mercado. Simplemente «exprimimos» datos.

Una definición más formal sobre qué es data mining nos dice:

Leer más