Conceptos de estadística para traders – Distribución de probabilidad

Estadística, distribuciones y probabilidad

Comprender la estadística es una de las habilidades fundamentales que se requieren para el análisis cuantitativo. En el artículo de hoy se tratan dos conceptos básicos: Distribución y probabilidad.

Ambos conceptos están estrechamente relacionados. El concepto de probabilidad nos brinda un soporte para los cálculos matemáticos y las distribuciones nos ayudan a visualizar lo que está sucediendo con los datos.

Distribución de frecuencia e histograma

Comencemos por la parte más sencilla: Una distribución es simplemente una manera de describir el patrón de los datos.

Ejemplo simple: pensamos en los rendimientos diarios de una acción en bolsa o en los resultados de un backtest. Estos retornos son nuestros datos de muestra.

Para tener una visión más clara a estos rendimientos o rentabilidades podemos clasificarlos en intervalos de igual tamaño y contar el número de observaciones de cada intervalo. Si representamos estos resultados en un gráfico obtendremos lo que en estadística se llama un histograma de frecuencias. Los histogramas nos permiten tener un panorama general de cómo se han distribuido los retornos.

histograma distribución datos muestra

Además, a partir de esta distribución de frecuencias podremos conocer sus medidas de tendencia central de nuestra muestra.
– El valor que está en el centro de nuestro histograma nos indica la media aritmética de los datos (el rendimiento medio).
– La mediana parte la distribución en dos dejando la misma cantidad de valores a un lado que a otro.

También podremos ver qué tan variables han sido los resultados (medidas de dispersión). La volatilidad de los retornos se mide con la desviación estándar o desviación típica.

Por último también podremos ver la forma que tiene la distribución: si es una distribución simétrica, si tiene «colas más gordas» (léase resultados más extremos) de lo que debería, etc.
Vamos a ver estas características con mayor detalle:

Características de una distribución

Asimetría estadística

Un aspecto muy importante es la simetría de la distribución. «Si una distribución es simétrica, existe el mismo número de valores a la derecha que a la izquierda de la media, por tanto, el mismo número de desviaciones con signo positivo que con signo negativo.
Decimos que hay asimetría positiva (o a la derecha) si la «cola» a la derecha de la media es más larga que la de la izquierda, es decir, si hay valores más separados de la media a la derecha. Diremos que hay asimetría negativa (o a la izquierda) si la «cola» a la izquierda de la media es más larga que la de la derecha, es decir, si hay valores más separados de la media a la izquierda». Fuente wikipedia:

distribución estadística y asimetría
Fuente: Original uploader was Godot at en.wikipediaderivative work: Tartaglia (talk) – Skewness_Statistics.svg, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=6410277

Cuando hablamos de sistemas de trading, un sistema puede tener una asimetría negativa o positiva según cómo sean sus características. Para mí, el ejemplo más evidente es cuando analizamos la distribución entre los resultados de un sistema tendencial comparado a los resultados de un sistema de reversión a la media. En el primer caso, nuestra muestra tendría una simetría positiva (cuando acierta gana mucho y los retornos se alejan del valor medio media, cuando no acierta pierde poco y los valores a la izquierda de la media no están muy alejados de esta). En el segundo caso sería a la inversa.

Curtosis

La curtosis es una medida estadística que determina el grado de concentración de los valores de una distribución alrededor de su media.

El coeficiente de curtosis indica si la distribución tiene colas «pesadas», es decir, si los valores extremos concentran o no una alta frecuencia. El coeficiente mide el «grado de apuntamiento o achatamiento de las colas» respecto a la distribución normal.

Entonces, si tomamos la distribución normal como referencia, una distribución puede ser: leptocúrtica, platicúrtica o mesocúrtica.


Distribución de probabilidad

Hasta aquí simplemente hemos estados analizando los datos de nuestra muestra (en el ejemplo, los resultados de las operaciones) utilizando estadística descriptiva. Sin embargo, tal y como comentábamos en nuestro artículo sobre las series temporales y la inversión cuantitativa, cuando trabajamos con los datos buscamos algo más que simplemente describirlos. Buscamos poder predecir cómo se comportará esa serie de datos en el futuro. Para esto echamos mano de la teoría de la probabilidad y la estadística inferencial. A partir los resultados de una muestra, buscamos extraer conclusiones para el total de la población.

Definición formal: qué es una distribución de probabilidad

Si nos vamos a la Wikipedia, podemos aprender que:

En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los sucesos y cada uno de los sucesos es el rango de valores de la variable aleatoria. También puede decirse que tiene una relación estrecha con las distribuciones de frecuencia. De hecho, una distribución de probabilidades puede comprenderse como una frecuencia teórica, ya que describe cómo se espera que varíen los resultados.
La distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada x real es la probabilidad de que la variable aleatoria sea menor o igual que x.

(Source: Wikipedia)

¿Cómo podemos interpretar esto a nivel práctico ?
Si los retornos de nuestra muestra encajan con la distribución normal, entonces la media y la desviación estándar es lo único que necesitamos para calcular probabilidades sobre la rentabilidad y el riesgo. Un poco más abajo en el artículo, explicamos esto con mayor detalle.

La distribución normal y los modelos de probabilidad

Existen numerosos tipos de distribución de variables. En este artículo solo nos vamos a ocupar de la distribución normal, que es el tipo de distribución más conocido y sobre el que se asientan la mayoría de modelos de probabilidad.
Para describirla solo se necesitan dos parámetros: la media aritmética (que define el valor central) y la desviación estándar (que describe el ancho de la campana).

distribución normal
Distribución normal ilustración

Antes comentaba que para modelizar el riesgo lo único necesario es conocer la media y la desviación estándar. Esto es así porque la distribución de probabilidad asigna una probabilidad a cada posible resultado de un experimento. La función de probabilidad que se mencionaba antes en el extracto de la Wikipedia, es un concepto matemático que nos permite utilizar el área debajo de la curva para representar el espacio de probabilidad.

Podemos entender intuitivamente que aquellos valores que están más distantes de la media se repiten con menos frecuencia, mientras que aquellos valores más cercanos a la media son mucho más frecuentes. De esta forma se pueden definir intervalos de probabilidad dentro de los cuales podremos encontrar la rentabilidad del total de la muestra.
Este tipo de análisis es el que utiliza el modelo de VaR (Value at risk) para evaluar la probabilidad del riesgo de una inversión.

Como vemos en la imagen superior, dentro del intervalo del valor de la media menos una desviación estándar y media más una desviación estándar se encuentra el 68.3% de la distribución (color verde en la ilustración). Si nos movemos dos desviaciones a cada lado, obtenemos el 95.4% de todos los valores de la distribución.

La volatilidad, que en este caso está medida por el valor de la desviación estándar, es una medida de incertidumbre (riesgo). Esta incertidumbre está relacionada con la probabilidad de obtener un rendimiento que sea igual al rendimiento esperado (la media).
Como podemos ver en la imagen de ejemplo de debajo, para el mismo rendimiento esperado, la curva se aplana cuando la volatilidad es más grande mientras que se vuelve más delgada y más alta cuando la volatilidad disminuye. Un activo cuya rentabilidad tiene una desviación estándar más alta se considera más volátil, y por lo tanto, más arriesgado que un activo con una volatilidad más baja.

distribución de probabilidad

Otras notas

  • Cuando hablamos de una distribución de toda la población, las propiedades (media, desviación típica, etc) son parámetros. Cuando hablamos de la distribución de la muestra, las propiedades son estadísticas.
  • ¿Por qué utilizar distribuciones estadísticas para medir el riesgo, si al final los resultados no se ajustan a un modelo de distribución? Porque estás trabajando con modelos. Tener un marco teórico en el que asentar una estrategia de inversión cuantitativa añade solidez al conjunto.

Para terminar mi cita favorita de Box:

«En esencia, todos los modelos están equivocados, pero algunos son útiles»

George Edward Pelham Box

¿Te interesa la inversión en bolsa o el trading en general? Entonces recuerda que puedes suscribirte al blog y recibirás nuestros artículos directamente como newsletter en tu correo.

Además nos puedes seguir, comentar y compartir por Twitter, Feedly, Facebook,…

Deja un comentario

ESTRATEGIAS DE TRADING