viernes, 18 de enero de 2013

Gráficas: una herramienta insustituible...



Los conjuntos de datos  con los que nos encontramos hoy en día suelen ser  muchísimo más grandes de lo que eran hace sólo unos años. Se ha generalizado, por una parte, la publicación de datos por organismos a distintos niveles y por otra parte la adquisición automática de datos. Es por lo tanto fácil, al interesarnos por un fenómeno, que nos enfrentemos a ficheros que contienen miles o decenas de miles de registros. Lo recomendable entonces, es sistematizar nuestro acercamiento al conjunto, esforzándonos por adquirir al principio una visión general  para a continuación, ir adentrándonos en él, seleccionando subconjuntos y sub-subconjuntos o centrándonos en unas variables concretas, un poco a la manera de un explorador, que se esforzara, ante un área por descubrir, por encontrar un punto de vista elevado desde donde hacerse una idea global, para después ir recorriendo zonas más concretas abriéndose camino hasta lugares recónditos. Siguiendo la similitud, el machete del explorador es, para el estadístico, su capacidad de generar gráficas pertinentes y reveladoras. No es por lo tanto de extrañar que esta capacidad se haya convertido en una rama con entidad propia dentro de la estadística. Se han propuesto maneras muy ingeniosas y impactantes de visualizar con colores, animación o  símbolos, conjuntos con muchas variables y factores, buscando aliviar nuestra limitación de representación, que son las tres dimensiones que todos conocemos.   Un ejemplo particularmente conseguido, en mi opinión, de estas nuevas maneras de ver los datos es el  programa de uso gratuito, llamado Gapminder lanzado por el prof. Hans Rossling y colaboradores de Estocolmo,  que fue adquirido por Google desde 2007, y que permite retratar nuestro mundo usando datos de salud pública, economía, medio-ambiente, educación, es decir en general de campos indicativos del desarrollo de los países. El sitio web de la Fundación Gapminder es una mina de recursos interesantísimos, con vídeos, consejos, ejemplos que permiten ilustrar cómo una buena visualización de los conjuntos de datos permite evidenciar tendencias, patrones y sacar información.

Es posible implementar sus propias gráficas dinámicas, con resultados muy atractivos, y emular así Hans Rossling y Gapminder. Para ello, se puede recurrir a applicaciones de Google (Google apps), para generar código html  que contenga la gráfica deseada y que pueda ser incorporado en una página web (como ésta o en un blog por ejemplo).


Existen dos maneras, que yo sepa, de generar estos bloques de código html:
  1. Desde un Google doc, de tipo hoja de cálculo, que contenga los datos que queramos representar. Para ello es necesario disponer de una cuenta Google (es gratis).  Si se dispone por ejemplo de una cuenta de correo gmail,  ya dispone también de una cuenta Google, usando el mismo usuario y clave. En la hoja de cálculo, los datos deben ser organizados de la siguiente manera: la primera columna tiene que contener las etiquetas correspondientes a cada una de los globos que aparecerán en la gráfica. La segunda columna debe contener una variable temporal. A partir de la tercera columna, se presentan las variables (numéricas normalmente). Por defecto, la gráfica se genera con la tercera columna en el eje Ox y la cuarto columna en el eje Oy, pero si hay más variables numéricas, se puede cambiar las variables representadas en esos ejes usando los selectores que aparecen en la gráfica. 


  1. Desde R, el programa de código abierto de análisis  y representación gráfica de datos, usando el paquete googleVis, que permite usar las gráficas de Google apps. Por ejemplo, para un conjunto de datos, cuyos valores están recogidos en un fichero texto llamado "viviendas.csv", con campos separados por ";" y cuyo separador decimal es "," que además contiene los nombres de las variables en 
library(googleVis)
viviendas=read.table("viviendas.csv",sep=";",dec=",",header=TRUE)
Motion=gvisMotionChart(viviendas, idvar="CCAA", timevar="AÑO")
plot(Motion)

Ejemplo: evolución de la popularidad de los nombres en España según la década

Se pueden descargar desde el INE (enlace) los datos de frecuencia de nombres masculinos o femeninos por década, desde principios del siglo XX. 
Es  curioso jugar con esta gráfica y observar cómo ha evolucionado la popularidad de los nombres tradicionales y ha ido apareciendo nombres nuevos....
La gráfica dinámica que encabeza esta entrada del blog recoge la evolución de las frecuencia de nombres masculinos en España desde 1920...


No hay comentarios:

Publicar un comentario