martes, 21 de enero de 2014

"How happy are you?", una fuente apasionante de datos: la European Social Survey


Cada dos años, se realiza desde 2002 una gran encuesta llamada European Social Survey (ESS) cuyo objetivo es medir las actitudes, creencias y patrones de comportamiento de las poblaciones de más de 30 naciones.  Cubren muchísimos aspectos de la vida, valores y opiniones de los europeos y  me parece una fuente apasionante de información y de ejemplos para nuestros alumnos....
La descubrí al escuchar un programa altamente recomendable en la BBC: "More or less"   animado por Tim Hafford sobre estadística y números en la vida pública, las noticias y la política. Procuro no perderme ni un episodio! El 27 de diciembre, el tema del programa era "Numbers of the year" y David Spiegelhalter dijo que su número de 2013 era 7.5 la puntuación media en la respuesta (escala de 0 a 10) de los ciudadanos británicos a la pregunta "Are you happy?", en la ESS de 2012...
Después de registrarse, cualquiera puede descargarse los datos por paises y/o tema, y he decidido aprovechar algunas preguntas para ejemplos en mis clases.
Por una parte, he preparado un archivo con la respuesta a la pregunta "How happy are you?" (media, desviación típica, error estándar, tamaño  muestral) para cada pais en los seis años que se hizo esta pregunta (2002 to 2012). 
Está disponible en este enlace.
Uso ggplot2, con los alumnos para obtener, usando el código siguiente (menos algunos retoques estéticos), la  gráfica que aparece un poco más abajo (con intervalos de confianza al 95%):



He seleccionado unos pocos paises, entre los que parece que España destacaba por su felicidad en los años 2006, 2008 y 2010, siendo superior por ejemplo a Alemania, pero que en 2012, ambos paises tienen una percepción parecida de su felicidad...

Pero también hay otras preguntas muy interesantes. He seleccionado por ejemplo las preguntas sobre estado de ánimo en la última semana
  1. "Felt anxious, how often past week"   
  2. "Had lot of energy, how often past week"
  3. "Could not get going, how often past week" 
  4. "Enjoyed life, how often past week" 
  5. "Felt lonely, how often past week" 
  6. "Were happy, how often past week"
  7. "Sleep was restless, how often past week" 
  8. "Felt everything did as effort, how often past week" 
  9. "Felt depressed, how often past week" 
A la que la respuesta podía ser "None or almost none of the time", "Some of the time", "Most of the time", "All or almost all of the time".
He preparado un fichero csv que puede ser cargado fácilmente en R. Se puede descargar en este enlace.
Aprovecho este conjunto para ilustrar distintos elementos de ggplot2, por ejemplo comparamos las frecuencias de respuestas en las distintas preguntas de Almania y España, con el siguiente código:
Obtenemos la gráfica:
Sorprendente, no? Parece que los alemanes están de mejor ánimo que los españoles en casi todas las preguntas! La distribución es parecida, menos en la pregunta "Had lot of energy, how often past week?" en los alemanes salen mucho más favorecidos(61% de los alemanes declaran haberse sentido llenos de energía la mayor parte del tiempo o siempre en la semana pasada, contra solamente 35% de los españoles...) y en la pregunta "Felt everything did as effort, how often last week? (donde el 52% de los españoles dicen que nunca se sintieron como si todo le costara esfuerzo en la semana pasada, contra el 36% de los alemanes..)

lunes, 30 de diciembre de 2013




El último "Sabías que..." del año me ha sido proporcionado por Paula Navarro, doctorando en la Universidad de Cantabria..

Sabías que.... la estadística bayesiana se usa para interpretar las dataciones de Carbono-14?


En arqueología se puede determinar la edad de los materiales que contienen carbono a través de la datación por radiocarbono o Carbono-14. Para interpretar estas dataciones se requiere de métodos y herramientas estadísticas por diversos motivos. Primeramente, hay que aunar la información de un gran número de dataciones. Además como el Carbono-14 es el isótopo natural del Carbono más inestable, hay que tener en cuenta sus variaciones. Para ello se emplean las llamadas curvas de calibración. Por tanto, una vez calibradas, las dataciones tienen funciones de densidad que no están normalmente distribuidas, luego los métodos estadísticos clásicos no pueden ser aplicados. 

Además se puede mejorar la interpretación de las dataciones añadiendo información procedente de la estratigrafía, estudio de los materiales, agrupamiento de unidades estratigráficas en fases ordenadas o no, etc. Esto se logra introduciendo dicha información como distribuciones de probabilidad, es decir, como probabilidades a priori de los modelos estadísticos bayesianos.

Fuente: Steier P, Rom W. 2000. The use of Bayesian statistics for 14C dates of chronologically ordered samples: a critical analysis. Radiocarbon 42(2): 183-98
Ramsey C B. 2009. Bayesian analysis of radiocarbon dates. Radiocarbon 51(1): 337-360

lunes, 23 de diciembre de 2013

2013: Año Internacional de la Estadística. ¿Sabías que...?



Los censos de población, edificios y viviendas están entre las operaciones más importantes de la estadística oficial, tanto por la amplitud del trabajo requerido como por la larga tradición de la que proceden. En España por ejemplo, en los reinos de Taifas, entre los siglos XI y XII, ya se utilizaban para establecer los tributos que debían pagar cristianos, musulmanes y judíos. Sin embargo, se considera que el primer censo moderno fue llevado a cabo en 1768 por el Conde de Aranda, bajo el reinado de Carlos III, con fines fiscales y militares. Desde entonces se han organizado 20 censos: tres en el siglo XVIII, cinco en el siglo XIX, diez en siglo XX, y dos en el siglo XXI (2001 y 2011). El censo de 2011, cuyos resultados completos están disponibles desde hace unos días, presenta varias novedades importantes. Por una parte, es el primero en el que no se interroga a toda la población sino que combina el uso de registros administrativos (como el padrón municipal) con la información de una gran muestra formada por más de 1 600 000 hogares y más de 4 millones de personas. Por otra parte, en la recogida de datos, se potenció el cuestionario censal por internet como la primera opción ofrecida a los encuestados. En cuanto al censo de edificiones, también por primera vez, se recogieron los datos de localización geográfica (coordenadas GPS) de todos los edificios.
Los resultados del censo son públicos y de acceso gratuito. Pueden aprovechar sus datos administraciones públicas, empresas privadas pero también investigadores que necesitan conocer características de la población española, o particulares que sienten curiosidad por saber más del lugar donde viven.

Fuente: Pagína de Censos de Población y viviendas 2011 en el INE (http://www.ine.es/censos2011_datos/cen11_datos_inicio.htm), 
Ineexplica http://www.ine.es/explica/explica_historia_censos.htm 

jueves, 19 de diciembre de 2013

2013: Año Internacional de la Estadística. ¿Sabías que...?




Vera Pawlowsky-Glahn me mandó el siguiente "Sabías que..." sobre los llamados datos composicionales... Gracias, Vera!

Se tardó casi cien años en entender por qué se producía lo que Karl Pearson denominó, en 1897, correlación espúrea, y abrir una vía de solución a los casos que la presentan? La correlación espúrea es evidente en vectores de datos con suma constante, conocidos como datos composicionales. La solución vino de la mano de John Aitchison, quien en 1982 publicó un artículo titulado "The statistical analysis of compositional data". En dicho artículo sentó las bases de lo que hoy en día se conoce como geometría de Aitchison. La idea central era que los datos composicionales (a) representan partes de un todo; (b) sólo contienen información relativa, los cocientes entre las partes, y por tanto, la suma constante no es una característica esencial; (c) se pueden analizar tomando logcocientes, pues permiten tener en cuenta dicha información, pero quedan inalterados cuando se cambian las unidades.

Pearson, Karl (1897). Mathematical contributions to the theory of evolution. On a form of spurious correlation which may arise when indices are used in the measurement of organs, Proceedings of the Royal Society of London, LX, 489-502.

Aitchison, John (1982). The statistical analysis of compositional data (with discussion), Journal of the Royal Statistical Society, Series B (Statistical Methodology), 44 (2) 139-177.

Para interesados, una página con mucha información técnica: http://www.compositionaldata.com/

miércoles, 18 de diciembre de 2013

El INE en la UPCT

El Departamento de Matemática aplicada y Estadística de la UPCT ha clausurado 2013, el  Año Internacional de la Estadística con una conferencia  de un miembro de la estructura de dirección del Instituto Nacional de la Estadística. Miguel Angel Martínez Vidal, subdirector general de estadísticas de población.

Impartió el lunes 16 de diciembre una charla estupenda que nos ayudó a evaluar correctamente la importancia y las dificultades, para un país como el nuestro, de producir indicadores fiables. Muchas de las decisiones que afectan directamente nuestro día a día se basan en las números publicados por las oficinas de estadística de nuestros países por lo que no es de extrañar que se encuentran en ocasiones en medio de batallas ideológicas que poco tienen que ver con criterios científicos. A título de ejemplo, Andreas Georgiou, director de la Agencia Estadística Griega, llamada Elstat, está esperando un juicio con cargos de deslealtad, por sus cálculos del déficit del estado heleno en 2009. Se enfrenta a penas entre cinco y 10 años de cárcel, acusado de haber sobrestimado  los números de déficit, lo que llevó a un endurecimiento de las condiciones del rescate. 
Miguel Angel Martínez Vidal nos dio  algunas de las claves para entender el complejo sistema de producción de las estadísticas públicas españolas, y señaló los retos a los que se enfrenta la estadística oficial. Construyó su charla usando un curioso vídeo de opiniones recogidas en la calle sobre qué son las estadísticas, cómo se preparan y  parar qué sirven...

lunes, 16 de diciembre de 2013

2013: Año Internacional de la Estadística. ¿Sabías que...?



Los estadísticos ayudan a luchar contra el cáncer...

Algunas de las mentes más brillantes en la investigación médica trabajan para entender y algún día erradicar una de las mayores causas de muerte en nuestro mundo, el cáncer. Pero no todas son médicos, químicos o biólogos. El estadístico Terry Speed acaba de ganar en Australia el premio del Primer Ministro para la ciencia, dotado con cerca de 200000 euros, por  sus contribuciones al análisis de datos en biología y genética. 
Cuando los progresos tecnológicos en el análisis del ADN que tuvieron lugar a finales de los 80, permitieron evaluar la actividad de miles de genes de forma simultánea,  Terry Speed fue uno de los primeros en analizar esos datos e inventó métodos de extracción de información que siguen utilizándose en laboratorios por todo el  mundo. Como director del departamento de bioinformática en el Instituto de Investigación Médica Walter and Eliza Hall en Melbourne, forma parte de equipos multidisciplinares que buscan predecir, a partir del  perfil genético de células de tumores, si éstos serán benignos o malignos, lo que permite a los médicos evitar realizar cirugía en caso de que no sea necesario.  Afirma que el análisis de los datos de nuestro organismo (perfil genético, historial clínico y familiar, etc...) será clave en el tratamiento del cáncer, que será cada vez más personalizado, por la enorme variabilidad en la respuesta de los individuos ante esta enfermedad. Terry Speed augura por lo tanto un papel cada vez más importante de los estadísticos en los equipos de investigación contra el cáncer... 
Fuente: BBC News Magazine, 24 noviembre 2013. "Terry Speed: How statistics can help cure cancer" http://www.bbc.co.uk/news/magazine-25054938

lunes, 9 de diciembre de 2013

2013, Año Internacional de la Estadística. ¿Sabías que...?


En ocasiones, los estadísticos cuyo trabajo consiste en calcular determinados indicadores socio-económicos  han sido sometidos a presiones y acoso intolerables. Graciela Bevacqua era responsable en el INDEC (Instituto Nacional de Estadístíca y Censos, Argentina),   del equipo que elabora el índice de precios al consumo. En 2005, empezó a recibir presiones por parte de Guillero Moreno, el secretario de Comercio Interior para que manipulara a la baja los datos de inflación, estimados entonces a 12.3%, con el objetivo de reducir el malestar en la población y de cara a elecciones cercanas. Durante dos años Graciela Bevacqua resistió el acoso y las amenazas a la que fue sometida, cumpliendo con los protocolos internacionales de cálculo del IPC. A principios de  2007 fue despedida y al mes siguiente los datos oficiales de inflación publicados eran casi 40% inferiores a la estimación que había realizado con su equipo. Desde entonces, la confianza en la fiabilidad de los datos económicos aportados por Argentina ha desaparecido totalmente: en febrero 2012, la revista "The Economist" decidió incluso retirarlos de sus resumenes mensuales sobre economía mundial...
Más recientemente, Andreas Georgiou, director de la Agencia Estadística Griega, llamada Elstat, está esperando un juicio con cargos de deslealtad, por sus cálculos del déficit del estado heleno en 2009. Se enfrenta a penas entre cinco y 10 años de carcel, acusado de haber sobrestimado  los números de déficit, lo que llevó a un endurecimiento de las condiciones del rescate. En cambio, la Agencia Europea de Estadística Eurostat emitió un comunicado a principios de 2012, en el que asegura que los cálculos de Andreas Georgiou cumplen con la fiabilidad y la calidad exigidos por la normativa europea...
Fuente: "A life in statistics: Graciela Bevacqua", Significance, diciembre 2012 & http://www.bloomberg.com/news/2013-02-07/eurostat-concerned-about-greek-statistics-developments.html.