lunes, 20 de diciembre de 2010

Herramienta cuantifica la evolución de la cultura humana mediante la captura de la frecuencia con que usamos las palabras

Siguiendo el ejemplo de las técnicas de la genómica, un equipo de investigadores ha desarrollado una herramienta capaz de proporcionar datos cuantitativos sobre los cambios de la cultura a lo largo del tiempo. La investigación genómica analiza grandes cantidades de datos para estudiar cómo funcionan y cambian los genes; la nueva herramienta utiliza un enfoque a gran escala para estudiar la frecuencia de uso de las palabras a lo largo del tiempo.

El enfoque tiene sentido si las palabras se consideran una unidad de cultura, afirma Erez Lieberman Aiden, uno de los líderes del proyecto. "El genoma contiene información hereditaria, transmitida de generación en generación", explica. "Las palabras que utilizamos, en los libros que escribimos, también se pasan de generación en generación".

Lieberman Aiden y Jean-Baptiste Michel, ambos en el Programa de Dinámica Evolutiva de la Universidad de Harvard, dirigieron el proyecto, que han denominado "culturomics"—un acrónimo que combina "culture" y "genomics". El primer fruto de su trabajo fue una base de datos gigantesca de palabras en alrededor de 5,2 millones de libros publicados entre 1800 y 2000—aproximadamente el cuatro por ciento de todos los libros publicados. Se obtuvieron del proyecto Google Books, cuya biblioteca contiene 15 millones de libros.

En la edición de hoy de la revista Science, los investigadores presentan su proyecto junto con algunos de los primeros resultados que se han derivado de los datos. En conexión con la publicación, Google está lanzando una aplicación (en www.culturomics.org) que permite que cualquiera pueda acceder y analizar la base de datos finalizada, que incluye 2 mil millones de palabras y frases.

Los investigadores afirman que mediante el seguimiento de la frecuencia del uso de las palabras, los científicos sociales, los científicos informáticos y los matemáticos pueden observar la aparición y evolución de las tendencias culturales a través del tiempo. La herramienta se puede utilizar para crear líneas de tiempo de la cultura, que muestren los picos y valles que corresponden a un uso intensivo y escaso de palabras en particular.

La supresión, por ejemplo, deja una huella en la historia cultural. Los libros en alemán publicados bajo la censura nazi entre 1936 y 1944 apenas mencionan a algunos artistas y filósofos cuyos nombres eran comunes antes y después de ese período.

El análisis también identifica palabras que existían en libros publicados pero que no tenían lugar en los diccionarios, entre ellos "aridización" (la desecación de una región) y "eliminable". Estas palabras sueltas no son una excepción: Cuando los investigadores sumaron todas las palabras en el diccionario en inglés, contaban con más de un millón—el doble del número encontrado en los grandes diccionarios modernos. (El Diccionario Oxford de Inglés, por ejemplo, tiene menos de 500.000 entradas).

Lieberman Aiden afirma que espera que los investigadores de varias disciplinas distintas encuentren nuevas maneras de sacar partido de los datos. "Es otra herramienta más a disposición de los humanistas para recopilar conocimientos y respuestas sobre la naturaleza humana".

Él y Michel comenzaron a trabajar en serio en el proyecto en 2007. No todos los libros en la biblioteca digital de Google son de dominio público, por lo que los investigadores tuvieron que tener cuidado de no infringir la ley de copyright. En esencia, sacaron las palabras del contexto de los libros—manteniendo intactos metadatos como la fecha de publicación—y organizaron las palabras en una enorme tabla de frecuencias.

Aplicaron filtros para hacer que su conjunto de datos fuera lo más preciso posible, eliminando, por ejemplo, libros con fechas de publicación incorrectas o aquellos cuyos textos hubieran sido mal transcritos por el software de reconocimiento de caracteres ópticos. Después del filtrado, se quedaron con 5.195.769 libros, con un texto de más de 500 mil millones de palabras de longitud. Alrededor del 72 por ciento de esas palabras estaban en inglés.

Los cálculos intensivos necesarios para reducir ese conjunto de datos en que se basa la frecuencia de cada palabra, fueron distribuidos entre varios equipos de Google y se completaron rápidamente.

Jon Kleinberg, científico informático en la Universidad de Cornell, afirma que la frecuencia de las palabras puede ser una poderosa herramienta cuantitativa para identificar tendencias en la cultura. "Observar la conducta de palabras individuales a menudo puede ser un potente primer indicador de un fenómeno a través del tiempo", afirma. Sin embargo, los materiales escaneados son sólo el comienzo. Otros textos digitales suponen ricas fuentes para el estudio cuantitativo de la información cultural. Por ejemplo, el análisis de los términos de búsqueda de Google puede revelar lo que interesa a la gente. O un estudio a gran escala de actualizaciones de Facebook puede servir como control del pulso de las masas en tiempo real.

"Estamos viendo muchas cosas escritas que nunca habíamos visto antes", afirma. "En Twitter o Facebook, millones de personas exclaman 'me siento feliz' o 'me siento triste'. ¿Hace 10 años, donde podríamos haber encontrado a millones de personas escribiendo sus sentimientos?"

No hay comentarios:

Publicar un comentario