#Big Data

Stacks Image 11972
 
Más es diferente
La gran Biblioteca de Alejandría aspiraba a reunir todo el saber de su época. En el siglo III antes de nuestra era, Ptolomeo II estaba obsesionado por conservar un ejemplar de cada obra escrita en el mundo. Así, los barcos que atracaban en el puerto de Alejandría eran inspeccionados y sus libros confiscados. Éstos se llevaban a la Biblioteca, se copiaban y eran devueltos -generalmente las copias- a sus dueños. En la época de Ptolomeo II se cree que la Biblioteca contaba con 900.000 manuscritos y concentraba todo el saber del mundo conocido.
En 2004 Google lanzó su proyecto
Google Books que pretende digitalizar todos los libros del mundo incluyendo las obras que ya no están disponibles impresas o comercialmente. Con un espíritu similar al de Ptolomeo II, tanto en su ambición como en sus metodologías "expropiatorias", Google va camino de convertir en realidad "La biblioteca total" de la que hablaba Borges. Actualmente se estima que ya se han digitalizado más de treinta millones de libros -cerca de un 25% de todos los libros publicados en la historia de la humanidad- y la velocidad de incorporación de nuevas obras es cada vez mayor. Jamás antes en la historia de la humanidad los investigadores habían tenido acceso a un corpus literario de tales dimensiones.
Los big data, o "datos masivos", constituyen una nueva herramienta para estudiar la realidad y por lo tanto una manera diferente de comprender el mundo en el que vivimos. En los últimos años, el cambio cuantitativo tanto en el almacenamiento como en el procesamiento de los datos ha conducido a un cambio cualitativo relevante. Los big data permiten obtener, de los datos a gran escala, información que no es posible obtener a una escala inferior. En este sentido, podemos decir que los big data son una especie de fenómeno emergente surgido a partir del tratamiento de una gran cantidad de información. Cada vez son más y más variados los ámbitos que hacen uso de esta nueva herramienta. Actualmente se utilizan en astronomía, en genética, en análisis literarios y lingüísticos, en física de partículas o en ciencias sociales, por mencionar sólo algunas áreas.
[seguir leyendo…]

 
El saber frente al diluvio: Investigación basada en ciencia de datos y discurso académico en el siglo XXI | Mark Daley
Vivimos en una época en la que investigadores de cualquier ámbito se han visto de repente asfixiados por los datos. Hace cuarenta años suponía un gran triunfo que un genetista molecular consiguiera secuenciar un solo gen. Hoy, cualquier estudiante universitario puede generar "por accidente" terabytes de información genómica con sólo apretar un botón. Durante siglos, los investigadores de canto gregoriano han trabajado con la ardua dedicación que les imponía su rígido método de estudio. Cada investigador dedicaba un tiempo a cada canto, lo leía en su formato original, lo interiorizaba hasta lo humanamente posible y finalmente ofrecía una síntesis de sus conocimientos. Hoy disponemos de extensas bases de datos que codifican miles de cantos en formato digital y que permiten elaborar sofisticadas estadísticas agregadas y otros tipos de análisis. Esta circunstancia ha provocado un cambio de proporciones asombrosas en la naturaleza misma de los estudios académicos. De hecho, hasta hace sólo unas décadas, los datos -ya habláramos de cantos gregorianos o de secuencias genéticas- eran escasos y costosos. Como consecuencia, se trabajaba con una cantidad relativamente pequeña de información y los investigadores de casi todas las disciplinas desarrollaban metodologías cuya optimización consistía -y en ocasiones se basaba- en tratar de dar sentido a un dominio limitado de datos. A pesar de la ocurrencia de Samuel Johnson -"Nadie quiso nunca que el libro fuera más largo"-, lo cierto es que un investigador especializado en la obra de John Milton podría hacer carrera limitándose a leer atentamente El paraíso perdido y manejando una cantidad de bibliografía limitada. Pero, ¿qué ocurriría con un estudiante de literatura que quisiera analizar la naturaleza de las narraciones de 140 caracteres de Twitter? En 2016 se publicaron una media de 6.000 tuits por segundo, por lo que aquí una lectura atenta ya no sólo es poco efectiva, sino imposible. Las nuevas herramientas no son ni un lujo ni una curiosidad, sino una necesidad.
[seguir leyendo…]

 
Los estudios literarios a lo grande | Mario Aquilina
Steve Lohr describe el
Dat-ismo como "la entrada en la madurez de la era de los big data" que "de pronto está haciendo posible ver más y aprender más rápido" a través del desarrollo y aplicación de métodos computacionales de análisis (Lohr, 2015). En este contexto, los estudios literarios, que tradicionalmente han sido terreno de los humanistas, se encuentran ahora entrelazados con aproximaciones cuyos principios operativos se fundan en métodos y aspiraciones de las humanidades digitales más orientadas a la ciencia. Los big data, como así también otras aproximaciones a la literatura asociadas a estos, tales como la "lectura artificial" (machine reading) y la "lectura distante" (distant reading), ofrecen una serie de nuevas posibilidades para quienes deseen estudiar la literatura. En primer lugar, los big data permiten hacer preguntas y encontrar respuestas sobre vastos corpus que incluyen cientos o miles de textos. Los lectores humanos, independientemente de cuán eficientes sean en sus prácticas lectoras, no pueden llegar a la magnitud o al alcance que una lectura artificial o que la "lectura distante" permiten en relativamente poco tiempo. El trabajo realizado por Franco Moretti, Matthew L. Jockers y Carolina Ferrer, entre otros muchos que participan en redes y centros de estudios literarios digitales por todo el mundo -cuyo principal ejemplo es el Stanford Literary Lab-, muestra algunas de las múltiples posibilidades de los análisis literarios con big data. El análisis de textos asistido computacionalmente permite a los investigadores no sólo, por ejemplo, compilar y acceder con relativa facilidad a listas de frecuencia de palabras, concordancias y listados de palabras-clave-en-su-contexto en y a través de una gran cantidad de textos digitalizados, sino también generar metadatos por sistemas estadísticos de análisis. Así, estos datos se utilizan e interpretan luego para elaborar hipótesis que van desde micro-elementos como el estilo, las redes de personajes y tramas en textos específicos, hasta elementos macro como la evolución de los géneros en la literatura universal. [seguir leyendo…]

 
Complementariedad de los big data y los estudios literarios | Borja Navarro Colorado
La relación de los big data con los estudios literarios podría, en principio, parecer contradictoria. La creación literaria se caracteriza, contrariamente a los big data, por su singularidad y especificidad. Si bien la cantidad de texto literario en formato digital disponible hoy día es amplísima, no es tanto por la cantidad de textos como por el tratamiento de grandes volúmenes de datos textuales donde los big data y los estudios literarios confluyen. En concreto, es en el enfoque donde los big data pueden enriquecer los estudios literarios: un nuevo enfoque en el estudio de la literatura no centrado tanto en el análisis de rasgos específicos de un autor o una obra, sino en los rasgos generales, comunes y recurrentes de amplias épocas, períodos o temas. Se trata del modelo denominado por Franco Moretti
Distant Reading. La disponibilidad, en formato digital, de amplios corpus de textos literarios —representativos del hecho literario— junto a las técnicas de análisis computacional propias de los big data —principalmente «minería de textos» (Text Mining) y «procesamiento del lenguaje natural»— aportan a los estudios literarios la posibilidad de estudiar y analizar los aspectos generales y recurrentes de esos amplios períodos o temas. Dada la amplitud de esos corpus, resulta inviable su análisis manual mediante métodos tradicionales de análisis literario —lo que, en general, en la crítica literaria anglosajona se denomina close reading—. En este sentido, el modelo de análisis basado en big data y los diferentes modelos de análisis literario no sólo son compatibles, sino también complementarios. [seguir leyendo…]

 
#Espacios de indeterminación | Kristin Veel
En 1838 el filósofo danés Søren Kierkegaard sostenía en su célebre afirmación que «nada corrompe más la mano y el corazón que una pluma metálica. ¿Cómo imaginar una carta de amor escrita con una pluma de acero?». El hecho de que la tecnología que utilizamos para escribir condiciona no sólo cómo escribimos, sino también el modo en que percibimos lo escrito, no es nada nuevo. Hoy es difícil encontrar un texto que de una u otra forma no se pueda considerar un producto digital, ya sea porque ha sido escrito en un ordenador o porque ha experimentado un proceso de publicación cuya maquetación, formato e impresión han sido modelados por herramientas digitales. Asimismo, los proyectos de digitalización masiva llevados a cabo en todo el mundo por bibliotecas, entidades sin ánimo de lucro y empresas han implicado tomar textos que no nacieron en entornos digitales y hacerlos igualmente accesibles para los algoritmos. Además, también puede hablarse de literatura digital per se, es decir, de géneros literarios que se valen de las propiedades singulares de la tecnología tanto para crear como para distribuir sus contenidos. Hablamos de tipologías textuales como la Twitter fiction, la Instagram poetry y otras formas literarias que, de diversos modos, están estructuradas en torno al torrente dinámico de datos que nos envuelve. Estos distintos modos de digitalización de textos poseen implicaciones que van mucho más allá de las apariencias, ya que al hacer que puedan ser leídos por máquinas, y por lo tanto integrarlos en análisis de big data, se altera también el modo en que se aborda la literatura. Es así como en los últimos años los big data se han erigido como una herramienta de análisis que ha permitido a los investigadores en literatura analizar los textos según criterios cuantitativos. Entre los lectores de los textos ahora también se cuentan máquinas capaces de escudriñar rápidamente grandes corpus. Pero los big data no son sólo una herramienta para investigadores literarios, sino también algo que nos permite hacer incursiones en la literatura mediante el enfoque cuantitativo de las humanidades digitales a través de listas de frecuencia de palabras y de las cartografías visuales de las estructuras del texto. La capacidad analítica de los big data y los inmensos archivos a partir de los cuáles se extraen los resultados pueden también ser ellos mismos objetos de estudio.
[seguir leyendo…]

 
Los big data y lo incognoscible | Javier Argüello
Entre los estudiantes de informática de una conocida universidad estadounidense se cuenta la siguiente anécdota: un hombre visita a su hermano informático y le cuenta que las cosas no van bien con su mujer y que duda de que ella aún lo quiera. Luego de pensárselo un momento, el hermano le propone utilizar un sistema basado en el análisis de datos para determinar si efectivamente ella lo sigue queriendo. El hombre le responde que eso no es posible, que no se trata de algo que pueda determinarse analizando datos. «Puede que tengas razón», reconoce el hermano. Una semana después ambos vuelven a encontrarse y el informático le dice a su hermano que piensa utilizar un sistema de análisis de datos para determinar si su mujer aún lo quiere. «Pero ¿no habíamos quedado en que eso no era posible?», protesta el otro. «Si, lo habíamos hecho», reconoce el primero, «pero es que ahora cuento con una cantidad mucho mayor de datos».
Lo que esta rudimentaria anécdota pretende ilustrar es que, si fuera cierto que existen áreas o problemas que no pueden ser abordados mediante el análisis de datos, entonces disponer de una enorme cantidad no debería alterar este hecho. La pregunta es entonces: ¿existen efectivamente áreas o problemas que no pueden ser estudiados desde esa perspectiva? Digámoslo de otra manera: ¿es posible pensar en un método de exploración y representación de la realidad que se adecúe de la mejor manera a la naturaleza de todas y cada una de las áreas en las que pueda verse involucrada la experiencia humana? ¿Hay un lenguaje o un método universal y excluyente que pueda describir y procesar, de forma indistinta y eficiente, las impresiones y expresiones derivadas de la puesta en contacto con las realidades materiales e inmateriales, simbólicas y tangibles, emocionales y racionales que pueda experimentar un individuo?
[seguir leyendo…]

 
Ciencia de datos en el Instituto Allan Turing | Andrew Blake
Alan Turing y sus colegas, entre los que se encontraban DillyKnox, Gordon Welchman y Max Newman, fueron convocados en 1939 en Bletchley Park en un momento de gran necesidad nacional. Se enfrentaban al reto de decodificar datos encriptados de vital importancia y lo hicieron a través de la innovación matemática; para ello desarrollaron algoritmos para analizar los datos y construyeron máquinas que anticiparon la era informática moderna.
Hoy volvemos a estar en un momento de gran necesidad; y una vez más se trata de datos. Los datos han sido calificados como «el nuevo petróleo» de la economía, y son cada vez más importantes para consolidar el éxito de las empresas. Según afirmó recientemente Peter Sondegaard, vicepresidente de la consultora tecnológica Gartner, «las empresas se valorarán (…) en función de los algoritmos que conviertan los datos en acciones». Determinar el auténtico valor que contienen los datos es uno de los objetivos fundamentales del Instituto Alan Turing (ATI). Nos valdremos para ello de nuevos paradigmas estadísticos y matemáticos, de avances en los algoritmos y de procesos informáticos a nivel de centro de datos. Las ciencias sociales y la ética con respecto al manejo de datos tienen un papel fundamental; experimentaremos con sistemas inteligentes a gran escala que harán de intermediarios entre las personas y los datos.
[seguir leyendo…]

 
Los datos como material artístico | Julie Freeman
En mi práctica artística, los datos, independientemente de su tamaño, se han convertido en el material fundamental que utilizo para poder traducir A por B para ti. Reflexionaré aquí sobre por qué es necesario identificar claramente los matices de este material. La manipulación y utilización de materiales de formas novedosas —física y conceptualmente— está en el corazón de la práctica de muchos artistas. Lograr una estrecha aprehensión con cualquier material con el que trabajemos exige comprender sus propiedades y limitaciones, para poder asegurarnos de que lo utilizamos con agudeza como medio de expresión de nuestras ideas. Para llegar a una comprensión profunda, el mismo requisito se aplica también a los datos cuando son utilizados como material artístico. Los datos poseen múltiples propiedades físicas y conceptuales tales como tipo, licencia, contexto, semejanza, temporalidad, escala o distribución, entre otros; por lo tanto, creo que es importante ser capaces de describir los datos utilizados en obras de arte ya que estas propiedades tienen un fuerte impacto en su recepción, quizás más que una descripción detallada de un material artístico tradicional. En la obra de arte, los datos están más matizados que legitimados; sin embargo, a menudo utilizamos la palabra «datos» de manera genérica, perdiendo así la posibilidad de proporcionar información que pueda favorecer el significado. En este contexto utilizamos «datos» como un sustantivo colectivo más que como el plural de
datum. [seguir leyendo…]

 
Arte y Big Data | Juan Luis Suárez
¿Ha habido cambios en la representación de la belleza humana a través de los siglos? ¿Se puede medir ese cambio? Más aún, ¿es posible usar los datos para entender el arte y, en concreto, para analizar cómo se ha representado la belleza en la pintura a lo largo de la historia? El rostro humano es el paradigma en el cual se concentra el ideal de belleza. En la cara se identifican los rasgos que ayudan a considerar a una persona como bella. En términos evolutivos parece haber dos criterios cuantitativos que confluyen en la determinación de la belleza de un rostro y que funcionan a nivel de grupo para maximizar las probabilidades de una reproducción exitosa en las siguientes generaciones. El primer criterio consiste en la determinación de la simetría de la cara, de forma que la más simétrica es percibida como la más bella y, potencialmente, la que mejor garantiza la salud genética de los descendientes de su «propietario». El segundo criterio también tiene razones reproductivas, pero ahora ancladas en la sociabilidad del ser humano, y establece que los humanos consideramos generalmente una cara como más bella en función de lo cercana que esté a la media de las caras de un determinado grupo. Es decir, a la hora de usar la belleza como criterio de apareamiento lo más natural sería que buscáramos una pareja cuya rostro fuera muy similar a la media de las caras de la comunidad a la que pertenecemos.
[seguir leyendo…]