Tip de rendimiento: reutilizar la JVM entre tareas Map
En un e-mail de la lista core-user de hadoop, alguien preguntó lo siguiente: Subject: Can I share datas for several map tasks? Hi, I want to share some data structures for the map tasks on a same...
View ArticleEl PiggyBank: Funciones definidas por usuarios
El repositorio de funciones definidas por usuarios (UDFs) para el manejo de datos en Pig se llama, muy apropiadamente, PiggyBank. Entre las funciones disponibles en el repositorio encontramos...
View ArticleHadoop input formats
A más del TextInputFormat (cada registro es una línea de un archivo de texto) usado por defecto, Hadoop soporta varios formatos de entrada para los mappers. Por ejemplo, WholeFileInputFormat: Cada...
View ArticleSistemas de recomendación con Hadoop
Uno de los grupos de la materia de graduación me comentó que estaba teniendo problemas implementando un sistema de recomendaciones usando Mahout (específicamente, Taste), debido a que tenían problemas...
View ArticleAlternativa al Plug-in de Hadoop para Eclipse
En clase algunos tuvieron problemas con el plug-in de Hadoop para Eclipse. Este problema se debe a que el mantenimiento del plug-in ha sido descontinuado. Leí en un e-mail (y respuestas) enviado a la...
View ArticleReduce empezando antes que termine Map
En los gráficos que ilustran las implementaciones MapReduce podemos ver una “barrera” entre la fase Map y la Reduce. Una “barrera” es un mecanismo de sincronización entre procesos que espera a que...
View ArticleTip de rendimiento: Usar compresión LZO para archivos de entrada en Hadoop
Kevin Weil de Twitter (a quien mencioné en mi entrada anterior) acaba de publicar en el blog de Cloudera un tutorial sobre como usar archivos con compresión LZO. La compresión LZO resulta más adecuada...
View ArticleBOOM y Datalog: Nuevas alternativas para programación en las nubes
Según el MIT Review, un grupo de investigadores de la Universidad de California, Berkeley está trababajdo en un proyecto llamado BOOM que facilitará la creación de programas que corran en las nubes. La...
View ArticleESPOLciencia: Jinesh Varia sobre “The State of the AWS Cloud”
Como parte de ESPOLciencia, el 20 de enero tuvimos una vídeo-conferencia titulada “The State of the AWS Cloud” a cargo de Jinesh Varia, un Evangelist de los AWS. La conferencia tuvo una excelente...
View ArticleThe Eucalyptus Open-source Cloud-computing System
Esta entrada es la primera de varias que publicaré durante los próximos meses, resumiendo papers importantes relacionados al tema de cloud computing. Eucalyptus es un proyecto open-source que permite...
View Article
More Pages to Explore .....