Spark Scala con Maven en IntelliJ

Posted on marzo 23, 2020 por admin

Este es un post que la verdad no había tenido en mente crear pero últimamente se me ha convertido en una necesidad y la verdad he disfrutado hacer y es que en estos ya casi 5 años involucrado en temas relacionados con Big Data y la nube la verdad es que he podido notar como construir un proyecto Spark desde cero se convierte en algo fácil pero netamente basado en copiar y pegar de proyectos anteriores, pero … y qué sucede cuando no hay un proyecto anterior jejeje, pero no es el único caso y qué sucede con aquellos que están aprendiendo, es cuestión de indagar por Internet y encuentras 30 formas distintas de armar un proyecto desde cero de Spark con Scala con Maven y en un IDE en este caso IntelliJ, pero cual es la idónea, cual es la que verdaderamente funciona.

Pues he decidido crear un esqueleto de proyecto (el cual espero poder ir evolucionando y mejorarlo) que seguramente no es la mejor pero desde mi humilde punto de vista es funcional.

Configurar el IDE

Lo primero antes que nada es instalar el jsdk (1.8 como mínimo), luego en la instalación o inmediatamente después es asegurarnos de contar con los plugins de Maven y Scala, para ello en la ventana de inicio vamos a los plugins.

Buscamos el plugin de Scala para verificar que este instalado si no lo está lo instalamos y luego en la misma ventana en la parte superior junto a Marketplace hacemos clic en installed y verificamos que el plugin de maven por defecto este habilitado.

Creamos el proyecto

Seleccionamos la opción de crear un nuevo proyecto.

Acto seguido seleccionamos la opción de proyecto maven y marcamos la opción de Create from archetype. Seleccionamos el archetype net.alchim31.maven:scala-archetype-simple y pulsamos el botón «Next». Si el archetype no existe pulsamos el botón de Añadir Archetype (Add Archetype) cumplimentamos la información con los siguientes datos:
GroupId: net.alchim31.maven
ArtifactId: scala-archetype-simple
Version: 1.7

Una vez añadido lo seleccionamos y como habíamos indicado antes pulsamos el botón «Next».

Indicamos el archetype en caso de no estar presente en la lista

Lista de archetypes para crear el proyecto

Inmediatamente después le daremos nombre a nuestro proyecto y si queremos ser más específicos indicamos el GroupId, ArtifactId y versión de nuestro proyecto (OJO esto último es opcional), pulsamos «Next» y por último en la ventana resumen pulsamos «Finish».

Lo primero que deberemos hacer para que nos facilite la tarea será habilitar la autoimportación de las dependencias maven como señalamos en la imagen.

Habilitamos la autoimportación de dependencias

El construir el proyecto a partir de un archetype (arquetipo) maven consiste en armar el esqueleto de un proyecto a partir de una plantilla definiendo una estructura minima por defecto, por lo cual veremos un fichero pom.xml (gestión de dependencias maven) con algunas dependencias y una estructura de carpetas para el código fuente y pruebas unitarias, con ficheros incluidos.

Estructura del proyecto reciéntame creado

Aprovechamos de dar un vistazo a la clase App y a las pruebas unitarias que por defecto nos añade al proyecto e incluso podemos compilar el proyecto para contrastar que todo está de maravilla y para ello solamente necesitamos hacer clic en la pestaña maven ubicado en la parte derecha, donde aparece el nombre de nuestro proyecto desplegar lifecycle y hacer doble clic en compile y esto iniciará el proceso de compilación terminando exitosamente.

Añadimos dependencias

Ya estamos llegando al final, ahora lo que haremos será añadir al fichero pom.xml las dependencias spark que utilizaremos para este ejemplo. Empezaremos por editar las propiedades quedando estas así:

<properties>
<maven.compiler.source>1.8</maven.compiler.source>
<maven.compiler.target>1.8</maven.compiler.target>
<encoding>UTF-8</encoding>
<scala.version>2.12.6</scala.version>
<scala.compat.version>2.12</scala.compat.version>
<spec2.version>4.2.0</spec2.version>
<spark.version>2.4.5</spark.version>
</properties>

<maven.compiler.source>1.8</maven.compiler.source>

<maven.compiler.target>1.8</maven.compiler.target>

<scala.version>2.12.6</scala.version>

<scala.compat.version>2.12</scala.compat.version>

<spec2.version>4.2.0</spec2.version>

<spark.version>2.4.5</spark.version>

</properties>

Añadimos las dependencias de spark al conjunto de dependencias existentes

<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_${scala.compat.version}</artifactId>
<version>${spark.version}</version>
<scope>provided</scope>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_${scala.compat.version}</artifactId>
<version>${spark.version}</version>
<scope>provided</scope>
</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-core_${scala.compat.version}</artifactId>

<version>${spark.version}</version>

<scope>provided</scope>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-sql_${scala.compat.version}</artifactId>

<version>${spark.version}</version>

<scope>provided</scope>

</dependency>

Por último modificaremos nuestra clase App quedando esta así:

package com.josedeveloper
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
/**
* @author ${user.name}
*/
object App {
def main(args : Array[String]) {
val spark:SparkSession = SparkSession.builder().master("local[1]")
.appName("SparkByExamples.com")
.getOrCreate()
val rdd:RDD[Int] = spark.sparkContext.parallelize(List(1,2,3,4,5))
val rddCollect:Array[Int] = rdd.collect()
println("Number of Partitions: "+rdd.getNumPartitions)
println("Action: First element: "+rdd.first())
println("Action: RDD converted to Array[Int] : ")
rddCollect.foreach(println)
}
}

package com.josedeveloper

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.SparkSession

/**

* @author ${user.name}

object App {

def main(args : Array[String]) {

val spark:SparkSession = SparkSession.builder().master("local[1]")

.appName("SparkByExamples.com")

.getOrCreate()

val rdd:RDD[Int] = spark.sparkContext.parallelize(List(1,2,3,4,5))

val rddCollect:Array[Int] = rdd.collect()

println("Number of Partitions: "+rdd.getNumPartitions)

println("Action: First element: "+rdd.first())

println("Action: RDD converted to Array[Int] : ")

rddCollect.foreach(println)

}

Para de nuevo volver a compilar el proyecto, que deberá culminar exitosamente.

Ejecución

La forma que indicaremos para la ejecución de los jobs desde IntelliJ no es la mejor pero es una forma sencilla y funcional para probar cosas y sobre todo para quien comienza a hacer tests sin necesidad de empaquetar y crear un jar y desplegarlo en una máquina virtual o en un cluster. ¿Cuál sería entonces la mejor forma? A mi modo de ver las cosas la mejor forma sería mediante prueba unitarias y de integración donde podamos probar todo el job de inicio a fin y para explicarles como ya tengo en mente preparar otro post paso a paso indicando como hacerlo y las herramientas para lograrlo. Continuando con la configuración de la ejecución, si sencillamente con botón derecho del ratón hacemos clic en Run ‘App’ nos arrojará el error.

Exception in thread «main» java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession$
at com.josedeveloper.App$.main(App.scala:13)
at com.josedeveloper.App.main(App.scala)
Caused by: java.lang.ClassNotFoundException: org.apache.spark.sql.SparkSession$
at java.base/jdk.internal.loader.BuiltinClassLoader.loadClass(BuiltinClassLoader.java:583)
at java.base/jdk.internal.loader.ClassLoaders$AppClassLoader.loadClass(ClassLoaders.java:178)
at java.base/java.lang.ClassLoader.loadClass(ClassLoader.java:521)
… 2 more

El error se debe a que no encuentra las clases con las que fue compilado previamente y eso se debe a que las dependencias de spark las hemos añadido con el alcance «provided».
¿Por qué provided? Debido a que en un entorno empresarial esas dependencias no debemos agregarlas ya que las provee la infraestructura Big Data de la empresa.

Entonces para solventar el error sencillamente debemos ir al menu «Run» y hacemos clic en «Edit Configurations» y allí marcamos la opción de incluir dependencias provided (Include dependencies with «Provided» scope).

Marcamos la opción que incluya las dependencias con alcance «Provided»

Hecho eso volvemos a ejecutar la clase App y veremos como si se logra ejecutar la aplicación. Sin más espero que les haya servido de ayuda y les comento que mi próximo paso será crear un archetype (arquetipo) y a su vez explicarles como hacerlo para que cada quien pueda construir uno acorde con las necesidades de su organización y así dotamos de más profesionalidad y agilidad nuestro trabajo y evitamos el copiar+pegar donde en ocasiones terminamos añadiendo mas dependencias y plugins innecesarios así como también arrastrando problemas y errores (de haberlos).

Aquí les dejo el video

Repo GitHub

Receta para aprobar AWS Certified Big Data Specialty

Posted on octubre 17, 2019 por admin

Hola a todos, muchísimo tiempo sin escribir y no es que no quiera sino que la vida con hijos lo convierte en una tarea en mi caso algo difícil de compaginar. Hoy después de año y medio quiero compartir mi receta para aprobar la certificación AWS Certified Big Data – Specialty.

No les voy a mentir es una certificación complicada quizás un poco más complicada que la AWS Certified Solution Architect – Associate pero lejos de ser imposible, su complejidad desde mi punto de vista radica en que hay que tener un conocimiento amplio no solo en los servicios de AWS sino de frameworks y herramientas utilizadas hoy en día en Big Data.

La AWS Certified Big Data – Specialty es una certificación que puede tomarse de buenas a primeras, es decir, no tiene como requisito el haber aprobado previamente alguna otra certificación aunque desde la misma página de la certificación nos hacen unas sugerencias que desde mi punto de vista son con razón y son las siguientes y cito:

Recomendamos que los candidatos tengan una certificación AWS Certified Cloud Practitioner o una certificación de nivel Associate vigente: AWS Certified Solutions Architect – Associate, AWS Certified Developer – Associate o AWS Certified SysOps Administrator – Associate.
Conocimientos sobre cómo definir y diseñar la arquitectura de los servicios de big data de AWS con la habilidad de explicar cómo se adaptan al ciclo de vida de recopilación, incorporación, almacenamiento, procesamiento y visualización de los datos.
Mínimo de cinco años de experiencia práctica en un campo de análisis de datos.
Experiencia en el diseño de una arquitectura escalable y rentable para procesar datos.

El examen de certificación dura 170 minutos y tiene un costo de 300$ y está disponible únicamente en ingles, japonés, coreano y chino.

Vamos al gramo ¿cómo preparé el examen? Bueno para esto compré 2 cursos ambos muy buenos (excelentes) y amplios y abarcan diría que más de un 90% del contenido a evaluar y casi todos los servicios de amazon, quizás queda alguno por fuera como por ejemplo Storage Gateway, Cloudfront, Elastic Load Balancer, EC2 pero es aquí donde toma relevancia el haber aprobado previamente otra certificación lo cual nos «aseguraría» tener conocimientos en esos otros servicios. Los cursos en cuestión son:

También hice algún curso de la página de aws.traning donde desde AWS nos plantean distintos learning path (caminos de aprendizaje?)

Otra cosa que hice fue redactar mi propio material y para ello revise las F.A.Q. de todos los servicios relacionados con la certificación y los limites y con toda esa información redacte mi chuleta (utilicé evernote) la cual iba enriqueciendo mediante aspectos importantes que veía en los cursos antes indicados y de interrogantes que me iba planteando en el camino y que iba dándole solución luego al comprobarlo de forma practica o investigar en la misma documentación de AWS. ¿Qué servicios mirar? les diría que los principales son: Redshift, EMR, Kinesis (streams, firehose y analytics), DynamoDB, S3, Glacier, Snowball, RDS, DMS, Machine Learning, SageMaker, Athena, Elasticsearch service, IoT, CloudTrial, CloudWatch, Lambda y Glue. Además de estos puede que salgan preguntas que involucren SQS, SNS, EC2 (tipos de instancias), Storage Gateway, Direct Connect, rekognition, polly y lex.

También aproveche de ver varios vídeos desde los canales de youtube:

Lo interesante de ambos canales es que plantean solución a distintos escenarios mediante la combinación y uso de distintos servicios de AWS lo que nos permite tener una perspectiva real de como afrontar e integrar muchos de estos servicios, casos de uso, buenas practicas entre otras cosas y el último de los canales también posee los vídeos de las sesiones re:Invent de los años 2017, 2018 y aunque alguno de los videos puede llegar a durar 1 hora, pues a mí que lo que mas me hace falta es el tiempo lo que hacía era verlos a velocidad de 1.25X (esta técnica también la aplicaba para ver los vídeos de Udemy y acloud.guru).

Hice el test de 10 preguntas de la certificación que se puede encontrar en el siguiente enlace. De antemano les digo que no se dejen intimidar por este examen, estas 10 preguntas desde mi punto de vista son muy difíciles y la realidad es que la mayoría de preguntas en el examen de certificación ni son tan difíciles ni tan largas. Sin embargo esto me sirvió para profundizar en cuanto a contenidos y sobre todo a plantear una estrategia de cara al examen, la cual se las comentaré más adelante.

Les debo confesar que las preguntas de ejemplo me dejaron un poco tocado así que compre los test prácticos de Whizlabs. Hice el test gratuito y me decidí a comprarlo definitivamente.

¿Cuál fue mi estrategia?
Mi estrategia fue la siguiente. Practicando con los 3 tests de Whizlabs, me propuse intentar resolver las 65 preguntas en un plazo de 60 minutos, es decir, daba una lectura muy rápida a las preguntas y daba una respuesta, de esta manera me aseguraba que todas las preguntas fueran contestadas (el examen no tiene factor de corrección) y todas aquellas preguntas donde me quedara duda (casi todas) las marcaba para su posterior revisión, de esta forma logré poder dedicar mucho tiempo a la revisión de las preguntas.

Finalmente comentarles que el resultado fue positivo, obtuve un 74% en la prueba y con este resultado mi premio la certificación, pero lo más valioso es todo lo aprendido en el camino, ahora mismo conozco muchos de los servicios de amazon y he trasteado con ellos y por supuesto tengo una idea «clara» de como integrarlos para dar soluciones.

TIP final: Existe la opción de obtener 30 minutos más para el examen y consiste en solicitar «Request Exam Accommodations» al programar un examen al no ser el inglés tu lengua materna. He aquí un enlace de como hacerlo.

Espero que mi receta les ayude a conseguir el objetivo de aprobar la certificación y para aquellos que dudan en afrontar este reto, que sepan que es un objetivo alcanzable y que no solo les llevará a aprender mucho sino que desde el punto de vista curricular les aportara valor, tanto es así que existe un grupo de LinkedIn de únicamente personas certificadas por lo cual esos perfiles obtienen mas visibilidad.

Entonces ¿te animas a presentarla? y tu que ya presentaste cuéntanos cual fue tu receta para aprobar la certificación

Pronósticos para el 2018

Posted on enero 6, 2018 por admin

Responder

Primer post del año 2018 y es un deber para mí empezarlo deseándoles a todos un 2018 de mucho provecho, salud y éxitos tanto en lo personal como en lo profesional. Dicho esto voy a dar paso a mis pronósticos que más que predicciones son intuiciones personales que sencillamente las haré publicas:

Criptomonedas, es más que obvio que el auge que han tenido las criptomonedas encabezadas por la ya muy conocida BitCoin (BTC), pero esta no es la única, hay otras cuyos proyectos lucen interesantes, sin dejar de lado la popular tecnología que da soporte a la descentralización de estas, el blockchain o cadena de bloques que seguramente en los próximos años de el pelotazo. Siguiendo con las criptomonedas no esta de más decir que son un montón y cada vez sale un proyecto nuevo, tanto es así que el gobierno de Venezuela está preparando la emisión de una moneda llamada petro sustentada en sus reservas internacionales (¿bono de deuda enmascarado?), pero no es de esta moneda que les quiero hablar sino de otras sobre las que sugiero investigar y seguir de cerca: LiteCoin (LTC), IOTA, Ethereum (ETH) y SmartCash, no solo con fines económicos y utilizarlas para la inversión ya que todas han tenido una revalorización espectacular sino también como tecnologías y la hoja de ruta de cada una de estas. Ahora mismo la transacción de LiteCoin es mucho más rápida que la de un BitCoin (BTC), así como también lo es SmartCash que pronto comenzará a trabajar con sus SmartNodes lo cual implica ir un paso más allá en la velocidad de las transacciones que junto a su InstantPay la hará mucho mas atractiva para utilizarla en el comercio electrónico (sin dejar de mencionar su compromiso en proyectos dentro de la comunidad el cual alcanza el 70% de su presupuesto). No debemos olvidar a Ethereum que con sus smartContracts de igual manera abre un mundo nuevo de posibilidades y es una plataforma interesante para conocer la cadena de bloques y por última IOTA con su nuevo modelo de blockchain que desea ser el nuevo «esqueleto» del IoT (Internet of Things) donde entre sus objetivos están las transacciones a coste 0. Claro se habla mucho de las criptomonedas sobre si es una burbuja o el mal uso que le dan algunas personas, pero yo creo que estas han llegado para quedarse y aunque no soy un experto en la materia, creo que es necesario que estas empiecen a ser utilizadas como medios de pago común para que sean tomadas más en serio, pero también porque creo que hay gente que las compra pensando que otro le seguirá y por ende comprará mas caro, es decir, un fin que pareciese algo especulativo y yo soy de los que piensa que está muy bien guardar e invertir dinero pero tarde o temprano darle a este un fin.
La nube, Desde hace 1 año me convertí en un enamorado de la nube, la flexibilidad y rapidez que nos aporta para el desarrollo de nuevos proyectos me parece una maravilla, prueba de esto es que hasta he migrado mi blog desde un hospedaje tradicional a la nube de Amazon. Existen varios proveedores como son AWS, Azure, GCP por solo mencionar algunos, pero lo que a mi parecer luce como una sana competencia está derivando en un muy interesante abanico de servicios y posibilidades para el usuario, para los emprendedores y para las PyMEs y creo que lo seguirán siendo este 2018 sobre todo con las tendencias serverless, microservicios (ojo a kubernetes) y servicios de inteligencia artificial.
Big Data, pienso que seguirá siendo uno de los términos de moda este año, sobre todo porque el aprendizaje automático y los modelos predictivos, se sustentan en este, además creo que ha llegado para quedarse, porque cada día es mayor la cantidad de información que guardamos y pareciera que creciese de forma exponencial con los años, además la sinergia que crea al combinarse con la nube a mi modo de ver es un caballo ganador y en el futuro cuando ya entre en juego el analizar la información de los blockchains entonces si que será un trio que nos dará de que hablar por un buen tiempo.
Por último creo que los lenguajes funcionales aún no han dicho su última palabra, entre estos creo que todavía veremos cosas interesantes. Actualmente hay lenguajes de uso general que han venido pegando fuerte como lo son Go, Python, Scala, pero creo que lenguajes como Haskell, Erlang, Clojure y Rust tendrán mas cabida y podremos ver cosas verdaderamente interesantes sobre todo en cuanto a concurrencia.

Dentro de 1 año revisaré este post y analizaré cuan acertado o errado estuve pero lo que realmente me llenará es haber podido dedicar este año al estudio de estas tecnologías.

¿Tienes algún pronostico tecnológico para este año? lo compartirías con nosotros

Mi receta para aprobar la certificación CCA Spark and Hadoop Developer

Posted on noviembre 15, 2017 por admin

Responder

Hola de nuevo mi gente, como ya es costumbre tenía tiempo sin escribir, de hecho la última vez fue para anunciarles que había aprobado la certificación de solution architect de AWS y comentarles mi receta para aprobarla, bueno en esta ocasión les traigo mi receta para aprobar la certificación CCA Spark and Hadoop Developer (CCA175) de Cloudera. Bueno primero comentarles que esta certificación me resulto fascinante, por distintas cosas, la primera fue que tenía un completo desconocimiento sobre la forma como sería el examen, la segunda es que es totalmente práctica y el contenido dependiendo de como se mire puede ser amplio o no, de acuerdo a cuanto se desee profundizar.

Algunos aspectos del examen: tiene una duración de 2 horas, se aprueba con el 70% y pueden ser entre 8 y 12 preguntas (en mi caso fueron 9). El examen se lleva a cabo de forma online a través de un máquina virtual a la que accederás desde el navegador (chrome), de tu ordenador y será estrictamente necesario tener una webcam mediante la cual un vigilante (proctor) estará atento a que no hagas trampa, también tendrás a disposición una serie de enlaces de documentación referente a las herramientas que puedes utilizar en el examen, como pueden ser la documentación oficial de sqoop, spark, hive, cloudera, por mencionar algunas. En el examen no te veras obligado a utilizar una herramienta en especial, es decir, lo que importa es el resultado final, si este lo consigues con Pig, Hive, Spark, impala, Flume, pues perfecto, lo que esta claro es que hay herramientas que terminan siendo más adecuadas que otras dependiendo del caso.

Dada mi experiencia les sugiero estudiar los siguientes tópicos:

Importar y exportar usando sqoop y en ambos casos considerar el uso y cambio de delimitadores de campos así como de lineas. En el caso particular de la importación tener en cuenta compresión (por ejemplo Gzip) y formatos de archivo (texto, avro, parquet), a su vez conocer como y cuando utilizar los argumentos, -m, -split-by, -where, -query, -columns, -warehouse-dir, -target-dir, por mencionar algunos.
Crear una tabla en Hive cuya fuente de datos sean ficheros de texto, o que los datos estén serializados en Parquet, ORC o AVRO (tener en cuenta evolución del schema) y que a su vez estén comprimidos. CTAS (Create Table as Select) y exportar desde hive un fichero tanto a HDFS como al FileSystem producto de una consulta.
Haciendo uso de Spark hacer Lectura de datos en distintos formatos (texto, json, orc, parquet o avro) e incluso comprimidos y a partir de estos llevar a cabo una transformación de los datos y exportar el resultado a uno de los posibles formatos mencionados anteriormente.
La Máquina virtual trae consigo eclipse y sublime, les sugiero hacer scripts en sublime y guardarlos para poder volver a ellos en caso de ser necesario. En el caso de spark al yo tener más experiencia con scala lo que hice fue lanzar los scripts con la spark-shell con el siguiente comando spark-shell -i script.scala o sino desde la consola usando :load script.scala.
En el caso de spark al ser la versión 1.6 preferí trabajar con dataframes a tener que hacer la operativa con RDDs.
Hacer muchos ejercicios, prácticos. En mi caso creé un repositorio en Github donde hice unos cuantos ejercicios, unos inventados por mí y otros del sitio web itversity.
Es importante hacer una buena gestión del tiempo, sugiero tomar un par de minutos para leer las preguntas e ir a por las más sencillas al comenzar y si en algún momento te bloqueas, pues pasar a la siguiente de inmediato, de igual forma mientras se esté ejecutando una operación (puede que tarde 1 min + o -) aprovechar para al menos leer el enunciado siguiente.
Muy importante mucho cuidado con los datos fuentes y de ser posible respaldarlos.
La consola de la máquina virtual tiene un tamaño de fuente algo pequeño por lo que no es mala idea hacer un zoom in.

Yo he de confesar que de las 9 preguntas que me salieron solo respondí 8, porque no me dio tiempo he allí la razón por la que hago hincapié en la buena gestión del tiempo. El examen no resulta difícil si has estudiado, pero al contar con solo 2 horas es necesario haber practicado antes para no perder mucho tiempo buscando en la documentación.

Por último desearles mucha suerte y reiterar mi fascinación con esta certificación, he aprendido muchísimo y el examen en sí me genero una sensación de satisfacción increíble al conseguir aprobarla, sobre todo esa buena vibra de poner en practica todo aquello practicado.

Convertir fichero csv o tsv a parquet con apache Drill

Posted on octubre 23, 2016 por admin

Responder

Apache parquet es un formato de almacenamiento columnar para ecosistemas hadoop, independiente del framework de procesamiento de datos o del lenguaje de programación. Este es similar a otros formatos columnares como RCFile. Este formato provee una compresión eficiente y mejora el desempeño de las consultas. Parquet tiene 3 opciones para la compresión de sus ficheros y son snappy, gzip o ninguno, donde la opción seleccionada influye en el tamaño resultante de los ficheros y en el tiempo que tardará en convertir los ficheros al formato parquet.

Apache Drill tiene la capacidad de leer y escribir en formato parquet y lo demostraré en el siguiente ejemplo. Lo primero que haremos para poder realizar una comparación de uno de los beneficios de parquet (compresión) será utilizar un fichero tsv de un tamaño considerable.

Del sitio http://www.gdeltproject.org/data.html#rawdatafiles descargaremos un fichero zip que dentro de si contiene un TSV de 6,58 GB (el cual cambiaremos de extensión de TXT a tsv). Entonces basándonos en lo visto en el articulo anterior accederemos al fichero usando el plugin dfs. Si queremos darle un vistazo al fichero y sus campos podemos realizar la siguiente consulta:

SELECT * FROM dfs.`__PATH_TO_FILE__/GDELT-MASTERREDUCEDV2.tsv` LIMIT 20;

1	SELECT * FROM dfs.`__PATH_TO_FILE__/GDELT-MASTERREDUCEDV2.tsv` LIMIT 20;

Luego para comenzar con la conversión lo primero que haremos será modificar el formato de almacenamiento de apache drill, de la siguiente manera:

alter session set `store.format`='parquet';
CREATE TABLE dfs.tmp.`/data/parquet_example/`AS SELECT * FROM dfs.`__PATH_TO_FILE__/GDELT-MASTERREDUCEDV2.tsv`;

1 2	alter session set `store.format`='parquet'; CREATE TABLE dfs.tmp.`/data/parquet_example/`AS SELECT * FROM dfs.`__PATH_TO_FILE__/GDELT-MASTERREDUCEDV2.tsv`;

La sentencia anterior creará una tabla a la que accederemos utilizando la ruta especificada, será a su vez en esa ruta (en mi caso /tmp/data/parquet_example/) donde podremos observar el resultado de la conversión, un conjunto de ficheros en formato parquet que ahora en su totalidad suman unos 2,6 GB, disminuyendo el espacio ocupado en más de la mitad (el formato de compresión por defecto es snappy). En el caso de haber utilizado gzip la conversión hubiera durado un poco más pero en contraposición los ficheros resultantes ocuparían menor tamaño, en mi caso el resultado fue de 1,3 GB, es decir, apenas un 20% de lo que ocupa el tsv y lo único necesario para utilizar este formato de compresión es cambiar el formato antes de crear la tabla de la siguiente forma:

alter session set `store.parquet.compression`='gzip';
CREATE TABLE dfs.tmp.`/data/parquet_example/`AS select * from dfs.`__PATH_TO_FILE__/GDELT-MASTERREDUCEDV2.tsv`;

1 2	alter session set `store.parquet.compression`='gzip'; CREATE TABLE dfs.tmp.`/data/parquet_example/`AS select * from dfs.`__PATH_TO_FILE__/GDELT-MASTERREDUCEDV2.tsv`;

Una vez culminada la conversión ya podremos efectuar consultas sobre la tabla recién creada (en formato parquet)

SELECT * FROM dfs.tmp.`/data/parquet_example/` LIMIT 20;

1	SELECT * FROM dfs.tmp.`/data/parquet_example/` LIMIT 20;

drill-parquet-query

El Blog de Jose

Blog de tecnología, software y programación

Archivo de la categoría: Big Data

Spark Scala con Maven en IntelliJ

Receta para aprobar AWS Certified Big Data Specialty

Mi receta para aprobar la certificación CCA Spark and Hadoop Developer

Convertir fichero csv o tsv a parquet con apache Drill

Uso de cookies