Executando Jobs do Spark com o Apache Oozie

Execute jobs do Spark usando o Apache Oozie.

O Apache Oozie é um serviço que usa um arquivo de propriedades para acionar uma sequência de ações como parte de um pipeline. Ele suporta várias ações, como programas Apache Hive, Spark e shell.

Você pode executar jobs do Spark em clusters HA e não HA. Os arquivos de propriedades de todos os jobs são os mesmos e variam apenas com base na natureza do cluster. O Oozie acessa o HDFS para executar seu fluxo de trabalho usando um XML de fluxo de trabalho, quando tenta alcançá-lo. Para isso, o Oozie suporta HA para HDFS usando o serviço de nomes. Portanto, essa é a única distinção entre clusters HA e não HA que executam jobs do Spark.

Para obter mais informações, consulte: