Importando um Aplicativo Apache Spark para o Oracle Cloud

Os aplicativos Spark precisam estar hospedados no Oracle Cloud Infrastructure Object Storage para que você possa executá-los.

Você pode fazer upload do seu aplicativo para qualquer bucket. O usuário que está executando o aplicativo deve ter acesso de leitura a todos os ativos (incluindo todos os compartimentos, buckets e arquivos relacionados) para que o aplicativo seja iniciado com sucesso.

Desenvolver Aplicativos Spark compatíveis com o Serviço Data Flow

O serviço Data Flow suporta a execução de aplicativos Spark comuns e não tem requisitos de tempo de design especiais.

Recomendamos que você desenvolva seu aplicativo Spark usando o modo local Spark no seu laptop ou ambiente semelhante. Quando o desenvolvimento estiver concluído, faça upload do aplicativo para o serviço Oracle Cloud Infrastructure Object Storage e execute-o em escala usando o serviço Data Flow.

Melhores Práticas para Empacotar Aplicativos

Melhores Práticas para Empacotar seus Aplicativos
Tecnologia	Observações
Aplicativos Java ou Scala	Para obter a melhor confiabilidade, faça upload de aplicativos como Uber JARs ou JARs de Montagem, com todas as dependências incluídas no serviço Object Store. Use ferramentas como Maven Assembly Plugin (Java) ou sbt-assembly (Scala) para construir JARs apropriados.
Aplicativos SQL	Faça upload de todos os seus arquivos SQL (`.sql`) para o serviço Object Store.
Aplicativos Python	Crie aplicativos com as bibliotecas padrão e faça upload do arquivo python para o serviço Object Store. Para incluir qualquer biblioteca ou pacote de terceiros, consulte Funcionalidade Spark-Submit no Serviço Data Flow.

Não forneça seu pacote de aplicativos em um formato compactado, como .zip ou .gzip.

Depois que seu aplicativo for importado para o Oracle Cloud Infrastructure Object Store, você o consultará usando um URI especial:

oci://<bucket>@<tenancy>/<applicationfile>

Por exemplo, com um aplicativo Java ou Scala, vamos supor que um desenvolvedor em examplecorp desenvolva um aplicativo Spark chamado logcrunch.jar e faça upload dele para um bucket chamado production_code. Você sempre pode encontrar a tenancy correta clicando no ícone do perfil do usuário no canto superior direito da interface do usuário da Console.

O URI correto se torna:

oci://production_code@examplecorp/logcrunch.jar

Carregar Dados no Oracle Cloud

O Fluxo de Dados é otimizado para gerenciar dados no Oracle Cloud Infrastructure Object Storage. O gerenciamento de dados no serviço Object Storage maximiza o desempenho e permite que o aplicativo acesse dados em nome do usuário que está executando o aplicativo. No entanto, o serviço Data Flow pode ler dados de outras origens suportadas pelo Spark, incluindo armazenamentos de RDBMS, ADW, NoSQL e muito mais. O serviço Data Flow pode se comunicar com sistemas on-line usando o recurso Ponto Final Privado com uma configuração existente do FastConnect.

Carregando Dados
Método	Ferramentas
Interface do Usuário da Web Nativa	A Console do Oracle Cloud Infrastructure permite gerenciar buckets de armazenamento e fazer upload de arquivos, incluindo árvores de diretório.
Ferramentas de terceiros	Considere usar APIs REST e a Infraestrutura de Linha de Comando. Para transferir grandes volumes de dados, considere estas ferramentas de terceiros: rclone cyberduck

Documentação do Oracle Cloud Infrastructure

Importando um Aplicativo Apache Spark para o Oracle Cloud

Desenvolver Aplicativos Spark compatíveis com o Serviço Data Flow

Melhores Práticas para Empacotar Aplicativos

Carregar Dados no Oracle Cloud