Importando um Aplicativo Apache Spark para o Oracle Cloud
Os aplicativos Spark precisam estar hospedados no Oracle Cloud Infrastructure Object Storage para que você possa executá-los.
Você pode fazer upload do seu aplicativo para qualquer bucket. O usuário que está executando o aplicativo deve ter acesso de leitura a todos os ativos (incluindo todos os compartimentos, buckets e arquivos relacionados) para que o aplicativo seja iniciado com sucesso.
Desenvolver Aplicativos Spark compatíveis com o Serviço Data Flow
O serviço Data Flow suporta a execução de aplicativos Spark comuns e não tem requisitos de tempo de design especiais.
Recomendamos que você desenvolva seu aplicativo Spark usando o modo local Spark no seu laptop ou ambiente semelhante. Quando o desenvolvimento estiver concluído, faça upload do aplicativo para o serviço Oracle Cloud Infrastructure Object Storage e execute-o em escala usando o serviço Data Flow.
Melhores Práticas para Empacotar Aplicativos
| Tecnologia | Observações |
|---|---|
| Aplicativos Java ou Scala | Para obter a melhor confiabilidade, faça upload de aplicativos como Uber JARs ou JARs de Montagem, com todas as dependências incluídas no serviço Object Store. Use ferramentas como Maven Assembly Plugin (Java) ou sbt-assembly (Scala) para construir JARs apropriados. |
| Aplicativos SQL | Faça upload de todos os seus arquivos SQL (.sql) para o serviço Object Store. |
| Aplicativos Python | Crie aplicativos com as bibliotecas padrão e faça upload do arquivo python para o serviço Object Store. Para incluir qualquer biblioteca ou pacote de terceiros, consulte Funcionalidade Spark-Submit no Serviço Data Flow. |
Não forneça seu pacote de aplicativos em um formato compactado, como .zip ou .gzip.
oci://<bucket>@<tenancy>/<applicationfile>
Por exemplo, com um aplicativo Java ou Scala, vamos supor que um desenvolvedor em examplecorp desenvolva um aplicativo Spark chamado logcrunch.jar e faça upload dele para um bucket chamado production_code. Você sempre pode encontrar a tenancy correta clicando no ícone do perfil do usuário no canto superior direito da interface do usuário da Console.
oci://production_code@examplecorp/logcrunch.jarCarregar Dados no Oracle Cloud
O Fluxo de Dados é otimizado para gerenciar dados no Oracle Cloud Infrastructure Object Storage. O gerenciamento de dados no serviço Object Storage maximiza o desempenho e permite que o aplicativo acesse dados em nome do usuário que está executando o aplicativo. No entanto, o serviço Data Flow pode ler dados de outras origens suportadas pelo Spark, incluindo armazenamentos de RDBMS, ADW, NoSQL e muito mais. O serviço Data Flow pode se comunicar com sistemas on-line usando o recurso Ponto Final Privado com uma configuração existente do FastConnect.
| Método | Ferramentas |
|---|---|
| Interface do Usuário da Web Nativa | A Console do Oracle Cloud Infrastructure permite gerenciar buckets de armazenamento e fazer upload de arquivos, incluindo árvores de diretório. |
| Ferramentas de terceiros |
Considere usar APIs REST e a Infraestrutura de Linha de Comando. |