Exercício 2: Visão Geral
Assim como em outros aplicativos do serviço Data Flow, os arquivos SQL são mantidos no armazenamento de objetos e podem ser compartilhados entre muitos usuários SQL. Para facilitar isso, o serviço Data Flow permite parametrizar scripts SQL e personalizá-los no runtime. Assim como em outros aplicativos, você pode fornecer valores padrão para parâmetros que geralmente servem como dicas valiosas para as pessoas que executam esses scripts.
O script SQL está disponível para uso diretamente no seu Aplicativo do serviço Data Flow; não é necessário criar uma cópia dele. O script é reproduzido aqui para ilustrar alguns pontos.
Texto de referência do Script SparkSQL:
Destaques importantes:
- O script começa criando as tabelas SQL necessárias. Atualmente, o serviço Data Flow não possui um catálogo SQL persistente, portanto, todos os scripts devem começar definindo as tabelas necessárias.
- O local da tabela é definido como
${location}
. Este é um parâmetro que o usuário precisa fornecer no runtime. Isso dá ao serviço Data Flow a flexibilidade de usar um script para processar vários locais diferentes e compartilhar o código entre diferentes usuários. Para este laboratório, devemos personalizar${location}
para apontar para o local de saída que usamos no Exercício 1 - Como veremos, a saída do script SQL será capturada e disponibilizada para nós na Execução.