Usando o Apache Flink
O Apache Flink é um mecanismo de processamento para cálculos em fluxos de dados ilimitados e vinculados.
Observação
A Alta Disponibilidade do Zookeeper é ativada por padrão ao executar jobs do Flink em um cluster do Big Data Service. Para impor ACLs no znode criado, atualize o parâmetro HA Zookeeper Client ACL para creator (o valor padrão está definido como aberto). Para obter mais informações sobre as ACLs, consulte esta seção na documentação pública do Flink: ZooKeeper HA Services.
A Alta Disponibilidade do Zookeeper é ativada por padrão ao executar jobs do Flink em um cluster do Big Data Service. Para impor ACLs no znode criado, atualize o parâmetro HA Zookeeper Client ACL para creator (o valor padrão está definido como aberto). Para obter mais informações sobre as ACLs, consulte esta seção na documentação pública do Flink: ZooKeeper HA Services.
- Todos os componentes do Apache Flink, incluindo o Gerenciador de Jobs e o Gerenciador de Tarefas, são executados no contêiner do YARN.
- O ODH suporta a execução do aplicativo Apache Flink como um aplicativo YARN (modo de aplicativo) ou anexado a uma sessão existente do Apache Flink YARN (modo de sessão).
- Em um cluster seguro de Alta Disponibilidade (HA), o Apache Flink é pré-configurado para incluir o Job Manager HA durante a instalação e usa o Zookeeper que vem com ODH para suportar HA.
Importante
O servidor de histórico do Flink não suporta Kerberos/AuthN. A comunicação de backend que está acontecendo no servidor de histórico pode usar o Kerberos, que é controlado por meio das propriedades security.kerberos.login.keytab e security.kerberos.login.principal do flink-conf.
O servidor de histórico do Flink não suporta Kerberos/AuthN. A comunicação de backend que está acontecendo no servidor de histórico pode usar o Kerberos, que é controlado por meio das propriedades security.kerberos.login.keytab e security.kerberos.login.principal do flink-conf.
Propriedades de Configuração do Flink
Propriedades de configuração do flink incluídas no Big Data Service 3.1.1 ou posterior.
Configuração | Propriedade | Descrição |
---|---|---|
flink-env |
flink_hadoop_classpath |
Classpath do Flink Hadoop |
Usando o JAR personalizado no classpath do Apache Flink
A instalação do Apache Flink pré-configura bibliotecas durante a instalação.
-
O local padrão das bibliotecas do Apache Flink é
/user/flink/libs/flink-libs
do Hadoop Distributed File System (HDFS). - Quando você inicia o servidor de histórico na interface do usuário do Apache Ambari, essas bibliotecas são carregadas do local para o HDFS.
-
As bibliotecas de conectores fornecidas pelo ODH estão localizadas em
/user/flink/lib/connector-libs
do HDFS. Você pode adicionar bibliotecas de conector necessárias ao caminho de classe do Apache Flink a partir deste local. Atualize a propriedadeyarn.provided.lib.dirs
noflink-conf
do painel de controle do Apache Ambari para incluir o local específico da biblioteca. -
Se você tiver um arquivo JAR personalizado, faça upload dele para
/user/flink/lib/user-libs
do HDFS e atualize a propriedadeyarn.provided.lib.dirs
noflink-conf
do painel de controle do Apache Ambari para incluir a localização JAR personalizada. - Ao fornecer vários valores para
yarn.provided.lib.dirs
, os valores devem ser separados por ponto e vírgula.
Exibindo Jobs do Apache Flink
O ODH inclui duas UIs para exibir jobs do Apache Flink.
Gerenciador de tarefas/IU do Apache Flink
- Para rastrear jobs em execução, vá para a interface de usuário do YARN Resource Manager e selecione o aplicativo Apache Flink em execução.
- Para acessar a IU do Flink Job Manager e rastrear o andamento dos jobs em execução, selecione Application Master.
UI do Servidor do Histórico do Apache Flink
- Para exibir jobs concluídos do Apache Flink, Acesse o Apache Ambari.
- Na barra de ferramentas lateral, em Serviços, selecione HDFS.
- Em Links Rápidos, selecione UI do Servidor de Histórico de Links.