Entrevista
Entrevista

Entrevista: como funciona a equipe do Datalabs da Arkéa

Desde 2010, o big data tem sido um pilar da transformação dos negócios. Essa tendência resulta, entre outras coisas, da ascensão da computação em nuvem e das tecnologias que tornam o acesso ao processamento de dados mais acessível ao vender poder computacional para as empresas. A maturidade dos players digitais não é a mesma nesse assunto: enquanto alguns estão apenas no início do uso de Dados, outros já estabeleceram estratégias de longo prazo estruturando equipes dedicadas. É o caso da Arkéa, que montou uma equipe de Datalabs composta por cerca de vinte especialistas.

Conhecemos David Courté, engenheiro de dados, que nos explica como o Datalabs funciona e como ele trabalha com outros departamentos da Arkéa.

Em qual equipe você trabalha na Arkéa?

Atuo no Departamento de Pesquisa (DE) – dentro da Divisão de Inovação e Operações – cuja missão é orientar e monitorar o plano diretor de TI. Implementa inúmeros projetos e garante a manutenção corretiva e evolutiva das diversas aplicações do grupo Arkéa.

Existem vários departamentos dentro do Departamento de Pesquisa que estão ligados à
áreas funcionais. Atuo no departamento de Dados e Suporte, responsável por montar data warehouses de tomada de decisão, operar soluções de relatórios e visualização de dados, gerenciar repositórios… Na Datalabs trabalhamos principalmente na exploração de tecnologias de Big Data e algoritmos de Inteligência Artificial. Dois tipos de perfis trabalham juntos. Alguns, como eu, vêm do mundo da TI: desenvolvedores, gerentes de projeto, arquitetos… Outros são especialistas em matemática aplicada, pesquisa, estatística e aprendizado de máquina* (*conjunto de algoritmos de autoaprendizagem, Inteligência Artificial subjacente): cientistas de dados , estatísticos, etc.

Como você faz esses dois tipos de perfis, orientados para o desenvolvimento e matemáticos, coexistirem dentro da equipe? Qual é o valor agregado?

Acima de tudo, é importante lembrar que o sucesso de um projeto de Dados é baseado em um tríptico de competências em TI, estatística e negócios. Decidimos não compartimentar engenheiros de dados e cientistas de dados que trabalham em projetos em estreita colaboração com especialistas em negócios (Riscos, Marketing, Finanças, etc.).

Durante o estudo, o Cientista de Dados analisará o problema a ser resolvido e pensará nos
dados necessários para realizar seu estudo. Em geral, isso começa com a produção de estatísticas descritivas que permitem ter uma visão global e precisa do assunto e absorver o problema empresarial. Com base nisso, o engenheiro de dados irá recuperar os dados necessários e realizar as transformações para que o cientista de dados possa iniciar sua modelagem.

No que diz respeito à Ciência de Dados, os volumes envolvidos são muitas vezes muito grandes, razão pela qual nesta fase são geralmente dados amostrados. Essa parte da
recuperação e transformação de dados é chamada de “engenharia de recursos” e representa uma parte significativa do tempo gasto em um projeto de Data Science. É também nesta fase que abordamos, junto da profissão que realiza o projeto, o DPO (Data Protection Officer) para tratar das questões do CNIL e do RGDP.

É fundamental que o Engenheiro de Dados estude a industrialização do código desde o início do projeto. De fato, as restrições em termos de desempenho, volume, monitoramento e estabilidade na produção são mais complexas do que na fase de estudo. A estreita colaboração entre o negócio, o Cientista de Dados e o Engenheiro de Dados é essencial para realizar um projeto de Ciência de Dados.

Oferecer um único ponto de entrada para problemas de dados facilita as coisas internamente. Se amanhã uma subsidiária tiver necessidades específicas, ela sabe que, entrando em contato conosco, terá tanto habilidades para extrair os dados e transformá-los, mas também pessoas que poderão modelá-los. Também oferecemos colaborações à la carte, quando as outras subsidiárias já possuem um cientista de dados ou um engenheiro de dados. Caso isso não seja de nossa competência, podemos direcionar as solicitações para outros departamentos do Departamento.

diagramme-664x683.jpg
diagramme-664×683.jpg

Com quais outros departamentos você trabalha internamente? Em que assuntos?

O nosso departamento tem um posicionamento muito transversal, pelo que podemos trabalhar com todos os departamentos e filiais do grupo. Oferecemos apoio em torno de dois tipos principais de projetos, nomeadamente a exploração de tecnologias de Big Data e Data Science, para consultoria, ideação, POC, design e desenvolvimento. Desde a criação do serviço, na parte de Engenharia de Dados, conseguimos apoiar subsidiárias como a Max na implementação de sua plataforma Data ou Suravenir para a otimização dos cálculos atuariais. No que diz respeito à IA e Data science, temos trabalhado no problema da prevenção do sobreendividamento, dos acidentes informáticos ou da concessão de crédito.

Quais desafios relacionados a dados uma grande empresa bancária como a Arkéa enfrenta?

Temos problemas particulares porque temos acesso a um volume muito grande de dados. Isso pode dar novas perspectivas a problemas anteriormente gerenciados de maneira tradicional. Por exemplo, trabalhamos no problema da prevenção do superendividamento. Foi feito até então com regras bastante empíricas, com base em casos muito concretos. Viramos o problema de cabeça para baixo, começando com os pedidos de superendividamento no Banque de France. Analisamos os dados disponíveis para detectar automaticamente comportamentos de risco mais de seis meses antes do arquivamento desses arquivos. Temos também um papel a desempenhar na aculturação e transformação do grupo nestes temas, em particular através do lançamento de um “Programa de Dados” para apresentar aos colaboradores do grupo as profissões e projetos em torno dos Dados. Neste contexto e para além destas ações, vamos recrutar cada vez mais especialistas em DATA nos próximos 3 anos.

Quais são as especificidades do seu trabalho diário?

Uma de nossas especificidades é trabalhar diretamente com os negócios, como as equipes operacionais que gerenciam o superendividamento ou o compliance se tomarmos o exemplo citado acima. Isso nos permite ter uma visão bastante abrangente dos negócios do grupo, por não estarmos presos apenas ao papel de desenvolvedor ou gerente de projetos. Essa visão nos permite ter uma perspectiva interessante e diferente sobre o que é feito e, portanto, realizar nossos projetos de forma mais eficaz.

Com quais ferramentas e em qual ambiente tecnológico você trabalha?

O engenheiro de dados da Arkéa trabalha quase essencialmente em torno do
ecossistema Hadoop. É um ambiente de Big Data no qual os dados
do SI são despejados. A fase de exploração e extração de dados é realizada
principalmente usando a linguagem PIG. Esta última é uma linguagem de alto nível que
permite a interação com o Hadoop com uma sintaxe bastante próxima da SQL. o
Sendo as funcionalidades deste último bastante limitadas, a linguagem Java, habitualmente utilizada nas aplicações web do grupo, é utilizada para desenvolver funções mais complexas, como o lançamento de modelos de Machine Learning ou cálculos estatísticos. Também podemos ter que trabalhar com outras linguagens como Python ou Javascript, principalmente nas fases de POC ou pré-estudo.

Quais são as principais vantagens que você encontra em seu trabalho na Arkéa?

Historicamente, a Arkéa foi uma das pioneiras do Big Data na França ao montar um cluster Hadoop em 2009. Essa plataforma permite armazenar dados de fontes heterogêneas no SI, tanto em bancos de dados abertos quanto em Mainframe. Isso nos permite ter desenvolvedores e arquitetos experientes e um olhar muito mais especializado e crítico sobre as tecnologias que tornam o Big Data mais acessível, como as soluções em nuvem. Atualmente utilizamos um cluster interno com 200 máquinas, o que nos oferece garantias em termos de segurança em particular. Estamos, portanto, na vanguarda dos nossos assuntos, o que permite uma real realização profissional. De maneira mais geral, temos real liberdade técnica para realizar nossos projetos como desejamos.

pt_BRPortuguese