CDIA.Rio - Rede de Ciência de Dados & Inteligência Artificial do Rio de Janeiro

Open Data Science Conference East 2018

No inicio de maio/2018 participei da Open Data Science Conference – ODSC, em Boston. Nos dois primeiros dias assisti as apresentações do AccelerateAI East, discutindo como a IA esta ajudando empresas a se tornarem mais competitivas.

É claro que teve muita coisa interessante, mas percebi uma preocupação dos organizadores em pontuar o que já é realmente possível alcançar com o uso da CD e IA nos dias de hoje e precauções a serem observadas. O assunto apareceu em diversas apresentações, inclusive dos seguintes Keynote Speakers: Ruchir Puri, que é o Arquiteto Chefe do IBM Watson; Gary Marcus, prof. da NYU e ex-Diretor do Uber AI Labs; e Chaterine O’Neil, autora do livro “Weapons of Math Destruction” [27].

Já tinha assistido uma apresentação do Ruchir Puri em 2017 e agora não foi muito diferente, quase uma “contra propaganda” do Watson, na medida em que ele descreveu um caminho muito mais difícil para aplicar IA “pra valer” dentro das empresas. Quanto maior a corporação mais os dados estão espalhados, com muita coisa ainda em planilhas e, no pior cenário, armazenadas no formato PDF, que torna ainda mais complexa a extração automatizada de informações. O Gary Marcus foi na mesma linha, mostrando que a IA já pode ser usada para fazer muita coisa, mas que ainda tem diversas limitações. A Chaterine O’Neil completou este cenário lembrando que os modelos matemáticos preparados para uma determinada finalidade podem gerar resultados imprevistos se forem usados em outros contextos ou com dados de origens diversas. Aliás, dados podem ser tendenciosos e é preciso tratá-los para evitar discriminações.

A preocupação com o uso ético da CD e IA esta na ordem do dia e continua gerando polêmicas. Recentemente foi publicada “The Toronto Declaration: Protecting the rights to equality and non-discrimination in machine learning systems” [28] e na semana que passou começou a vigorar a General Data Protection Regulation – GDPR – na União Europeia [31]. É por isto que temos uma sessão sobre Ética e Legislação no informativo digital da CDIA.Rio, sempre com links interessantes sobre esta temática.

Voltando a ODSC East 2018, um outro assunto recorrente foi a formação de equipes de Ciência de Dados e os diferentes perfis profissionais envolvidos. Todo mundo esta atrás daquele sujeito que joga em qualquer posição mas que ninguém encontra. A gestão destas equipes tem suas peculiaridades mas o novo “alvo” agora é ter um time capaz de entregar “DataOps”. Quem tem um perfil mais técnico pode supor que é uma derivação do DevOps, e é isto mesmo, com os devidos ajustes. Várias apresentações trataram disto e já existe até um manifesto disponível na internet [16].

Olhando para o futuro, “Top Ten Current and Future Trends in AI, Machine Learning, and Data Science” foi o título da apresentação do Kirk Borne, um outro Keynote Speaker, que é o Cientista de Dados Principal na Booz Allen Hamilton. Além do DataOps, ele destacou IoT, Hiper-personalização, Máquinas Inteligentes, Realidade Aumentada, Análise de Grafos e comportamentos, “Journey Sciences” e Economia da Experiência. O cara é muito bom e compartilha muita coisa no site dele em www.kirkborne.net, inclusive a apresentação acima mencionada.

Quero pegar o gancho do “Journey Sciences”, para o qual não encontrei ainda uma boa tradução, para falar deste novo tipo de software que esta ganhando cada vez mais popularidade entre quem mexe com CD e IA. São os Notebooks, dos quais o mais famoso é o Jupyter. Uma implementação alternativa é o Zeppelin da Apache, que tem entre seus criadores o Moon soo Lee, responsável também por uma implementação comercial chamada ZEPL, e que fez uma apresentação no evento. Os Notebooks são ferramentas de colaboração e compartilhamento de informações capazes de armazenar dados e trechos de código executável de diversas linguagens de programação. O uso na acadêmia vem crescendo e o Google acabou de lançar uma implementação própria chamada Colab. Se você não tinha ouvido falar disto ainda, vale dar uma conferida! Tem inclusive um link [43] para um tutorial sobre o Jupyter mais abaixo.

Outro Keynote Speaker foi o Alex “Sandy” Pentland, prof. do MIT, que trabalha com plataformas computacionais descentralizadas e é considerado um dos mais influentes cientistas de dados do mundo. Em particular, descreveu uma técnica chamada MPC (Multi-Party Computation), que permite compartilhar dados criptografados e calcular somatórios, medias e desvios sem violar a privacidade das partes envolvidas. Me impressionou também a afirmação dele sobre ser possível extrair informações relevantes sobre cada indivíduo trocando informações criptografadas na internet. Ele teria ajudado a identificar novos membros de uma célula terrorista nos EUA com base na troca de mensagens entre um número muito menor de suspeitos indicados por uma agência do governo (e olha que era outro o Keynote com sobrenome Borne, kkkk). Estas pesquisas já estão no mercado, na forma de protocolos, chamados Enigma e Endor, respectivamente.

Quero destacar também a questão da descentralização de dados, contrária ao movimento de criação dos armazéns de dados e, mais recentemente, dos lagos de dados (Data Lakes). O investimento para colocar uma quantidade enorme de dados num único repositório é muito grande para a maioria das empresas e os resultados nem sempre são satisfatórios. Isto é bem explorado num artigo [20] indicado na seção Modelos, técnicas e ferramentas.

O segundo dia da ODSC East 2018 foi o mais puxado, com 2 meetups consecutivos depois das 18h, após uma programação recheada de palestras e apresentações. Destaco o “Data Science, Data Optimism”, conduzido pelo Allen Downey, PhD e prof. de Ciência da Computação no Olin College of Engineering. Segundo ele, a ciência de dados pode e deve ser usada para tornar o mundo um lugar melhor. Apresentou exemplos concretos de como fazer isto e falou de um movimento chamado Data Science for the Social Good – DSSG, que ganha cada vez mais adeptos e que já conta com inúmeros repositórios no Github. Até a ONU esta envolvida com isto, através do seu Global Pulse (www.unglobalpulse.org), mas merecem destaque também as iniciativas DataKind e DrivenData. Aqui pelo Brasil o tema foi abordado numa das sessões do Painel Telebrasil 2018 [10].

Fechando minhas impressões sobre a ODSC East 2018, não poderia deixar de mencionar a RapidMiner. Eles apresentaram um tutorial chamado “Sem caixas pretas: como resolver problemas reais de ciência de dados com automação mas sem perder a transparência”. Haviam outras soluções concorrentes se apresentando no evento mas como embaixador da RapidMiner para o Brasil peço licença para te convidar a dar uma conferida na solução deles. Visitei o novo escritório da empresa em Boston e a equipe lá é fera e estão todos motivados pelo reconhecimento crescente do mercado, comprovado inclusive numa pesquisa que acabou de ser divulgada [2].

Na apresentação que fiz sobre a ODSC durante a reunião da CDIA.Rio deste mês pude contar mais coisas e compartilhei com os presentes uma apresentação com fotos que tirei dos slides mais interessantes. Se quiser receber uma cópia da mesma é só pedir! Um outro relato sobre esta mesma conferência esta disponível no link [45]. Certamente recomendo este evento para quem esta procurando boas conferências sobre Ciência de Dados.

Outro evento de excelente nível, mostrando aplicações práticas de Aprendizado de Máquina, é o Papis LatAm 2018 que acontece agora em junho na cidade de São Paulo (o link esta na seção Eventos). Considerando a quantidade de palestrantes internacionais e o fato de que não precisa levar o passaporte para chegar lá, a relação custo x benefício é difícil de ficar melhor (aproveite preços diferenciados até 5/jun). Mas é preciso entender Inglês para acompanhar as apresentações dos Gringos … Se isto for um problema, a melhor alternativa serão as apresentações da CDIA.Rio na tarde de 25 de setembro durante o Rio Info 2018. Sobre isto eu conto mais numa próxima edição deste informativo.

Já sobre esta edição, a novidade é a seção “Dados e Repositórios”, com links para fontes de dados públicas que podem ser valiosas para diferentes projetos. Já indicamos outros repositórios em edições anteriores mas acreditamos que será mais fácil identificar estas fontes desta maneira. Fique atento, contudo, pois repositórios podem estar “escondidos” em outros artigos, como é o caso do link [12], já em homenagem a Copa do Mundo que se aproxima, e que usa o “FIFA 18 Complete Player Dataset” para montar a escalação de um time ideal.

Se você tiver outras sugestões para melhorar este informativo temos todo o interesse em ouvi-las. Sugestões de novos links para as próxima edições também são bem vindas.