Informações e artigos selecionados sobre Ciência de Dados e Inteligência Artificial
 
Informativo Digital #13 - 29/MAI/2018

Open Data Science Conference East 2018

No inicio de maio/2018 participei da Open Data Science Conference - ODSC, em Boston. Nos dois primeiros dias assisti as apresentações do AccelerateAI East, discutindo como a IA esta ajudando empresas a se tornarem mais competitivas.

É claro que teve muita coisa interessante, mas percebi uma preocupação dos organizadores em pontuar o que já é realmente possível alcançar com o uso da CD e IA nos dias de hoje e precauções a serem observadas. O assunto apareceu em diversas apresentações, inclusive dos seguintes Keynote Speakers: Ruchir Puri, que é o Arquiteto Chefe do IBM Watson; Gary Marcus, prof. da NYU e ex-Diretor do Uber AI Labs; e Chaterine O'Neil, autora do livro "Weapons of Math Destruction" [27].

Já tinha assistido uma apresentação do Ruchir Puri em 2017 e agora não foi muito diferente, quase uma "contra propaganda" do Watson, na medida em que ele descreveu um caminho muito mais difícil para aplicar IA "pra valer" dentro das empresas. Quanto maior a corporação mais os dados estão espalhados, com muita coisa ainda em planilhas e, no pior cenário, armazenadas no formato PDF, que torna ainda mais complexa a extração automatizada de informações. O Gary Marcus foi na mesma linha, mostrando que a IA já pode ser usada para fazer muita coisa, mas que ainda tem diversas limitações. A Chaterine O'Neil completou este cenário lembrando que os modelos matemáticos preparados para uma determinada finalidade podem gerar resultados imprevistos se forem usados em outros contextos ou com dados de origens diversas. Aliás, dados podem ser tendenciosos e é preciso tratá-los para evitar discriminações.

A preocupação com o uso ético da CD e IA esta na ordem do dia e continua gerando polêmicas. Recentemente foi publicada "The Toronto Declaration: Protecting the rights to equality and non-discrimination in machine learning systems" [28] e na semana que passou começou a vigorar a General Data Protection Regulation - GDPR - na União Europeia [31]. É por isto que temos uma sessão sobre Ética e Legislação no informativo digital da CDIA.Rio, sempre com links interessantes sobre esta temática.

Voltando a ODSC East 2018, um outro assunto recorrente foi a formação de equipes de Ciência de Dados e os diferentes perfis profissionais envolvidos. Todo mundo esta atrás daquele sujeito que joga em qualquer posição mas que ninguém encontra. A gestão destas equipes tem suas peculiaridades mas o novo "alvo" agora é ter um time capaz de entregar "DataOps". Quem tem um perfil mais técnico pode supor que é uma derivação do DevOps, e é isto mesmo, com os devidos ajustes. Várias apresentações trataram disto e já existe até um manifesto disponível na internet [16].

Olhando para o futuro, "Top Ten Current and Future Trends in AI, Machine Learning, and Data Science" foi o título da apresentação do Kirk Borne, um outro Keynote Speaker, que é o Cientista de Dados Principal na Booz Allen Hamilton. Além do DataOps, ele destacou IoT, Hiper-personalização, Máquinas Inteligentes, Realidade Aumentada, Análise de Grafos e comportamentos, "Journey Sciences" e Economia da Experiência. O cara é muito bom e compartilha muita coisa no site dele em www.kirkborne.net, inclusive a apresentação acima mencionada.

Quero pegar o gancho do "Journey Sciences", para o qual não encontrei ainda uma boa tradução, para falar deste novo tipo de software que esta ganhando cada vez mais popularidade entre quem mexe com CD e IA. São os Notebooks, dos quais o mais famoso é o Jupyter. Uma implementação alternativa é o Zeppelin da Apache, que tem entre seus criadores o Moon soo Lee, responsável também por uma implementação comercial chamada ZEPL, e que fez uma apresentação no evento. Os Notebooks são ferramentas de colaboração e compartilhamento de informações capazes de armazenar dados e trechos de código executável de diversas linguagens de programação. O uso na acadêmia vem crescendo e o Google acabou de lançar uma implementação própria chamada Colab. Se você não tinha ouvido falar disto ainda, vale dar uma conferida! Tem inclusive um link [43] para um tutorial sobre o Jupyter mais abaixo.

Outro Keynote Speaker foi o Alex "Sandy" Pentland, prof. do MIT, que trabalha com plataformas computacionais descentralizadas e é considerado um dos mais influentes cientistas de dados do mundo. Em particular, descreveu uma técnica chamada MPC (Multi-Party Computation), que permite compartilhar dados criptografados e calcular somatórios, medias e desvios sem violar a privacidade das partes envolvidas. Me impressionou também a afirmação dele sobre ser possível extrair informações relevantes sobre cada indivíduo trocando informações criptografadas na internet. Ele teria ajudado a identificar novos membros de uma célula terrorista nos EUA com base na troca de mensagens entre um número muito menor de suspeitos indicados por uma agência do governo (e olha que era outro o Keynote com sobrenome Borne, kkkk). Estas pesquisas já estão no mercado, na forma de protocolos, chamados Enigma e Endor, respectivamente.

Quero destacar também a questão da descentralização de dados, contrária ao movimento de criação dos armazéns de dados e, mais recentemente, dos lagos de dados (Data Lakes). O investimento para colocar uma quantidade enorme de dados num único repositório é muito grande para a maioria das empresas e os resultados nem sempre são satisfatórios. Isto é bem explorado num artigo [20] indicado na seção Modelos, técnicas e ferramentas.

O segundo dia da ODSC East 2018 foi o mais puxado, com 2 meetups consecutivos depois das 18h, após uma programação recheada de palestras e apresentações. Destaco o "Data Science, Data Optimism", conduzido pelo Allen Downey, PhD e prof. de Ciência da Computação no Olin College of Engineering. Segundo ele, a ciência de dados pode e deve ser usada para tornar o mundo um lugar melhor. Apresentou exemplos concretos de como fazer isto e falou de um movimento chamado Data Science for the Social Good - DSSG, que ganha cada vez mais adeptos e que já conta com inúmeros repositórios no Github. Até a ONU esta envolvida com isto, através do seu Global Pulse (www.unglobalpulse.org), mas merecem destaque também as iniciativas DataKind e DrivenData. Aqui pelo Brasil o tema foi abordado numa das sessões do Painel Telebrasil 2018 [10].

Fechando minhas impressões sobre a ODSC East 2018, não poderia deixar de mencionar a RapidMiner. Eles apresentaram um tutorial chamado "Sem caixas pretas: como resolver problemas reais de ciência de dados com automação mas sem perder a transparência". Haviam outras soluções concorrentes se apresentando no evento mas como embaixador da RapidMiner para o Brasil peço licença para te convidar a dar uma conferida na solução deles. Visitei o novo escritório da empresa em Boston e a equipe lá é fera e estão todos motivados pelo reconhecimento crescente do mercado, comprovado inclusive numa pesquisa que acabou de ser divulgada [2].

Na apresentação que fiz sobre a ODSC durante a reunião da CDIA.Rio deste mês pude contar mais coisas e compartilhei com os presentes uma apresentação com fotos que tirei dos slides mais interessantes. Se quiser receber uma cópia da mesma é só pedir! Um outro relato sobre esta mesma conferência esta disponível no link [45]. Certamente recomendo este evento para quem esta procurando boas conferências sobre Ciência de Dados.

Outro evento de excelente nível, mostrando aplicações práticas de Aprendizado de Máquina, é o Papis LatAm 2018 que acontece agora em junho na cidade de São Paulo (o link esta na seção Eventos). Considerando a quantidade de palestrantes internacionais e o fato de que não precisa levar o passaporte para chegar lá, a relação custo x benefício é difícil de ficar melhor (aproveite preços diferenciados até 5/jun). Mas é preciso entender Inglês para acompanhar as apresentações dos Gringos ... Se isto for um problema, a melhor alternativa serão as apresentações da CDIA.Rio na tarde de 25 de setembro durante o Rio Info 2018. Sobre isto eu conto mais numa próxima edição deste informativo.

Já sobre esta edição, a novidade é a seção "Dados e Repositórios", com links para fontes de dados públicas que podem ser valiosas para diferentes projetos. Já indicamos outros repositórios em edições anteriores mas acreditamos que será mais fácil identificar estas fontes desta maneira. Fique atento, contudo, pois repositórios podem estar "escondidos" em outros artigos, como é o caso do link [12], já em homenagem a Copa do Mundo que se aproxima, e que usa o "FIFA 18 Complete Player Dataset" para montar a escalação de um time ideal.

Se você tiver outras sugestões para melhorar este informativo temos todo o interesse em ouvi-las. Sugestões de novos links para as próxima edições também são bem vindas.

Boas Leituras!

John Lemos Forman
[email protected]
Coordenador da CDIA.Rio




PRÓXIMO ENCONTRO

A CDIA.Rio se reúne novamente no próximo dia 5/junho (3a.feira), às 16h no TI.Rio(R. Buenos Aires, 68 - 32o. andar), com as seguintes apresentações:

Desta vez a reunião é exclusiva para os Membros Natos e Apoiadores da rede pois estamos preparando a programação da tarde de 25/setembro, que será uma das atrações do Rio Info 2018. Serão diversas apresentações sobre as principais tendencias tecnológicas e casos de sucesso no uso da CD e IA.

Não é membro da CDIA.Rio ainda ? Confira no rodapé desta mensagem os links para nosso site, onde estão publicados os diferentes tipos de associação e contatos para esclarecimento de dúvidas.




ARTIGOS SELECIONADOS

Estudos, Pesquisas e Estratégias

[1] Report to Congress on Artificial Intelligence and National Security

[2] Python eats away at R: Top Software for Analytics, Data Science, Machine Learning in 2018: Trends and Analysis

[3] India wants to fire up its A.I. industry. Catching up to China and the US will be a challenge

[4] EU Commission vows to spend €1.5 billion on artificial intelligence by 2020

[5] AI Strategies – Incremental and Fundamental Improvements




CDIA Aplicada

[6] Valor de mercado de AI nos negócios deve crescer 70% e chegar a US$ 1,2 tri em 2018

[7] 10 sinais de que você está pronto para a IA mas, ainda assim, pode fracassar

[8] Moda será revolucionada por algoritmos

[9] Why It Pays To Be An Early Adopter Of AI

[10] Big data: uso positivo dos dados tem efeitos na sociedade

[11] Top 7 Data Science Use Cases in Finance

[12] FIFA World Cup 2018: A Data-Driven Approach to Ideal Team Line-Ups

[13] Caixa experimenta chatbot para simular financiamento em seu feirão de imóveis

[14] Prediction, anticipation and influence: The importance of AI and machine learning in loyalty programs

[15] Colleges Use Data Analytics to Improve Network Performance




Modelos, técnicas e ferramentas

[16] The DataOps Manifesto

[17] Deep learning with synthetic data will democratize the tech industry

[18] Hiding Information in Plain Text

[19] A Platform Strategy Won’t Work Unless You’re Good at Machine Learning

[20] Beyond Data Lakes and Data Warehousing

[21] How to Organize Data Labeling for Machine Learning: Approaches and Tools

[22] A Wetware Approach to Artificial General Intelligence (AGI)

[23] Conceptual compression means beginners don’t need to know SQL — hallelujah!

[24] Complete Guide to Build ConvNet HTTP-Based Application using TensorFlow and Flask RESTful Python API

[25] Large scale distributed neural network training through online distillation

[26] 50+ Useful Machine Learning & Prediction APIs, 2018 Edition




Ética e Legislação

[27] Weapons of Math Destruction

[28] The Toronto Declaration: Protecting the rights to equality and non-discrimination in machine learning systems

[29] Few Rules Govern Police Use of Facial-Recognition Technology

[30] Navigating the risks of artificial intelligence and machine learning in low-income countries

[31] O que cientistas e engenheiros de dados precisam saber sobre o GDPR?




Empresas

[32] Intel Starts R&D Effort in Probabilistic Computing for AI

[33] Inside the Chinese lab that plans to rewire the world with AI

[34] Palantir Knows Everything About You

[35] Microsoft is creating an oracle for catching biased AI algorithms

[36] Qualcomm will gain more than its rivals do, as artificial intelligence grows at the ‘edge’




Dados e Repositórios

[37] A Brief Introduction to Wikidata

[38] Data USA offers new trove of statistics on more than 7,300 U.S. universities

[39] 25 Open Datasets for Deep Learning Every Data Scientist Must Work With





Primeiros Passos

[40] Big Data e análise de dados: como são aplicados e porque são o futuro

[41] Sistemas Inteligentes

[42] Carnegie Mellon Launches Undergraduate Degree in Artificial Intelligence

[43] Jupyter Notebook for Beginners: A Tutorial

[44] Finland offers free online Artificial Intelligence course to anyone, anywhere

[45] What I Enjoyed Most at ODSC East 2018





EVENTOS

• 30/mai - Meetup Analytics em Tudo
• 12 a 14/jun - CIAB Febrabam 2018
• 19 a 21/jun - PAPIS LatAm
• 8 a 13/jul - IEEE World Congress on Computational Intelligence
• Até 29/jul - AYA e seu mundo de inteligências artificiais criativas
• 27 a 31/ago - 44th International Conference on Very Large Data Bases
• 24 e 25/set - Rio Info 2018
• 10 a 13/dez - IEEE BigData 2018


Obrigado por sua atenção! Fique a vontade para enviar sugestões de textos ou vídeo que você acha que merecem ser incluídos numa próxima edição deste informativo. Comentários e críticas construtivas são igualmente bem-vindos!



  CDIA.Rio social fb social fb  
 
(21) 2507-4825 Rua Buenos Aires, 68. 32º andar,
Centro Rio de Janeiro - RJ
CEP: 20070-022
[email protected]
  www.riosoft.org.br
 

SOBRE CDIA.RIO

Quem recebe este informativo se cadastrou para recebê-lo gratuitamente em CDIA.Rio. Lá tem também mais informações sobre a Rede de Ciência de Dados e Inteligencia Artificial do Rio de Janeiro.
Fique a vontade para encaminhar esta mensagem para quem você quiser.
 
 
QUEM SOMOS

Objetivos

Coordenação da Rede
MEMBROS

Membros Natos

Membros Participantes

Membros Apoiadores

PRÓXIMOS ENCONTROS

Eventos