quinta-feira, 31 de janeiro de 2019

Este algoritmo navega na Wikipédia para auto geração de livros - MIT Technology Review



Aprendizado de Máquina - O Guia Completo é um tomo pesado. Em mais de 6.000 páginas, este livro é uma introdução abrangente ao aprendizado de máquina, com capítulos atualizados sobre redes neurais artificiais, algoritmos genéticos e visão de máquina.


Mas esta não é uma publicação comum. É um Wikibook, um livro que qualquer pessoa pode acessar ou editar, composto de artigos na Wikipedia, a vasta enciclopédia on-line.

Isso é uma força. Informações de crowdsourcing são constantemente atualizadas com todos os avanços mais recentes e consistentemente editadas para corrigir erros e ambigüidades.

Mas também é uma fraqueza. A Wikipedia é vasta. Decidir o que incluir em tal livro-texto é uma tarefa difícil, e talvez por isso o livro seja tão grande. Com mais de 550 capítulos, não é leitura leve.


Isso levanta uma questão interessante. Dados os avanços da inteligência artificial nos últimos anos, existe uma maneira de editar automaticamente o conteúdo da Wikipédia de modo a criar um todo coerente que seja útil como livro didático? 

Aí temos Shahar Admati e seus colegas, na Universidade Ben-Gurion, do Negev, em Israel. Esses caras desenvolveram uma maneira de gerar automaticamente Wikilivros usando aprendizado de máquina. Eles chamam sua máquina de bot do Wikibook. “A novidade de nossa técnica é que ela visa gerar um Wikilivro inteiro, sem envolvimento humano”, dizem eles.

A abordagem é relativamente simples. Os pesquisadores começaram identificando um conjunto de Wikilivros existentes que podem atuar como um conjunto de dados de treinamento. Eles começaram com 6.700 Wikilivros incluídos em um conjunto de dados disponibilizado pela Wikipedia para este tipo de estudo acadêmico.

Como esses Wikilivros formam uma espécie de padrão ouro tanto para treinamento quanto para testes, a equipe precisava de uma maneira de garantir sua qualidade. "Escolhemos nos concentrar nos Wikilivros que foram vistos pelo menos mil vezes, com base na suposição de que os Wikilivros populares são de qualidade razoável", dizem eles.

Isso deixou 490 Wikilivros que eles filtraram ainda mais, com base em fatores como ter mais de 10 capítulos. Isso deixou 407 Wikibooks que a equipe usou para treinar suas máquinas.

A equipe então dividiu a tarefa de criar um Wikibook em várias partes, cada uma delas requer uma habilidade de aprendizado de máquina diferente. A tarefa começa com um título gerado por um ser humano, descrevendo um conceito de algum tipo, como Aprendizado de Máquina - O Guia Completo.

A primeira tarefa é classificar todo o conjunto de artigos da Wikipedia para determinar quais são relevantes o suficiente para incluir. “Essa tarefa é desafiadora devido ao grande volume de artigos que existem na Wikipedia e à necessidade de selecionar os artigos mais relevantes entre milhões de artigos disponíveis”, dizem Admati e colaboradores.

Para ajudar nessa tarefa, a equipe usou a estrutura de rede da Wikipedia - os artigos geralmente apontam para outros artigos usando hiperlinks. É razoável supor que o artigo vinculado provavelmente seja relevante.

Então eles começaram com um pequeno núcleo de artigos que mencionam o conceito de semente no título. Eles então identificaram todos os artigos que estão a três saltos dessas sementes na rede.

Mas quantos desses artigos vinculados devem ser incluídos? Para descobrir, eles começaram com os títulos dos 407 Wikilivros criados por humanos e realizaram a análise de três saltos. Eles então calcularam quanto do conteúdo dos livros criados por humanos foi incluído pela abordagem automatizada.

Acontece que a abordagem automatizada muitas vezes incluía muito do conteúdo original do Wikilivro, mas significativamente além disso. Então a equipe precisava de outra maneira de podar mais o conteúdo.

Mais uma vez, a ciência da rede entra em cena. Cada Wikibook gerado por humanos tem uma estrutura de rede própria, determinada pelo número de links que apontam de outros artigos, o número de links apontados, a listagem de rankings dos artigos incluídos, e assim por diante.

Assim, a equipe criou um algoritmo que analisou cada artigo selecionado automaticamente para um determinado tópico e, em seguida, determinou se incluí-lo em um Wikibook tornaria a estrutura de rede mais semelhante aos livros gerados por humanos ou não. Caso contrário, o artigo é omitido.

O próximo passo é organizar os artigos em capítulos. Esta é essencialmente uma tarefa de clustering; olhar para a rede formada por todo o conjunto de artigos e descobrir como dividi-la em clusters coerentes. Vários algoritmos de clustering estão disponíveis para esse tipo de tarefa.

A etapa final é determinar a ordem na qual os artigos devem aparecer em cada capítulo. Para fazer isso, a equipe organiza os artigos em pares e usa um modelo baseado em rede para determinar quais devem aparecer primeiro. Ao repetir isso para todas as combinações de pares de artigos, o algoritmo trabalha uma ordem preferida para os artigos e, portanto, os capítulos.

Dessa forma, a equipe conseguiu produzir versões automatizadas do Wikilivros que já haviam sido criadas por humanos. O quão bem esses livros automatizados se comparam com os gerados por humanos é difícil de julgar. Eles certamente contêm muito do mesmo material, muitas vezes em uma ordem similar, o que é um bom começo.

Mas Adamti e co têm um plano para determinar a utilidade de sua abordagem. Eles planejam produzir uma variedade de Wikilivros sobre assuntos ainda não cobertos por livros gerados por humanos. Eles, então, monitorarão as exibições de páginas e as edições desses livros para ver o quão populares elas se tornam e o quanto são editadas, em comparação com os livros gerados por humanos. "Este será um teste do mundo real para a nossa abordagem", dizem eles.

Esse é um trabalho interessante que tem o potencial de produzir livros-texto valiosos sobre uma ampla gama de tópicos e até mesmo criar outros textos, como os anais de conferências. O quão valioso eles serão para os leitores humanos ainda está por ser determinado. Mas nós estaremos observando para descobrir.

Ref: arxiv.org/abs/1812.10937 : Wikibook-Bot—Automatic Generation of a Wikipedia Book  

TRADUÇÃO DE:
This algorithm browses Wikipedia to auto-generate textbooks
Wikipedia is a valuable resource. But it’s not always obvious how to collate the content on any given topic into a coherent whole.
by Emerging Technology from the arXiv  January 9, 2019

https://www.technologyreview.com/s/612726/this-algorithm-browses-wikipedia-to-auto-generate-textbooks/