A inevitabilidade dos direitos de uso de dados em modelos generativos

A inevitabilidade dos direitos de uso de dados em modelos generativos

thanos

Uma das coisas pouco faladas em todas as discussőes sobre inteligẽncia Artificial e dos modelos generativos e os Large Language Models (LLM) üe a inevitabilidade da discussão sobre os direitos de uso, uso justo, e pagamento de royaties de uso para plataformas que são baseadas em dados gerados pelos usuários.

Por exemplo, o Stack Overflow vai demandar compensaçäo financeira pelo direito de uso pelo fato de que a sua base de dados de perguntas e respostas sobre programação está sendo usada como insumo de treinamento de vários LLMs, em especial o ChatGPT:

OpenAI, Google, and other companies building large-scale AI projects have traditionally paid nothing for much of their training data, scraping it from the web. But Stack Overflow, a popular internet forum for computer programming help, plans to begin charging large AI developers as soon as the middle of this year for access to the 50 million questions and answers on its service, CEO Prashanth Chandrasekar says. The site has more than 20 million registered users.

O Reddit já está mudando os termos de uso para a utilização da API e ao que parece, vai ficar mais difícil de usar a base deles como input para treinamento dos modelos:

Reddit has not specified the cost, but said in its news release that it will introduce a “new premium access point for third parties who require additional capabilities, higher usage limits, and broader usage rights.” The company says it will update its Terms and Conditions to clarify what cases are acceptable to utilize Reddit’s data, saying as of Tuesday, developers and third parties will be notified of the new terms which will take effect within 60 days of receiving the notice.

Steve Huffman, Reddit’s founder and chief executive, told The New York Times, “Crawling Reddit, generating value, and not returning any of that value to our users is something we have a problem with,” Mr. Huffman said. “It’s a good time for us to tighten things up.” He added, “We think that’s fair.”

Três conversas que vão ter que acontecer inevitavelmente nessas águas desconhecidas dos modelos generativos e de LLMs são: