O Google pode utilizar o conteúdo da Web para treinar seus principais recursos de pesquisa, incluindo as visões gerais da IA que geram resumos no topo dos resultados, mesmo quando os editores usaram especificamente as próprias ferramentas do Google para optar por esse conteúdo do treinamento da IA, um executivo da empresa reconheceu no tribunal federal. href=”https://www.bloomberg.com/news/articles/2025-05-03/google-can-train-earch-ai-with-web-content-ven-AFter-Opt-Out? Taid=681562768AC612000125AA87 & UTM_CAMPAIGN=TrueAnthem & utm_medium=Social & utm_source=Twitter”Target=”_ Blank”> entregue sexta-feira , confirma uma lacuna entre a intenção do editor e as práticas de dados do Google para seus aplicativos de IA mais proeminentes, revelando limitações nos mecanismos de controle oferecidos aos proprietários do site. Sob questionando que o mecanismo principal do Google oferece aos editores para bloquear o treinamento de IA-uma diretiva chamada
Collins afirmou:”Correto-para uso na pesquisa”. Enquanto o testemunho de Collins trouxe a questão para o holofote antitruste, o Google havia indicado anteriormente essa separação. Shortly after introducing Google-Extended, the company clarified in October 2023 that this specific AI training control did not apply to its Search Generative Experience (SGE) – the experimental feature that evolved into AI Overviews (Resumos gerados pela IA que aparecem diretamente nas páginas de resultados de pesquisa). Na época, o Google declarou SGE, sendo um recurso de pesquisa, foi governado por controles de webmaster padrão que afetam a visibilidade da pesquisa, como’Peresex’METATINGS TAGS ou ROBOTS tradicional.txt `desarranjo’. robots.txt e a meta-tag noindex para gerenciar seu conteúdo nos resultados da pesquisa, incluindo experimentos como a experiência generativa de pesquisa”, “_ _ em branco”> como mecanismo de pesquisa relatada por um mecanismo de pesquisa As práticas do Google existem dentro de um contexto mais amplo de tensão entre desenvolvedores de IA e criadores de conteúdo. Numerosos editores e grupos de mídia expressaram alarme ou medidas tomadas, como bloquear proativamente os rastreadores da Web de IA, sobre o uso não compensado de seu material para construir modelos valiosos de IA. O Cloudflare em março lançou a AI Labyrinth, um sistema que engana os rastreadores de AI não autorizados, prendendo-os em conteúdo gerado automaticamente, para oferecer aos editores uma opção adicional. Perseguindo um caso de alto perfil contra o OpenAI e Microsoft por suposto violação generalizada de direitos autorais. Como os recursos do Google Traduzir, Bard e Cloud AI.”O Google também garantiu um acordo anual de US $ 60 milhões com o Reddit em fevereiro de 2024. A escala de dados envolvidos é imensa. Um documento interno do Google referenciado durante o testemunho de Collins indicou que a aplicação de opt-out (via Google-Extended) filtrou 80 bilhões de conteúdo”Tokens”(peças de dados de texto usados para treinamento) a partir de um conjunto de dados de Token de 160 bilhões de dados em que o Touchation também se destinou ao treinamento em que o Treinamento de Mind. O CEO da DeepMind Demis Hassabis sobre o valor potencial de usar os vastos dados de pesquisa do Google, incluindo sinais de classificação, para melhorar ainda mais o desempenho do modelo de IA, conforme relatado por Bloomberg. O juiz Amit Mehta, já tendo encontrado o Google mantido ilegalmente seu monopólio de pesquisa, deve agora decidir sobre as correções propostas pelo DOJ. Isso inclui potencialmente forçar uma venda do navegador Chrome e proibir os tipos de acordos de posicionamento padrão exclusivos (inclusive para IA como Gêmeos) que ajudaram a cimentar o domínio do Google. O Google contraria que seu sucesso decorre de produtos superiores e que a competição de IA é robusta, com os fabricantes de chatbot geralmente atingindo acordos diretos com provedores de conteúdo para necessidades específicas de dados, ignorando a dependência de índices da Web. O CEO Sundar Pichai discutiu fortemente contra os remédios do DOJ, chamando o compartilhamento de dados exige uma”desinvestimento de fato da pesquisa”que prejudicaria a capacidade da empresa de financiar pesquisas e desenvolvimento. Uma decisão do juiz Mehta sobre os remédios antitruste é esperada ainda este ano. Uma distinção conhecida, agora sob escrutínio antitruste
conflitos mais amplos da indústria sobre dados de dados
Categories: IT Info