Google może wykorzystywać treści internetowe do szkolenia podstawowych funkcji wyszukiwania, w tym przeglądów sztucznej inteligencji, które generują podsumowania na szczycie wyników, nawet gdy wydawcy specjalnie wykorzystali własne narzędzia Google, aby wybrać tę treść ze szkolenia AI, dyrektor firmy potwierdzony w sądzie federalnym.

To świadectwo, Dostarczone w piątek , potwierdza lukę między intencją wydawcy a praktykami danych Google dla jego najważniejszych aplikacji AI, ujawniając ograniczenia mechanizmów kontroli oferowanych właścicielom stron internetowych.

Wyróżnienie pojawiło się podczas fazy rekultywa pytając, że główny mechanizm Google oferuje wydawcom blokowanie szkolenia AI-dyrektywa o nazwie

Department of Justice Aguil Press. Gemini „AI Model” i umieszcza go w wyszukiwaniu, w wyszukiwarce Org ma możliwość szkolenia danych, które wydawcy zrezygnowali ze szkolenia, poprawnie? “

Collins potwierdził:„ Prawidłowo-do użytku w wyszukiwaniu “. 

Znane rozróżnienie, obecnie pod kontrolą antymonopolową

Podczas gdy zeznania Collinsa doprowadziło ten problem w reflektor antymonopolowy, Google wcześniej wskazał tę separację. Krótko po wprowadzeniu Google-Extended firma

W tym czasie Google stwierdził, że SGE, będąc funkcją wyszukiwania, podlegał standardowym sterowaniu webmasterem wpływającym na widoczność wyszukiwania, takie jak „noindex` meta tagów lub tradycyjne roboty. Za pośrednictwem robot.txt i metataga Noindex do zarządzania ich treścią w wynikach wyszukiwania, w tym eksperymenty, takie jak doświadczenie generatywne wyszukiwania”,

Niektórzy wydawcy badali inne metody, takie jak użycie „kontroli podglądu” („noSnippet”, “ Max-snippet’), co sugeruje, ile treści może ograniczyć treść, jest wyświetlana w AI. Przegląd, choć nie dotyczy to podstaw danych do szkolenia.

tworzenie samej kontroli przedłużonej Google, zwłaszcza z ciał takich jak

Szersze konflikty branżowe dotyczące danych AI

Istnieją praktyki Google w szerszym kontekście napięcia między programistami AI i twórcami treści. Wielu wydawców i grup medialnych wyraziło alarmy lub podjęły działania, takie jak proaktywnie blokujące okalekce AI, nad niekompensowanym wykorzystaniem ich materiału do budowy cennych modeli AI. Cloudflare w marcu uruchomił AI Labyrinth, system, który wprowadza w błąd nieautoryzowane boty Crawling AI, zatrzymując je w automatycznie generowanych labiryntach treści, aby zaoferować wydawcom dodatkową opcję.

Tymczasem w trakcie ustawień optaków i ignorowania optaków i ignorowania optaków i ignorowania opt i ignorowania Signals i New York i niniejszego roku Kontynuując głośną sprawę przeciwko zarówno OpenAI, jak i Microsoft w sprawie rzekomego powszechnego naruszenia praw autorskich.

Podczas gdy niektóre firmy AI, takie jak OpenAi, prowadzą aktualizacje licencji treści z wydawcami, używa się w historycznie możliwości indeksowania sieci publicznej, która sformalizowana jest w zakresie funkcji, jaką jest funkcje, jakby funkcje, które można znaleźć w zakresie funkcji i kompilacji. Google Transate, Bard i Cloud AI “. Google zabezpieczył również zgłoszoną roczną ofertę w wysokości 60 milionów dolarów z Reddit w lutym 2024 r.

Skala zaangażowanych danych jest ogromna. Wewnętrzny dokument Google wymieniony podczas zeznań Collinsa wskazał, że stosowanie wydawcy rezygnacji (za pośrednictwem Extended Google) odfiltrowało 80 miliardów treści „tokeny” (elementy danych tekstowych używanych do szkolenia) z 160 miliardów tokenów danych przeznaczonych również do treningu głębinowego-zasadniczo usunięciem w połowie danych zebranych danych opartych na wydawca Demis Hassabis DeepMind o potencjalnej wartości korzystania z szerokiego wyszukiwania Google, w tym sygnałów rankingowych, w celu dalszego zwiększenia wydajności modelu AI, jak donosi Bloomberg.

Implikacje antymonopolowe i obronę Google

To szczegółowe spojrzenie na praktyki danych Google ma zasadnicze znaczenie dla trwających badań przeciwprawnych. Sędzia Amit Mehta, po tym, jak Google już nielegalnie utrzymał monopol na wyszukiwanie, musi teraz zdecydować o proponowanych poprawkach DOJ. Obejmują one potencjalnie wymuszanie sprzedaży chromowanej przeglądarki i zakazanie rodzajów wyłącznych ofert domyślnych, w tym AI takich jak Gemini), które pomogły w celu uzyskania dominacji Google.

DOJ twierdzi, że Google niesprawiedliwie wykorzystuje swoją siłę wyszukiwania i dostęp do danych w AI, a także do dużej płatności na rzecz Samsung na gemini wstępne instalowanie w przeszłości AI. Zachowanie.

Google odpowiada, że ​​jego sukces wynika z najwyższej jakości produktów i że konkurencja AI jest solidna, a producenci chatbot często uderzają bezpośrednio z dostawcami treści dla określonych potrzeb danych, pomijając poleganie na indeksach internetowych. Dyrektor generalny Sundar Pichai zdecydowanie argumentował przeciwko środkom DOJ, nazywając udostępnianie danych wymaga „de facto zbycia wyszukiwania”, które podważałyby zdolność firmy do finansowania badań i rozwoju.

Podczas gdy Google wcześniej wprowadził niezbędne informacje na podstawie danych dotyczących wyników w zakresie wykonywania narzędzi AI. Decyzja sędziego Mehty w sprawie środków przeciwpożarowych jest oczekiwana pod koniec tego roku.