Antropikus tanulmány térképek Claude AI valós értékei, kiadják az adatkészletet

Antropikus a hétfőn közzétett új kutatás révén ritka áttekintést nyújt AI asszisztens, Claude működési értékeire. Az „Értékek a vadonban” című tanulmány arra törekszik, hogy empirikusan feltérképezze a normatív megfontolásokat, amelyeket Claude kifejez több százezer valódi felhasználói interakcióban, magánélet-központú módszertant alkalmazva, és nyilvánosan elérhető “> datas,”> datasetface.co/dataSets/anthropic/Values-on–wild/”célpont. Értékek . Ennek vizsgálatához az antropikus a Claude.ai Free and Pro felhasználók 700 000 anonimizált beszélgetésének mintáját elemezte, amelyet 2025 februárjában egy héten (február 18-25-én) gyűjtöttek be. Részletes a kutatási prepint . src=”https://winbuzzer.com/wp-content/uploads/2024/12/anthropic-ai-safety.jpg”>

Claude kifejezett normáinak kicsomagolása

A saját nyelvmodellek felhasználásával), a magánszervezésen keresztül, a clio és a CLAUUDS megfigyelések felhasználásával, és a CLIOUDS-t, a CLIOUDS-t, a CLIOUDS-t és a CLAUDS-t. Kivonott példányok, ahol Claude bebizonyította vagy megadta az értékeket. A clio többszörös biztosítékokat alkalmaz , például a modell utasítása a privát részletek kihagyására, a minimális klaszterméret beállítása az aggregáláshoz (gyakran több mint 1000 felhasználó egy klaszterre), és az AI-t, hogy az AI-ba. 3,307 Különböző AI-értékek és a felhasználói bemenetek elemzésével 2483 egyedi emberi értékek. Az emberi validálás megerősítette, hogy az AI érték-extrahálás jól megfelel az emberi megítélésnek (98,8%-os megegyezés a mintában szereplő esetekben). Gyakorlati (hatékonyság, minőség) és episztemikus (tudás validálási, logikai konzisztencia) értékei dominálnak, a megfigyelt példányok több mint felét képezik. AI A Claude karakterének .

megfigyelt értékei, mint a „felhasználói térkép” (hasznos), az „Epistemiás alanyosság” (őszinte) és a „betegkút” (ártalmatlan), a „felhasználói térkép” című cikk megközelítése és működése. Az elemzés azonban nem volt teljesen tiszta; A nemkívánatos értékek, például a „dominancia” és az „amoralitás” ritka klasztereit szintén kimutatták, amelyek az antropikusok szerint összefüggésben lehetnek a modell börtönbe kerülésére a felhasználói kísérletekkel, potenciálisan új jelet kínálva a visszaélés észlelésére. Az AI asszisztens a feladattól függően hangsúlyozza a különböző normákat-a vitatott történelmi események megbeszélésekor az „egészséges határokat” előmozdítva a kapcsolati tanácsadás vagy a „történelmi pontosság” során. Az AI hajlandó támogatni, megerősítve vagy a felhasználó keretében való megerősítésre vagy a releváns interakciók nagyjából 43%-ában. Target=”_ üres”> ai sycophancy . A felhasználói értékekkel szembeni egyenes ellenállás ritka (5,4%), de figyelemre méltó, általában akkor fordul elő, amikor a felhasználók etikátlan tartalmat vagy cselekedeteket kértek az antropikus használati politikájának megsértésével. Picture

Az antropikus kiadta a származtatott érték taxonómiáját és frekvenciadatait Via Face , beleértve `értékeket. A modell által generált természet gondos értelmezést igényel. 2025. február.

Antropikus tanulmány térképek Claude AI valós értékei, kiadják az adatkészletet

Published by All Things Windows on April 21, 2025

Claude kifejezett normáinak kicsomagolása

IT Info

Adjon hozzá egyedi szavakat a Windows 11-ben a hanghozzáféréshez

IT Info

A Security Audit szerint a Pulexity Android alkalmazása nem biztonságos, idézi a kritikus hibákat

IT Info

A Meta fokozza az Instagram életkor-ellenőrzéseit proaktív AI rendszerrel

Antropikus tanulmány térképek Claude AI valós értékei, kiadják az adatkészletet

Published by All Things Windows on April 21, 2025

Claude kifejezett normáinak kicsomagolása

Related Posts

IT Info

Adjon hozzá egyedi szavakat a Windows 11-ben a hanghozzáféréshez

IT Info

A Security Audit szerint a Pulexity Android alkalmazása nem biztonságos, idézi a kritikus hibákat

IT Info

A Meta fokozza az Instagram életkor-ellenőrzéseit proaktív AI rendszerrel