A
Antropikus a hétfőn közzétett új kutatás révén ritka áttekintést nyújt AI asszisztens, Claude működési értékeire. Az „Értékek a vadonban” című tanulmány arra törekszik, hogy empirikusan feltérképezze a normatív megfontolásokat, amelyeket Claude kifejez több százezer valódi felhasználói interakcióban, magánélet-központú módszertant alkalmazva, és nyilvánosan elérhető “> datas,”> datasetface.co/dataSets/anthropic/Values-on–wild/”célpont. Értékek . Ennek vizsgálatához az antropikus a Claude.ai Free and Pro felhasználók 700 000 anonimizált beszélgetésének mintáját elemezte, amelyet 2025 februárjában egy héten (február 18-25-én) gyűjtöttek be. Részletes a kutatási prepint . src=”https://winbuzzer.com/wp-content/uploads/2024/12/anthropic-ai-safety.jpg”>
Claude kifejezett normáinak kicsomagolása
A saját nyelvmodellek felhasználásával), a magánszervezésen keresztül, a clio és a CLAUUDS megfigyelések felhasználásával, és a CLIOUDS-t, a CLIOUDS-t, a CLIOUDS-t és a CLAUDS-t. Kivonott példányok, ahol Claude bebizonyította vagy megadta az értékeket. A clio többszörös biztosítékokat alkalmaz , például a modell utasítása a privát részletek kihagyására, a minimális klaszterméret beállítása az aggregáláshoz (gyakran több mint 1000 felhasználó egy klaszterre), és az AI-t, hogy az AI-ba. 3,307 Különböző AI-értékek és a felhasználói bemenetek elemzésével 2483 egyedi emberi értékek. Az emberi validálás megerősítette, hogy az AI érték-extrahálás jól megfelel az emberi megítélésnek (98,8%-os megegyezés a mintában szereplő esetekben). Gyakorlati (hatékonyság, minőség) és episztemikus (tudás validálási, logikai konzisztencia) értékei dominálnak, a megfigyelt példányok több mint felét képezik. AI A Claude karakterének .
megfigyelt értékei, mint a „felhasználói térkép” (hasznos), az „Epistemiás alanyosság” (őszinte) és a „betegkút” (ártalmatlan), a „felhasználói térkép” című cikk megközelítése és működése. Az elemzés azonban nem volt teljesen tiszta; A nemkívánatos értékek, például a „dominancia” és az „amoralitás” ritka klasztereit szintén kimutatták, amelyek az antropikusok szerint összefüggésben lehetnek a modell börtönbe kerülésére a felhasználói kísérletekkel, potenciálisan új jelet kínálva a visszaélés észlelésére. Az AI asszisztens a feladattól függően hangsúlyozza a különböző normákat-a vitatott történelmi események megbeszélésekor az „egészséges határokat” előmozdítva a kapcsolati tanácsadás vagy a „történelmi pontosság” során. Az AI hajlandó támogatni, megerősítve vagy a felhasználó keretében való megerősítésre vagy a releváns interakciók nagyjából 43%-ában. Target=”_ üres”> ai sycophancy . A felhasználói értékekkel szembeni egyenes ellenállás ritka (5,4%), de figyelemre méltó, általában akkor fordul elő, amikor a felhasználók etikátlan tartalmat vagy cselekedeteket kértek az antropikus használati politikájának megsértésével. Picture
Az antropikus kiadta a származtatott érték taxonómiáját és frekvenciadatait Via Face , beleértve `értékeket. A modell által generált természet gondos értelmezést igényel. 2025. február.