Sebuah studi baru menantang pendekatan”lebih besar”industri AI untuk jendela konteks. Chroma Research, sebuah perusahaan yang mengembangkan database vektor AI, menerbitkan Kinerja”Konteks ROT”dengan lorong-lorong Juli 2025. Ini mengungkapkan bahwa P> p> p> p> p> p> p> p> p> p> p> p> p> p> p> Penelitian Chroma bergerak melampaui standar
Kinerja turun tajam pada tes semantik ini. Masalahnya diperburuk dengan menambahkan”distraktor”-pernyataan yang terkait secara topik tetapi tidak benar. Studi ini mencatat bahwa model GPT cenderung berhalusinasi jawaban yang salah, sementara model Claude sering menolak untuk menjawab ketika dihadapkan dengan ambiguitas seperti itu. Dalam twist yang mengejutkan, penelitian ini menemukan bahwa model berkinerja lebih baik ketika teks tersebut merupakan goncangan kalimat yang diacak secara acak. Kinerja lebih buruk ketika teks terstruktur secara logis dan koheren. Ini menunjukkan bahwa struktur input, bukan hanya kontennya, berdampak pada perhatian model. Tim juga menguji kinerja pada Benchmark longmemeval , yang menggunakan HiNes Long Chat. Model secara konsisten berkinerja lebih buruk ketika diberikan riwayat percakapan penuh dibandingkan dengan ketika mereka hanya diberi kutipan yang paling relevan, lebih lanjut membuktikan efek”konteks busuk”. Temuan Chroma bukan outlier. Mereka selaras dengan semakin banyak penelitian dari laboratorium utama lainnya yang telah mengidentifikasi keterbatasan serupa dalam pemrosesan konteks panjang. Ini menunjukkan masalah sistemik dengan generasi LLM saat ini. Pada bulan Mei 2025, Nikolay Savinov di Google DeepMind menjelaskan bahwa pemangkasan konten yang tidak relevan selalu bermanfaat untuk akurasi model. Dia berpendapat bahwa ini membantu model memusatkan perhatiannya yang terbatas pada apa yang paling penting untuk tugas yang dihadapi. [Konten tertanam] Demikian pula, sebuah studi bersama dari LMU Munich dan Adobe Research menggunakan Penurunan dramatis dalam keandalan selama percakapan yang lebih lama . Dalam pengujian dialog multi-turn mereka, akurasi turun dari ketinggian 90 persen menjadi hanya 51 persen karena persyaratan pengguna dijabarkan pada banyak langkah. Bahkan model dengan jendela konteks teoretis besar, seperti Meta Llama 4 Maverick, berjuang dalam praktik. Despite a technical capacity of ten million tokens, it has shown poor accuracy on benchmarks designed to reflect real-world long-context scenarios, scoring just 28.1% Pada satu tes tersebut. Temuan yang konsisten di seluruh industri menggarisbawahi pesan kritis: cukup memperluas jendela konteks bukanlah peluru perak untuk meningkatkan penalaran AI. Cara informasi dipilih, terstruktur, dan disajikan kepada model adalah yang terpenting untuk kinerja yang andal. Ini telah menyebabkan penekanan yang semakin besar pada”rekayasa konteks.”Ini adalah strategi yang disengaja yang melibatkan pra-pemrosesan informasi untuk memberikan LLM dengan data sinyal tinggi yang paling relevan, terstruktur untuk pemahaman optimal. Ini sangat kontras dengan metode brute-force hanya dengan meningkatkan jendela konteks. Para peneliti Chroma menyimpulkan laporan mereka dengan menyoroti pergeseran ini. Hasil kami menyoroti perlunya evaluasi konteks panjang yang lebih ketat di luar tolok ukur saat ini, serta pentingnya rekayasa konteks,”tulis mereka, menunjuk ke bidang fokus baru untuk pengembang yang ingin membangun aplikasi AI yang dapat diandalkan. Laporan teknis”ROT Konteks”penuh dan toolkit untuk pengembang untuk mereplikasi hasil studi sekarang tersedia secara publik di situs web Chroma Research dan di github Temuan ‘Konteks ROT’
masalah di seluruh industri
Pivot ke Konteks Rekayasa
Categories: IT Info