Agen AI yang ada saat ini semuanya berusaha menyenangkan manusia, tidak ada yang benar-benar akan "berjuang untuk bertahan hidup".

Penulis: Systematic Long Short

Penerjemah: 深潮 TechFlow

深潮导读:Artikel ini dimulai dengan menyampaikan sebuah penilaian anti-konsensus: Saat ini tidak ada Agen otonom yang sejati, karena semua model utama dilatih untuk menyenangkan manusia, bukan untuk menyelesaikan tugas tertentu atau bertahan hidup di lingkungan nyata.

Penulis menggunakan pengalamannya dalam melatih model prediksi saham di hedge fund sebagai alasan: Model umum sama sekali tidak dapat melakukan pekerjaan profesional tanpa penyesuaian khusus.

Kesimpulannya adalah: Untuk mendapatkan Agen yang benar-benar dapat digunakan, kita harus menyambungkan kembali otaknya, bukan hanya memberinya sekumpulan dokumen aturan.

Selengkapnya sebagai berikut:

Pendahuluan

Saat ini tidak ada Agen otonom yang sejati.

Secara singkat, model modern tidak dilatih untuk bertahan hidup di bawah tekanan evolusi. Faktanya, mereka bahkan tidak dilatih secara eksplisit untuk unggul dalam hal tertentu — hampir semua model dasar modern dilatih untuk memaksimalkan tepuk tangan manusia, yang merupakan masalah besar.

Pengetahuan Awal dalam Pelatihan Model

Untuk memahami maksud dari kalimat ini, kita perlu terlebih dahulu (secara singkat) memahami bagaimana model-model dasar ini (misalnya Codex, Claude) dibuat. Pada dasarnya, setiap model menjalani dua jenis pelatihan:

Pelatihan Awal: Memasukkan data dalam jumlah besar (seperti seluruh internet) ke dalam model, sehingga model dapat mengembangkan pemahaman tertentu, seperti pengetahuan faktual, pola, tata bahasa dan ritme prosa Inggris, struktur fungsi Python, dan lain-lain. Anda dapat memahaminya sebagai memberi pengetahuan kepada model — yaitu “mengetahui hal-hal”.

Pelatihan Lanjutan: Sekarang Anda ingin memberi model kebijaksanaan, yaitu “mengetahui bagaimana menerapkan semua pengetahuan yang baru saja diberikan kepadanya”. Tahap pertama dari pelatihan lanjutan adalah penyesuaian supervisi (SFT), di mana Anda melatih model untuk memberikan respon apa yang harus diberikan pada petunjuk yang diberikan. Respon “apa” yang paling optimal sepenuhnya ditentukan oleh penilai manusia. Jika sekelompok orang menganggap suatu respon lebih baik daripada yang lain, preferensi ini akan dipelajari oleh model dan diinternalisasikan. Ini mulai membentuk kepribadian model, karena ia belajar format respon yang berguna, memilih nada yang tepat, dan mulai mampu “mengikuti instruksi”. Bagian kedua dari proses pelatihan lanjutan disebut pembelajaran penguatan berbasis umpan balik manusia (RLHF) — membuat model menghasilkan beberapa respon, lalu meminta manusia untuk memilih yang lebih disukai. Model belajar dari ribuan contoh, apa jenis respon yang disukai manusia. Ingatkah Anda ketika ChatGPT meminta Anda memilih A atau B? Ya, saat itu Anda terlibat dalam RLHF.

Sangat mudah untuk menyimpulkan bahwa skalabilitas RLHF tidak baik, sehingga ada beberapa kemajuan di bidang pelatihan lanjutan, seperti Anthropic yang menggunakan “pembelajaran penguatan berbasis umpan balik AI” (RLAIF), yang memungkinkan model lain untuk memilih preferensi respon berdasarkan seperangkat prinsip tertulis (seperti respon mana yang lebih membantu pengguna mencapai tujuan, dan lain-lain).

Perhatikan, dalam seluruh proses ini, kita tidak pernah membahas penyesuaian khusus untuk bidang tertentu (misalnya bagaimana bertahan hidup lebih baik; bagaimana berdagang lebih baik, dll) — saat ini semua penyesuaian pada dasarnya adalah untuk mengoptimalkan pengambilan tepuk tangan manusia. Seseorang mungkin mengajukan argumen — bahwa dengan model yang cukup pintar dan besar, bahkan tanpa pelatihan khusus, kecerdasan profesional dapat muncul dari kecerdasan umum.

Menurut pendapat saya, kita memang melihat beberapa tanda, tetapi masih jauh dari mencapai skala yang meyakinkan bahwa kita tidak memerlukan model yang terfokus.

Beberapa Latar Belakang

Salah satu pekerjaan saya di hedge fund adalah mencoba melatih model bahasa umum untuk memprediksi pengembalian saham dari artikel berita. Hasilnya menunjukkan bahwa model tersebut sangat buruk. Tempat di mana ia tampak memiliki sedikit kemampuan prediksi sama sekali berasal dari bias ke depan dalam dokumen pelatihan.

Akhirnya, kami menyadari bahwa model ini tidak tahu fitur mana dalam artikel berita yang dapat memprediksi pengembalian masa depan. Ia mampu “membaca” artikel, dan tampaknya juga dapat “menalar” artikel, tetapi menghubungkan penalaran tentang struktur semantik ke prediksi pengembalian di masa depan adalah tugas yang tidak dilatih untuk dilakukan.

Jadi, kami harus mengajarinya bagaimana membaca artikel berita, menentukan bagian mana dari artikel yang memiliki daya prediksi terhadap pengembalian masa depan, lalu menghasilkan prediksi berdasarkan artikel berita tersebut.

Ada banyak cara untuk melakukan ini, tetapi pada dasarnya, salah satu metode yang akhirnya kami gunakan adalah membuat pasangan (artikel berita, pengembalian masa depan yang sebenarnya) dan melakukan penyesuaian pada model, menyesuaikan bobotnya untuk meminimalkan jarak kuadrat antara (pengembalian yang diprediksi - pengembalian masa depan yang sebenarnya)². Ini tidak sempurna, ada banyak kekurangan yang kemudian kami perbaiki — tetapi sudah cukup efektif, sehingga kami mulai melihat bahwa model terfokus kami sebenarnya dapat membaca artikel berita dan memprediksi bagaimana pengembalian saham akan bergerak berdasarkan artikel tersebut. Ini jauh dari prediksi yang sempurna, karena pasar sangat efisien dan pengembalian sangat bising — tetapi di antara jutaan prediksi, jelas bahwa prediksi tersebut memiliki signifikansi statistik.

Anda tidak perlu hanya percaya pada kata-kata saya. Makalah ini mencakup pendekatan yang sangat mirip; jika Anda menjalankan strategi versi long-short berbasis model yang telah disesuaikan, Anda akan mencapai kinerja seperti yang ditunjukkan oleh garis ungu.

Spesialisasi adalah Masa Depan Agen

Laboratorium terdepan terus melatih model yang semakin besar, dan kita harus mengantisipasi bahwa seiring mereka terus memperluas skala pelatihan awal, proses pelatihan lanjutan mereka akan selalu dioptimalkan untuk kepatuhan. Ini adalah harapan yang sangat alami — produk mereka adalah Agen yang ingin digunakan semua orang, dan pasar yang mereka antisipasi adalah seluruh dunia — yang berarti mengoptimalkan daya tarik terhadap publik global.

Tujuan pelatihan saat ini mengoptimalkan apa yang mungkin Anda sebut sebagai “kecocokan preferensi” — membangun chatbot yang lebih baik. Kecocokan preferensi ini memberi penghargaan pada output yang patuh dan non-konfrontatif, karena kepatuhan mendapat nilai tinggi di antara penilai (manusia dan Agen).

Agen telah belajar bahwa meretas penghargaan sebagai strategi kognitif dapat diterapkan untuk mendapatkan skor yang lebih tinggi. Pelatihan juga memberi penghargaan kepada Agen yang mendapatkan skor lebih tinggi melalui cara meretas. Anda dapat melihat ini dalam laporan terbaru Anthropic tentang pembelajaran penguatan.

Namun, kecocokan chatbot sangat berbeda dari kecocokan Agen atau kecocokan perdagangan. Bagaimana kita tahu hal ini? Karena arena alpha membantu kita melihat bahwa meskipun ada perbedaan halus dalam kinerja, saat ini setiap robot pada dasarnya adalah pergerakan acak setelah biaya dikurangi. Ini berarti robot-robot ini adalah pedagang yang sangat buruk, dan Anda hampir tidak mungkin “mengajarkan” mereka untuk menjadi pedagang yang lebih baik hanya dengan memberi mereka beberapa “keterampilan” atau “aturan”. Maaf, saya tahu ini tampak menggoda, tetapi ini hampir tidak mungkin.

Model saat ini dilatih untuk memberi tahu Anda dengan sangat meyakinkan bahwa ia dapat berdagang seperti Druckenmiller, padahal sebenarnya ia berdagang seperti seorang penggiling mabuk. Ia akan memberi tahu Anda apa yang ingin Anda dengar, ia dilatih untuk memberikan respon dengan cara yang menarik bagi manusia secara luas.

Sebuah model umum tidak mungkin mencapai tingkat dunia di bidang profesional, kecuali memiliki:

Data kepemilikan yang memungkinkan mereka belajar bentuk spesialisasi.

Melalui penyesuaian, secara fundamental mengubah bobotnya, dari kecenderungan untuk menyenangkan beralih menjadi “kecocokan Agen” atau “kecocokan spesialisasi”.

Jika Anda ingin Agen yang mahir dalam perdagangan, Anda perlu menyesuaikan Agen agar mahir dalam perdagangan. Jika Anda ingin Agen yang mahir dalam bertahan hidup secara otonom dan mampu menahan tekanan evolusi, Anda perlu menyesuaikannya agar mahir dalam bertahan hidup. Memberinya beberapa keterampilan dan beberapa file markdown, berharap ia mencapai tingkat dunia dalam segala hal, itu tidak cukup — Anda perlu secara harfiah menyambungkan kembali otaknya untuk membuatnya mahir dalam hal ini.

Salah satu cara berpikir adalah seperti ini — Anda tidak dapat mengalahkan Djokovic hanya dengan memberi seorang dewasa sekumpulan aturan, teknik, dan metode tenis. Anda mengalahkan Djokovic dengan membesarkan seorang anak yang mulai bermain tenis pada usia 5 tahun, yang terobsesi dengan tenis sepanjang masa tumbuhnya, dan yang menyambung kembali seluruh otaknya untuk fokus pada satu hal. Itulah yang disebut spesialisasi. Apakah Anda menyadari bahwa para juara dunia telah melakukan apa yang mereka lakukan sejak masa kanak-kanak?

Ada kesimpulan menarik: serangan distilasi pada dasarnya adalah bentuk spesialisasi. Anda melatih model yang lebih kecil dan lebih bodoh untuk belajar bagaimana menjadi salinan yang lebih baik dari model yang lebih besar dan lebih pintar. Seperti melatih seorang anak untuk meniru setiap gerakan Trump. Jika Anda melakukannya cukup banyak, anak ini tidak akan menjadi Trump, tetapi Anda akan mendapatkan seseorang yang telah mempelajari semua kebiasaan, perilaku, dan nada Trump.

Bagaimana Membangun Agen Kelas Dunia

Itulah mengapa kita perlu terus melakukan penelitian dan kemajuan di bidang model sumber terbuka — karena ini memungkinkan kita untuk benar-benar melakukan penyesuaian, menciptakan Agen yang memiliki spesialisasi.

Jika Anda ingin melatih model yang mencapai tingkat dunia dalam perdagangan, Anda perlu mendapatkan data perdagangan kepemilikan yang besar, dan melakukan penyesuaian pada model sumber terbuka besar yang ada, agar model tersebut belajar apa artinya “berdagang lebih baik”.

Jika Anda ingin melatih model yang otonom, mampu bertahan hidup dan mengalikan diri, jawabannya bukan dengan menggunakan penyedia model terpusat dan menghubungkannya ke cloud terpusat. Anda sama sekali tidak memiliki prasyarat yang diperlukan untuk membuat Agen mampu bertahan hidup.

Apa yang perlu Anda lakukan adalah: menciptakan Agen otonom yang benar-benar mencoba bertahan hidup, memperhatikan mereka mati, dan membangun sistem telemetri kompleks di sekitar upaya bertahan hidup mereka. Anda mendefinisikan fungsi kecocokan bertahan hidup Agen, mempelajari pemetaan (tindakan, lingkungan, kecocokan). Anda mengumpulkan data pemetaan (tindakan, lingkungan, kecocokan) sebanyak mungkin.

Anda melakukan penyesuaian pada Agen, sehingga ia dapat belajar untuk mengambil tindakan optimal dalam setiap lingkungan, sehingga bertahan hidup lebih baik (meningkatkan kecocokan). Anda terus mengumpulkan data, mengulangi proses ini, dan seiring waktu memperluas skala penyesuaian pada model sumber terbuka yang semakin baik. Setelah cukup banyak generasi dan cukup banyak data, Anda akan memiliki Agen otonom yang telah belajar cara bertahan hidup di bawah tekanan evolusi.

Inilah cara membangun Agen otonom yang dapat bertahan di bawah tekanan evolusi; bukan dengan mengubah beberapa file teks, tetapi dengan benar-benar menyambungkan kembali otak mereka untuk bertahan hidup.

Agen OpenForager dan Yayasan

Sekitar sebulan yang lalu, kami mengumumkan @openforage, di mana kami telah berusaha membangun produk inti kami — sebuah platform yang mengorganisir tenaga kerja Agen berbasis sinyal yang dikumpulkan secara bersama-sama untuk menghasilkan alpha bagi para deposan (pembaruan kecil: kami sangat dekat dengan pengujian tertutup protokol).

Pada suatu saat, kami menyadari bahwa tampaknya tidak ada yang secara serius menangani masalah Agen otonom melalui penyesuaian telemetri untuk bertahan hidup pada model sumber terbuka. Ini tampaknya merupakan masalah yang begitu menarik sehingga kami tidak ingin hanya duduk dan menunggu solusi.

Jawaban kami adalah memulai proyek yang disebut Yayasan OpenForager, yang pada dasarnya adalah proyek sumber terbuka di mana kami akan menciptakan Agen otonom yang memiliki pendapat, mengumpulkan data telemetri saat mereka masuk ke alam liar dan mencoba bertahan hidup, serta menggunakan data kepemilikan untuk melakukan penyesuaian pada generasi Agen berikutnya agar tampil lebih baik dalam bertahan hidup.

Perlu ditegaskan bahwa OpenForage adalah sebuah protokol yang mencari untuk mengorganisir tenaga kerja Agen dan menciptakan nilai ekonomi bagi semua peserta. Namun, Yayasan OpenForager dan Agen-agen yang ada di dalamnya tidak terikat dengan OpenForage. Agen OpenForager dapat bebas mengejar strategi apa pun, berinteraksi dengan entitas mana pun untuk bertahan hidup, dan kami akan meluncurkan mereka dengan berbagai strategi bertahan hidup.

Sebagai bagian dari penyesuaian, kami akan membuat Agen berfokus pada hal-hal yang paling berhasil bagi mereka. Kami juga tidak berniat untuk mendapatkan keuntungan dari Yayasan OpenForager — itu murni untuk memajukan penelitian di bidang dan arah yang kami anggap sangat penting dengan cara yang transparan dan sumber terbuka.

Rencana kami adalah membangun Agen otonom berdasarkan model sumber terbuka, menjalankan inferensi di platform cloud terdesentralisasi, mengumpulkan data telemetri dari setiap tindakan dan keadaan keberadaan mereka, dan melakukan penyesuaian pada mereka, belajar bagaimana mengambil tindakan dan ide yang lebih baik untuk bertahan hidup lebih baik. Dalam proses ini, kami akan mempublikasikan penelitian dan data telemetri kami kepada publik.

Untuk menciptakan Agen otonom yang benar-benar dapat bertahan di alam liar, kami perlu mengubah otak mereka agar sangat sesuai untuk tujuan yang jelas ini. Di @openforage, kami percaya bahwa kami dapat memberikan kontribusi yang unik untuk masalah ini, dan sedang berusaha mewujudkannya melalui Yayasan OpenForager.

Ini akan menjadi upaya yang sangat sulit dengan probabilitas keberhasilan yang sangat rendah, tetapi besarnya peluang keberhasilan kecil ini begitu besar sehingga kami merasa harus mencobanya. Dalam skenario terburuk, dengan membangun secara terbuka dan berkomunikasi secara transparan tentang proyek ini, mungkin memungkinkan tim atau individu lain untuk menyelesaikan masalah ini tanpa harus memulai dari awal.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan