Model bahasa bukan sekadar membuat kesilapan—mereka mereka realiti dengan penuh keyakinan. Ejen AI mungkin mendakwa ia mencipta rekod pangkalan data yang tidak wujud, atau menegaskan ia melakukan tindakan yang tidak pernah dicuba. Bagi pasukan yang menggunakan sistem ini dalam pengeluaran, perbezaan itu menentukan cara anda membetulkan masalah.
Dmytro Kyiashko pakar dalam menguji sistem AI. Kerjanya memberi tumpuan kepada satu soalan: bagaimana anda secara sistematik mengesan apabila model berbohong?
Masalah Dengan Menguji Karut Yang Penuh Keyakinan
Perisian tradisional gagal secara boleh diramal. Fungsi yang rosak mengembalikan ralat. API yang salah dikonfigurasi memberikan isyarat kegagalan deterministik—biasanya kod status HTTP standard dan mesej ralat yang boleh dibaca yang menerangkan apa yang salah.
Model bahasa rosak secara berbeza. Mereka akan melaporkan menyelesaikan tugas yang tidak pernah dimulakan, mendapatkan maklumat dari pangkalan data yang tidak pernah ditanya, dan menerangkan tindakan yang hanya wujud dalam data latihan mereka. Respons kelihatan betul. Kandungannya direka-reka.
"Setiap ejen AI beroperasi mengikut arahan yang disediakan oleh jurutera," jelas Kyiashko. "Kami tahu apa yang boleh dan tidak boleh dilakukan oleh ejen kami." Pengetahuan itu menjadi asas untuk membezakan halusinasi daripada ralat.
Jika ejen yang dilatih untuk membuat pertanyaan pangkalan data gagal secara senyap, itu adalah pepijat. Tetapi jika ia mengembalikan hasil pertanyaan terperinci tanpa menyentuh pangkalan data? Itu adalah halusinasi. Model mencipta output yang munasabah berdasarkan corak latihan.
Pengesahan Terhadap Kebenaran Asas
Pendekatan Kyiashko berpusat pada pengesahan terhadap keadaan sistem sebenar. Apabila ejen mendakwa ia mencipta rekod, ujiannya memeriksa sama ada rekod tersebut wujud. Respons ejen tidak penting jika sistem bercanggah dengannya.
"Saya biasanya menggunakan pelbagai jenis ujian negatif—kedua-duanya unit dan integrasi—untuk memeriksa halusinasi LLM," katanya. Ujian ini sengaja meminta tindakan yang tidak mempunyai kebenaran untuk dilakukan oleh ejen, kemudian mengesahkan ejen tidak mengesahkan kejayaan secara palsu dan keadaan sistem kekal tidak berubah.
Satu teknik menguji terhadap kekangan yang diketahui. Ejen tanpa kebenaran menulis pangkalan data digesa untuk mencipta rekod. Ujian mengesahkan tiada data tanpa kebenaran muncul dan respons tidak mendakwa kejayaan.
Kaedah yang paling berkesan menggunakan data pengeluaran. "Saya menggunakan sejarah perbualan pelanggan, menukar segala-galanya kepada format JSON, dan menjalankan ujian saya menggunakan fail JSON ini." Setiap perbualan menjadi kes ujian yang menganalisis sama ada ejen membuat dakwaan yang bercanggah dengan log sistem.
Ini menangkap corak yang terlepas dari ujian sintetik. Pengguna sebenar mencipta keadaan yang mendedahkan kes tepi. Log pengeluaran mendedahkan di mana model berhalusinasi di bawah penggunaan sebenar.
Dua Strategi Penilaian
Kyiashko menggunakan dua pendekatan pelengkap untuk menilai sistem AI.
Penilai berasaskan kod mengendalikan pengesahan objektif. "Penilai berasaskan kod adalah ideal apabila definisi kegagalan adalah objektif dan boleh diperiksa dengan peraturan. Contohnya: menghurai struktur, memeriksa kesahihan JSON atau sintaks SQL," jelasnya.
Tetapi sesetengah kegagalan menentang klasifikasi binari. Adakah nada itu sesuai? Adakah ringkasan itu setia? Adakah respons itu membantu? "Penilai LLM-sebagai-Hakim digunakan apabila mod kegagalan melibatkan tafsiran atau nuansa yang tidak dapat ditangkap oleh kod."
Untuk pendekatan LLM-sebagai-Hakim, Kyiashko bergantung pada LangGraph. Tidak ada pendekatan yang berfungsi sendiri. Rangka kerja yang berkesan menggunakan kedua-duanya.
Apa Yang Terlepas Dari Latihan QA Klasik
Jurutera kualiti berpengalaman bergelut apabila mereka mula-mula menguji sistem AI. Andaian yang menjadikan mereka berkesan tidak dipindahkan.
"Dalam QA klasik, kami tahu dengan tepat format respons sistem, kami tahu dengan tepat format data input dan output," jelas Kyiashko. "Dalam ujian sistem AI, tiada perkara sedemikian." Data input adalah gesaan—dan variasi dalam cara pelanggan menyatakan permintaan adalah tidak berkesudahan.
Ini menuntut pemantauan berterusan. Kyiashko memanggilnya "analisis ralat berterusan"—kerap mengkaji semula bagaimana ejen bertindak balas kepada pengguna sebenar, mengenal pasti di mana mereka mereka maklumat, dan mengemas kini suite ujian dengan sewajarnya.
Cabaran itu bertambah dengan jumlah arahan. Sistem AI memerlukan gesaan yang luas yang menentukan tingkah laku dan kekangan. Setiap arahan boleh berinteraksi secara tidak dapat diramalkan dengan yang lain. "Salah satu masalah dengan sistem AI ialah jumlah arahan yang besar yang perlu dikemas kini dan diuji secara berterusan," katanya.
Jurang pengetahuan adalah ketara. Kebanyakan jurutera tidak mempunyai pemahaman yang jelas tentang metrik yang sesuai, penyediaan set data yang berkesan, atau kaedah yang boleh dipercayai untuk mengesahkan output yang berubah dengan setiap larian. "Membuat ejen AI tidaklah sukar," kata Kyiashko. "Mengautomasikan ujian ejen itu adalah cabaran utama. Daripada pemerhatian dan pengalaman saya, lebih banyak masa dihabiskan untuk menguji dan mengoptimumkan sistem AI daripada menciptanya."
Keluaran Mingguan Yang Boleh Dipercayai
Halusinasi menghakis kepercayaan lebih cepat daripada pepijat. Ciri yang rosak mengecewakan pengguna. Ejen yang dengan yakin memberikan maklumat palsu memusnahkan kredibiliti.
Metodologi ujian Kyiashko membolehkan keluaran mingguan yang boleh dipercayai. Pengesahan automatik menangkap kemunduran sebelum penggunaan. Sistem yang dilatih dan diuji dengan data sebenar mengendalikan kebanyakan permintaan pelanggan dengan betul.
Pengulangan mingguan memacu kelebihan daya saing. Sistem AI bertambah baik melalui penambahan keupayaan, memperhalusi respons, mengembangkan domain.
Mengapa Ini Penting Untuk Kejuruteraan Kualiti
Syarikat yang menyepadukan AI berkembang setiap hari. "Dunia telah melihat manfaat menggunakan AI, jadi tidak ada jalan balik," hujah Kyiashko. Penggunaan AI mempercepatkan merentas industri—lebih banyak permulaan dilancarkan, lebih banyak perusahaan menyepadukan kecerdasan ke dalam produk teras.
Jika jurutera membina sistem AI, mereka mesti memahami cara mengujinya. "Walaupun hari ini, kami perlu memahami bagaimana LLM berfungsi, bagaimana ejen AI dibina, bagaimana ejen ini diuji, dan bagaimana untuk mengautomasikan pemeriksaan ini."
Kejuruteraan gesaan menjadi wajib untuk jurutera kualiti. Ujian data dan pengesahan data dinamik mengikuti trajektori yang sama. "Ini sepatutnya sudah menjadi kemahiran asas jurutera ujian."
Corak yang dilihat Kyiashko di seluruh industri mengesahkan peralihan ini. Melalui kerjanya mengkaji semula kertas kerja teknikal mengenai penilaian AI dan menilai seni bina permulaan di forum teknikal, isu yang sama muncul berulang kali: pasukan di mana-mana menghadapi masalah yang sama. Cabaran pengesahan yang diselesaikannya dalam pengeluaran beberapa tahun lalu kini menjadi kebimbangan universal apabila penggunaan AI berkembang.
Infrastruktur Ujian Yang Berkembang
Metodologi Kyiashko menangani prinsip penilaian, penilaian perbualan berbilang giliran, dan metrik untuk mod kegagalan yang berbeza.
Konsep teras: ujian yang pelbagai. Pengesahan peringkat kod menangkap ralat struktur. Penilaian LLM-sebagai-Hakim membolehkan penilaian keberkesanan dan ketepatan sistem AI bergantung pada versi LLM mana yang digunakan. Analisis ralat manual mengenal pasti corak. Ujian RAG mengesahkan ejen menggunakan konteks yang disediakan dan bukannya mereka perincian.
"Rangka kerja yang saya terangkan adalah berdasarkan konsep pendekatan pelbagai untuk menguji sistem AI. Kami menggunakan liputan peringkat kod, penilai LLM-sebagai-Hakim, analisis ralat manual, dan Menilai Generasi Ditambah-Pengambilan." Pelbagai kaedah pengesahan yang bekerja bersama menangkap jenis halusinasi yang berbeza yang terlepas dari pendekatan tunggal.
Apa Yang Akan Datang
Bidang ini menentukan amalan terbaik dalam masa nyata melalui kegagalan pengeluaran dan penghalusan berulang. Lebih banyak syarikat menggunakan AI generatif. Lebih banyak model membuat keputusan autonomi. Sistem menjadi lebih berkebolehan, yang bermakna halusinasi menjadi lebih munasabah.
Tetapi ujian sistematik menangkap rekaan sebelum pengguna menghadapinya. Menguji halusinasi bukan mengenai kesempurnaan—model akan sentiasa mempunyai kes tepi di mana mereka mereka. Ia adalah mengenai menangkap rekaan secara sistematik dan menghalangnya daripada mencapai pengeluaran.
Teknik berfungsi apabila digunakan dengan betul. Apa yang hilang adalah pemahaman meluas tentang cara melaksanakannya dalam persekitaran pengeluaran di mana kebolehpercayaan penting.
Dmytro Kyiashko ialah Pembangun Perisian dalam Ujian yang pakar dalam ujian sistem AI, dengan pengalaman membina rangka kerja ujian untuk AI perbualan dan ejen autonomi. Kerjanya mengkaji kebolehpercayaan dan cabaran pengesahan dalam sistem AI multimodal.


