Сургалтын хөтөлбөрт суурилсан дотоодын AI model
Cloud AI үйлчилгээнүүд бидний датаг гадаад серверт илгээдэг. Локал AI буюу өөрийн сервер дээр ажиллуулах загвар нь өгөгдөл нууцлал, Мөн өөрийн сургалтын хөтөлбөрийн цахим сан бүрдүүлэх, Суралцагч бүрийн хэрэглээг хянах зэрэг олон давуу тал эдлэх юм.
Суралцагчын асуусан асуулт болон хариулт бүгд Server дотроо үлдэнэ.
Багшийн заасан хичээлийг өөрийн сурах хурданд тохируулж нөхөж судлах боломжтой.
API дуудалтанд мөнгө төлөхгүй. Нэг удаа тоног төхөөрөмж авбал хязгааргүй ашиглана.
Загварыг өөрчилж, fine-tune хийж, аль ч параметрийг тохируулах эрх бидэнд байгаа.
RAG нь AI загварыг дахин сургалгүйгээр бидний сургалтын материалд тулгуурлан хариулт өгдөг архитектур юм. Загвар зөвхөн өөрийн цээжилсэн мэдлэгт найдахгүй — хэрэглэгч асуулт тавихад шууд мэдээллийн санаас хамааралтай хэсгүүдийг татаж авч, тэдгээрийг контекст болгон ашигладаг.
Гол санаа: текстийг вектор хэлбэрт (embedding) хийж хөрвүүлж вектор мэдээллийн санд хадгална. Хэрэглэгч асуулт тавихад уг асуултыг мөн вектор болгоод, мэдээллийн сангаас хамгийн ойр утгатай хэсгүүдийг косинус ижил төстэй байдлаар хайна.
Сервер дээр VLLM + Gemma3 12B ажиллуулахад ямар GPU сонголт тохирох, хэдэн concurrent user дэмждэг, хэзээ queue үүсдгийг энд харна уу.
VLLM нь дотоодоо continuous batching хийдэг. GPU-гийн KV cache дүүрэхэд шинэ хүсэлтүүд queue-д орно.