Как мы научили большую языковую модель говорить на карачаево-балкарском

Давно ничего не писал где-либо: разработка занимает много времени. Надеюсь, наш путь будет кому-либо полезен, особенно тем, кто обучает модельки на малоресурсных языках.
Большая в данном контексте - это условно. По сути, взяли Qwen3-4B-Instruct-2507 и обучили на карачаево-балкарском языке (тюркский, половецко-кыпчакская группа). По дороге пришлось написать собственный морфологический процессор для аугментации диалектов, обучить токенизатор с нуля, и найти баланс в обучении модели на сырых данных, чтобы она не забывала инструкций (а хотелось, чтобы могла отвечать).
Модель лежит на HuggingFace: TSjB/QM-4B. Работу представляли на конференции TurkLang 2026















