Halyq Uni логотип
×

ChatGPT қазақ тілін жатырқамай ма? QazGPT серпіліс әкеле ме? Қазақша контент һәм жасанды интеллект жайлы

2023 жылы іске қосылған QazGPT қолданушылары 7 мың адамға жуықтады

 Гүлбаршын Нұрхан 22.05.2024 | 15:19

Жасанды интеллект қазақ тілінде жақсы дамып жатыр. Тіпті QazGPT бағдарламасын 7 мыңға жуық адам қолданып жүр. Сала мамандарының айтуынша, қазақ тілін математикалық модельге ыңғайлауға болады. Тіпті басқа түркі тілдерімен салыстырғанда қосымшаның жуан не жіңішке болып жалғануы біріздендірілген. Енді жасанды интеллект танысын десек, алдымен қазақ тілінің табиғи дыбыстық жүйесін түзеген жөн. Мұндай пікірді «Қазақстан жасанды интеллект академиясы» қоғамдық бірлестігінің президенті Алтынбек Шәріпбай айтты.

Halyq Uni тілшісі цифрлық технология кезеңінде қазақ тілі қалай трансформацияланып жатыр және жасанды интеллект пен қазақ тілінің интеграциясы қалай жүзеге асып жатыр деген сұраққа жауап іздеп көрді. Сондай-ақ ChatGPT-дің ана тілімізді қаншалықты танып үлгергенін білді.

ЖАСАНДЫ ИНТЕЛЛЕКТ ҚАЗАҚ ТІЛІНДЕ ЖАҚСЫ ДАМЫП КЕЛЕ ЖАТЫР, БІРАҚ…

«Қазақстан жасанды интеллект академиясы» қоғамдық бірлестігінің президенті, техника ғылымдарының докторы Алтынбек Шәріпбай қазақ тілінде қандай дыбыс болса, бәрі айтылуы керек деген пікірде. Айтуынша, сөздердің жазылуы өзгерсе, компьютерге оны тану оңайға түседі.

Жасанды интеллект қазақ тілінде жақсы дамып жатыр. Түркі тілінің ішіндегі ең жақсы тіл – қазақ тілі. Тілдің өзінің бірнеше қасиеті бар. Мысалы, сингармонизм заңы. Сөзде жуан дыбыстар болса, жуан қосымшалар, ал жіңішке болса, жіңішке қосымшалар жалғанады. Түрік, өзбек тіліндегі ерекшелік жоқ. Қазақ тілінде жалғау, жұрнақтардың саны да шектеулі. Сөз таптарына байланысты қосылатын қосымшаларда айырмашылықтар бар, дегенмен олар да санаулы. Яғни, математикалық модельге арнап жасауға тиімді. Бірақ мынандай формула жазу үшін мына теорияны білу керек: компьютер жай сөздерді қабылдай алмайды, ал ол қабылдау үшін арнайы моделін жасап шығару керек, - дейді Алтынбек Шәріпбай.

Ғалымның айтуынша, алдымен қазақ тілінің дыбыстық жүйесін түзеу қажет. Кей сөздерді формулаға аударып, компьютерге енгізгенде ол сөздерді түсіне алмай, қателік шығады. Қазақ тіліндегі ережелер бір-біріне қайшы болып келеді.

«Қазақ тілін жасанды интеллектінің тілі ретінде таныту үшін ең бірінші қазақ тілінің өзінің табиғи дыбыстық жүйесін түзеп алу керек. Артық дыбыстарды алу керек. Қазақ тіліне «я», «ю» деген екі дыбыстан тұратын дыбыстардың керегі не? «И» деген дыбыс бар. Мысалы, «Би» дегеннің орнына «бй» деп жазса дұрыс болады, бұл – дұрыс түбір. Ал біз «би» деп орыстың дауысты дыбысын жазып қойдық. Ол әрі қарай жалғауға қосқанда қайшылық болады. «Су» дегенде дұрыс емес, «СҰ», «SW» деп жазу керек. Бұл компьютерлік эксперимент арқылы зерттелген. Компьютерлік экспериментпен толық фонетикалық база жинадық», - дейді Алтынбек Шәріпбай.

Маман дыбыстардың айтылуына да тоқталды. Оның сөзінше, дыбыстардың жазылуы түзелсе, компьютер оның мағынасын дұрыс түсенеді.

«Бұл тілдің ерекшелігі деп оқытады, ал компьютер мұндайды түсінбейді. Осыны түзетпей қазақ тілінде ЖИ жасау деген бекер. ЖИ деген – мәтіннің мағынасын түсініп, соған қарай жауап беруі. Ал мынандай қателер болса, шатасып, неге жауап беріп тұрғанын түсінбей қалады», - деді Алтынбек Шәріпбай.

Сондай-ақ ғалым төте жазу мен латын қарпінің компьютер тіліне тез бейімделетінін атап өтті.

Қателік кириллицаға негізделген әліпбидегі дыбыстар әсерінен болып отыр. Төте жазуда ондай болған жоқ. Төте жазудағы дыбыстарды қолданғанда, компьютер түсінеді. Одан бөлек латын жазуында 1940 жылға дейін мәселе болған жоқ. 1940 жылы қазақ тіліне тән емес дыбыстарды күштеп енгізді. Бәрін сол бүлдіріп отыр, - дейді ғалым.  

Nazarbayev University ғалымы Рүстем Ешпанов та қазақ тілінің ерекшелігіне байланысты компьютер кей сөздерді дұрыс түсінбейтінін айтады. Ал оны түсініп, жасанды интеллект қазақша сөйлеуі үшін деректер қорын жеке-жеке талдау керек.

Қазақ тілі аглютинативті тіл болғандықтан оны компьютерге оқыту қиын. Ағылшын тілі аглютинативті тіл емес, сондықтан оның модельдерін оқыту жеңіл. Сондай-ақ ChatGPT-де қазақ тіліндегі деректер саны өте аз. Егер сол қатені дұрыстаймыз десек, миллиардтаған қазақша сөзді енгізу қажет. Сөздерді жай енгізіп қоймай, бәрінің белгісін жасау керек. Содан кейін ғана оны оқытуға болады. Бұл өте үлкен жұмыс, - деді деректерді талдау сарапшысы.

ҚАЗАҚ ТІЛІНДЕГІ МАТЕМАТИКАЛЫҚ ЛИНГВИСТИКА ПӘНІ КЕРЕК

Ағылшын, орыс тіліндегі жасанды интеллектінің бірізді жүйесі мен грамматикалық ережелері қалыптасқан. Ал оның қазақ тіліндегі дамуын көру үшін алдымен қазақ әліпбиіне қайтадан реформа жасап, матетикалық лингвистика саласын енгізу керек. Ғалым Алтынбек Шәріпбай бұл саланың дамуына да тоқталып өтті.

Айтуынша, 1950 жылдары компьютер қолданысқа еніп жатқан кезде математикалық лингвистика саласы пайда болды. Осы сала мамандарын даярлау үшін Мәскеу мемлекеттік университетінде кафедра ашылған. Осылайша орыс тілінің математикалық лингвистикаға сәйкес стандарты жасалды.

Сол стандартты бүкіл Кеңес одағындағы мектептерде оқыта бастады. Содан кейін бір жүйеге келді. Мәскеудің айналасындағы халық әртүрлі диалект бойынша сөйлейтін. Сол стандартты енгізгеннен кейін орыс тілінде мәселе шешілді. Тура соны қазақ тіліне енгізіп, қателіктерді алып тастау қажет. Ағылшын тілі мен орыс тілінің барлық ережесі қалыптасқан, формуласы бар. Сондықтан оларды техника тіліне айналдырғанда қателіктер болмайды, - дейді Алтынбек Шәріпбай.

Ал Рүстем Ешпанов осы салада тіл мамандары мен компьютерлік бағдарламаны білетіндер бірлесіп жұмыс істеу керек деп есептейді.

Бұл салада жұмыс істейтін лингвист маман аз. Тілдің құрылымын жетік білетін мамандар бағдарламаны білмейді. Ал бағдарламаны білетіндер тілдің құрылымын білмейді. Осы екеуінің тоғысуы үшін мамандар мен бағдарламашылар бірге жұмыс істеуі керек, - дейді деректерді талдау сарапшысы Ешпанов.

ТҮРКІ ТІЛДЕРІНІҢ ІШІНДЕ АЛҒАШҚЫ БОЛУ

Ғалым Алтынбек Шәріпбай қазақ тілі жасанды интеллект аясында дамымаса, тілдің өліп қалатынын айтады. Сондай-ақ маман алдымен қазақ тілінде ғылымды дамытып, содан кейін жасанды интеллектіні дамыту қажет деген пікірде.

Қазақ тілін компьютерге енгізіп қойсақ, біз түркі тілдері арасында бірінші шығамыз. ЖИ қазақ тілінсіз дамымай қалады деген бос сөз. Бірақ қазақтілді жасанды интеллект болмайды. Басқа тілдер күшейген сайын қазақ тілі жойылып, ешкімге қажеті жоқ болып қалады, - деді Алтынбек Шәріпбай.

ҚАЗАҚ ТІЛІНЕ БЕЙІМДЕЛГЕН ЖОБАЛАР

NU, ISSAI ғалымы, деректерді талдау сарапшысы Рүстем Ешпанов Назарбаев университетінің Ақылды жүйелер мен жасанды интеллект институтында бірнеше жобаны іске асырған. Қазақ тіліндегі мәтінді аудиоға, ал аудионы мәтінге айналдыру, аударма жасауға арналған тілмаш, сөздердің реңкілігін табу, сондай-ақ сөздерді топтастыру секілді жобалары бар.

Институтқа 2020 жылы келгеннен бастап қазақ тіліне арналған бірнеше жоба жасап шықтық. Соның ішінде қазақ сөзін танитын модельдер, яғни сөзді мәтінге айналдыратын, мәтінді аудиоға айналдыратын, сосын атаулы мәндерді анықтайтын жобамыз бар. Одан бөлек біз тек қазақ тілімен шектелмей, түркі тілдерінің арасындағы ұқсастықты қолданып, басқа тілдерге де модельдер жасадық. Мысалы, татар, өзбек тілдері. Қазір қырғыз әріптестерге көмектесіп жатырмыз. Биыл біз қазақ тіліндегі сұрақ жауап моделін дайындадық, одан кейін қазақ тіліндегі сөздердің реңкілігін анықтау, тілмаш, яғни аударма, онда қазақ, орыс, түрік, ағылшын тілдері бар, - деді деректерді талдау сарапшысы.

Рүстем Ешпановтың айтуынша, қазір ғалымдар көптеген зерттеулер жасап, сөздердің арнайы модельдерін дайындап жатыр. Алайда олар ашық дереккөздерде жарияланбайды.

«Қазақ тіліне арналған зерттеулер көп, бірақ сол зерттеулер нәтижесінде жинастырылған деректер және құрастырылған модельдер ашық, қолжетімді емес. Біз модельдерімізді ашық түрде жариялаймыз. Бірақ басқа институт, университеттің зерттеуін көре алмаймыз. Сондай ұйымдар зерттеу нәтижесін, деректер мен модельдерін жарияласа, сол кезде қазақ тілі мен ЖИ тоғысы тез дамиды», - деді Ешпанов.

ҚАЗАҚ ТІЛІНДЕГІ АЛҒАШҚЫ АЛҒАШҚЫ AI ҚОЛДАНБА – QazGPT

Қазақ тіліне бейімделген алғашқы жасанды интеллект QazGPT қолданбасын Олжас Сүлейменов жасап шығарған. Ол қазір IT саласында жұмыс істейді, АҚШ-та өнеркәсіп-инженерия саласы бойынша магистратураны оқып келген. Айтуынша, жобаны 2023 жылы іске қосқан. Қазір шамамен 7 000 адам қолданады.

«Біз жобамызда ЖИ технологиясын қазақ тіліне бейімдедік. Қазақтілді қолданушыларға тегін болуына жол аштық. Себебі, ағылшынша ChatGPT сияқты көптеген технологиялар шығып жатыр. Ал біздің халық ағылшын тілінен аударып қолданады. Аударма көп шығын әкеледі. Біздің технологиямыз сол мәселені шешуге көмектеседі», - дейді Сүлейменов.

QazGPT жобасы қазақша мәтіндерді түрлендіру, сюжеттер мен жоспарларды жазуға бағытталған. Қолданушылар оны кәсіп пен білім беру бағытында пайдаланады.

Генеративті AI мәтінді шығарып береді. Мұны ChatGPT-ді қолданатындар біледі. Ол факт ақпараттарды тауып бере алмайды. Болмаған мәтінді шығарып береді. Бағдарлама, сұқбат немесе басқа да жобалардың жоспарын жасап бере алады. Тіпті жобада қолданылатын сөздеді де жазып береді. Әлеуметтік желіде жазба жазу үшін де қолданатын адамдар бар. Біздің бастапқы мақсатымыз – генеративті AI-да ересек адамдар кәсіп пен білім беруге қолдануы. Біз бұл жобаны 100 пайыз жақсы деп айта алмаймыз. Бұл компьютер болғаннан кейін қателіктері де бар, - деді QazGPT авторы.

Серіктес жаңалықтары

Сараптама