Проект турында

Язма корпус татар телендә иҗат ителгән электрон текстлар җыелмасын тәшкил итә.

Татар теленең язма корпусын төзүгә караган эшләрнең башлануы 2010 елга карый. Авторларның фәнни юнәлеш сайлауга караган фикер алышуларында түбәндәге ике тема карала:

Әдәбият белән танышулар дәвамында бүгенге автоматик машина тәрҗемәсе һәм сөйләм тану системаларының эше милли тел корпусларын – “гипотеза – ачыклау” алымын файдалануга корылганлыгы мәгълүм булды. Бу хәл безне татар теленең милли корпусын төзүгә ныклап алынырга мәҗбүр итте.

Язма корпус, нигездә, web-ресуслар материалында төзелде. Китерелгән мисалларның сайт адреслары аркылы (һәр сүзформаның кулланышы җөмләләр ярдәмендә тасвирлана) корпуста файдаланылган чыганакларга карата тулы мәгълүмалар алырга мөмкин.

Татар теленең язма корпусына теркәлүче текстларга башлангыч автоматик эшкәртү ясалды – html тегыларыннан чистарту, чит телдә язылган җөмләләрдән азат итү, utf-8 гә күчерү, җәмлә чикләрен рәвештә тамгалау һ.б. эшләр үтәлде.

Хәзерге вакытта материал җыю, электрон корпуска теркәү өчен аларны эшкәртү дәвам итә. Кайбер язучыларның, фән хезмәткәрләренең татар теле корпусы төзелүен белеп, үз китапларының электрон версиясен безгә тәкъдим итү мисаллары да бар. Бу материалларның күләме 5 – 6 миллион сүзгә җитү белән алар текстлар корпусына теркәләчәк. Бер уңайдан, язма корпусның функцияналь мөмкинлекләре дә баетыла.

Әйтергә кирәк, Татар теленең язма корпусы – ул татар тел дөньясын бер тәртиптә тасвирлаучы гаять зур сүзлек-белешмә тәшкил итә.

Татар теленең язма корпусында теркәлгән текстлар, нигездә, өч стильгә – публицистика (аларның күләме якынча 60%), сәнгатьле чәчмә әдәбият (35% чамасы) һәм гуманитар юнәлештәге фәнни стильгә (5% чамасы) карый.

Татар теле корпусының төп вазыйфасы – татар теле лексикасын фәнни планда өйрәнүгә булышлык күрсәтү. Моннан тыш электрон корпус телгә өйрәтүдә, шулай ук сүзлек-белешмәлек буларак төрле документлар язуда зур ярдәм күрсәтергә мөмкин.

Язма корпусның программалар системасы шәхескә түбәндәге мөмкинлекләр ача:

Санап үтелгән чаралар фән хезмәткәрен түбәндәге мәсьәләләрне чишү мөмкинлекләре белән тәэмин итә:

Электрон корпусның кулланылу мөмкинлекләре әйтелгәннәргә караганда байтак киң һәм күптөрле. Мәгълүм ки, “автоматик сөйләм тану”, “машина тәрҗемәсе” системалары бүгенге көндә корпуслы лингвистика кысаларында төзеләләр.

Бүгенге халәтендә татар теленең язма корпусы репрезентативлык һәм төрле стильләрне телгә бәрабәр күләмдә чагылдыру таләпләренә җавап бирә дияргә мөмкин.

Кем дә булса язган китапларының, мәкаләләренең, документларының электрон версиясен җибәрә алса (адрес күрсәтелгән) без аны рәхмәтләр әйтеп кабул итәр идек. Бу материаллар татар теле корпусын һичшиксез баетачак.

Исегезгә төшерәбез, текстлар язма корпуста җөмләләр буларак сакланалар, ягъни текстларны бер бөтен басма документ формасында файдалану мөмкин түгел (авторлык хокукларына зыян килмәячәк). Сезнең тексттан алынып татар теленең язма корпусына кертелгән һәр җөмлә аның кайсы әсәрдән алынуын һәм ул әсәрнең авторын күрсәткән сылтама белән тәэмин ителәчәк.

Интернет челтәренә htth//corpus.tatar/ адресы белән урнаштырылган, татар теленең язма корпусында файдаланылган барлык интеллектуаль эш нәтиҗәләре (1274 ГК РФ статьясына тугрылыкта) коммерциягә кагылышы булмаган, бары тик фәнни-тикшерү һәм уку-укыту максаты белән куллануны күздә тота.

Аларны шулай ук уку да (карап чыгу да), күчереп алу да, башка формаларда файдалану да рөхсәт ителми. Аларны бары тик кайсыдыр тел күренешен мисаллар белән җөпләүдә, эзләү режимында мисаллар (цитаталар) чыганагы буларак файдаланырга мөмкин.

Татар теленең язма корпусы ярдәмендә табылган цитаталар китерелгәндә "Татар теленең язма корпусы"на һәм мисал чыганагына сылтау ясау зарур.

Татар теле корпусының оффлайн версиясе чикле күләмдә бераз соңрак китереләчәк!

Татар теле корпусыннан файдалану түләүсез.

Телне адекват гәүдәләндерү һәм татар теленең милли корпусы дигән исемгә лаек булу өчен безнең корпусның күләме 100 миллион сүздән ким булмаска тиеш. Без бу күләмгә 2014 елда ирештек.

Татар теленең язма корпусын ясауда катнашучылар: