Бу сайтта замани татар теленең язма корпусы урнаштырылган.
Язма корпус бүгенге татар телен электрон формада гәүдәләндерә.
Хәзерге вакытта татар теле корпусының күләме 500 миллионнан артык сүз (>620 млн токен) тәшкил итә, төрле сүзформаларның саны 5 миллион тирәсе.
Язма корпус татар теленең системасы, хәле, алдагы көне белән кызыксынучы шәхесләрне күздә тотып төзелә.
Ул татар телен корпуслы лингвистика кысаларында өйрәнүче белгечләр өчен зарури чыганак.
Әлеге проект нинди дә булса фәнни фондлар яки оешмалар тарафыннан финансланмый!
Татар теленең язма корпусы өстендәге эшләр бары тик проектта катнашучыларның буш вакытында башкарыла.
Проект яңалыклары
- 16.03.2022 - Сайтка Шәхси исемнәр дигән яңа бүлек урнаштырылды. Ул үз эченә татар исемнәрен, отчестволарын һәм фамилияләрен ала.
- 26.12.2021 - Проекттагы кайбер үзгәрешләр:
- Корпус яңа хостингка күчерелде.
- Искерү сәбәпле HTTP протоколы буенча сайтны ачу мөмкинлеге бетерелде. Хәзер HTTPS кына кулланыла.
- Сайтның кайбер бүлекләре яңартылды.
- 21.10.2019 - Дөрес яз! хата тикшергече яңартылды.
- 20.10.2019 - Корпусның 4енче версиясе сафка кертелде:
- корпусның күләме 356 млн сүздән 500 млн сүзгә кадәр үсте;
- чыганаклар саны 17 000 берәмлеккә җитте;
- морфологик тамгалауның сыйфаты камилләштерелде.
- 20.03.2019 - Статистик мәгълүмат бүлегенә татар палиндромнары куелды.
- 24.01.2019 - N-граммалар буенча эзләү бүлегендә табылган нәтиҗәләрне сортлау функциясе өстәлде.
- 21.01.2019 - Сайтка Тезаурус дигән яңа бүлек урнаштырылды. Ул үз эченә word2vec технологиясен кулланып, сай нейрон челтәр нигезендә эшләнгән word embeddings'ларны ала.
- 28.12.2018 - Татар теле өчен эшләнгән Дөрес яз! хата тикшергеченең төгәллеге камилләштерелде:
- система хәзер безнең яңа корпусыбыз нигезендә эшли;
- Apertium проектының морфологик анализлагычы кулланыла башлады.
- 27.11.2018 - Корпусның 3енче версиясе сафка кертелде:
- корпусның күләме 116 млн сүздән 356 млн сүзгә кадәр үсте;
- чыганаклар саны 16 000 берәмлеккә җитте.
- 27.06.2018 - Кулланучылар соравы буенча чыганакларны күрсәтүнең иске стиле өстәмә опция буларак кайтарылды.
- 23.06.2018 - Сайтны мобиль җиһазларга яраклаштыру белән бәйле күпсанлы үзгәрешләр.
- 03.06.2018 - Табылган нәтиҗәләрне KWIC режимында (җөмләләрнең эзләнәсе сүз буенча тигезләнүе) күрсәтә алу өстәлде.
- 25.03.2018 - Хәзер тулы корпус буенча гына түгел, ә аерым әсәрләрдә дә эзләргә була. Монда, шул исәптән, маскалар яки регуляр берәмлекләрне кулланырга мөмкин.
- 16.03.2018 - Корпуска NoSketchEngine эзләү системасы беркетелде.
- 16.02.2018 - Күпсанлы камилләштерүләр кертелде:
- Корпус лингвистикасында де-факто стандарт дәрәҗәсен яулаган CQL корпуста эзләү телен куллана алу функциясе кертелә башлады.
- Киңәйтелгән POSIX регуляр берәмлекләрен кулланып эзләү мөмкинлеге эшләнде.
- Табылган җөмләләрнең контекстын карау функциясе өстәлде ("Контекстны киңәйтү" төймәсен кулланыгыз).
- Табылган хаталар төзәтелде.
- 08.02.2018 - "*" һәм "?" символларын кулланып эзләү хәзер сүзформаларда гына түгел, ә леммалар белән дә башкарылырга мөмкин, мәсәлән, (ат*): (ат), (атна), (атла), (атаклы)...
- 26.11.2017 - N-граммалар буенча эзләү системасы fastngrams (GitHub) программасы нигезендә яңадан эшләнде. N-граммалар функциональлегендәге төп үзгәрешләр:
- эзләү тизлеге күп тапкыр артты;
- эзләүдә сүзформа, лемма, грамматик теглар (сүз төркемнәре, морфологик категорияләр), хәрефләрнең регистрын исәпкә алу, маска кебек параметрларны куллану мөмкинлеге өстәлде.
- 03.07.2017 - Орфография тикшерү системасындагы үзгәрешләр:
- орфографик хаталарны тану яхшыртылды;
- язманың орфографиясен саклау эшләнде;
- Корпустагы охшаш сүзләрне тәкъдим итү өстәлде.
- 21.06.2017 - Fastmorph системасында грамматик тамгалар җыелмасы хәзер җөмләдәге барлык сүзләр өчен күрсәтелә.
- 03.06.2017 - Сайтта Республиканың начар күрүчеләр яки күрмәүчеләр махсус китапханәсендә RHVoice системасы нигезендә эшләнгән "Тәлгать" исемле татарча сөйләм җыйнагыч урнаштырылды.
- 27.02.2017 - fastmorph корпуста эзләү системасының 5 нче версиясе чыкты. Оператив хәтергә таләпләр 2,5 тапкыр кимеде.
- 23.01.2017 - Орфография Онлайн бүлегендә татарча текстларның орфографиясен тикшерү коралы эшли башлады.
- 09.01.2017 - "Корпуста эзләү" бүлегендә N-граммалар буенча эзләү мөмкинлеге эшли башлады. 1, 2, 3, 4, 5 һәм 6-граммалар кулланыла.
- 22.11.2016 - Безнең тарафтан эшләнгән fastmorph корпуста эзләү системасының кодын GNU General Public License v3.0 лицензиясе астында ачып, GitHub'ка урнаштырдык.
- 18.11.2016 - fastmorph корпуста эзләү системасының 4 нче версиясе чыкты. Үзгәрешләр исемлеге:
- баш һәм кече хәрефләрне аерып эзләү мөмкинлеге өстәлде;
- эзләү системасы тарафыннан оператив хәтерне куллану 2 тапкыр кимеде;
- программаның архитектурасына җитди үзгәрешләр кертү сәбәпле, эзләү вакыты 3 - 5 тапкыр кимеде.
- 17.11.2016 - Корпус Apertium морфологик анализлагычының соңгы версиясе белән яңадан тамгаланды.
- 12.10.2016 - Статистик мәгълүмат бүлегендә татар теле леммаларының кулланылу ешлыклары урнаштырылды.
- 19.07.2016 - Катлаулы морфологик эзләү системасында эшләр башкарылды:
- моңа кадәр кулланылган теләсә ничә хәреф белдереп килә торган йолдыз "*" билгесе белән беррәттән, теләсә кайсы бер хәреф белдереп килә торган сорау "?" билгесе кулланыла башлады. Бу хакта тулырак мәгълүматны яңартылган Кулланмаларда таба аласыз;
- техник планда эзләү системасы тарафыннан кулланылган хәтер күләме 25% кимеде;
- кодта табылган хаталар төзәтелде.
- 01.07.2016 - Татар, рус һәм инглиз телләрендәге Кулланмалар яңартылды.
- 13.06.2016 - Fastmorph модулендә сүз уртасы буенча эзләү эшләнде. Мәсәлән, *әме* дип язсагыз, ярдәмендә, бәйрәмен, үткәрәмен, өйдәме кебек сүзләр табылачак.
- 21.04.2016 - Fastmorph модулендә процессор оптимизацияләрен куллану һәм күпагымлылык (multithreading) технологиясен кертү нәтиҗәсендә катлаулы морфологик эзләү башкаруның тизлеген биш тапкырга кадәр арттыра алдык.
- 03.04.2016 - Катлаулы морфологик эзләү системасының мөмкинлекләре киңәйде. Бу хакта тулырак мәгълүматны 3.0 һәм яңарак версиягә кадәр яңартылган Кулланмаларда таба аласыз.
- 29.03.2016 - Катлаулы морфологик эзләү системасында эзләнәсе грамматик билгеләрне график режимда сайлау тәрәзәсе урнаштырылды.
- 22.02.2016 - Язма корпуста Катлаулы морфологик эзләү функциясе барлыкка килде. Монда сүз, лемма, грамматик билгеләр, префикс, постфикс һәм аларның аралары кебек күрсәткечләрнең төрле җыелмасын кулланырга мөмкин.
- 21.11.2015 - "Татарча сөйләгеч"кә Финляндиядә яшәүче татарлар язу системасын эшкәртү мөмкинлеге өстәлде.
- 20.11.2015 - Инглиз телендәге Кулланма эшләнде.
- 06.10.2015 - Кулланма дигән яңа бүлек эшләнде. Анда Татар теленең язма корпусын кулланучылар өчен файдалы материаллар урнаштырылачак. Хәзергә әлеге бүлектә Корпус кулланмасының русча версиясе белән таныша аласыз.
- 16.08.2015 - Сайтта "Татарча сөйләгеч" системасы эшен башлап җибәрде. Әлеге проектны үстерү, камилләштерү өчен бүгенге көндә сезнең ярдәмегез, киңәш һәм тәкъдимнәрегез кирәк.
- 11.06.2015 - Компьютерларында татар хәрефләре булмаган керүчеләр өчен Корпусның эзләү битендә виртуаль клавиатура урнаштырылды.
- 18.04.2015 - Корпуста калып (сүз азагы) нигезендә эзләү системасы гамәлгә кертелде.
- 29.03.2015 - Уң, сул һәм семантик контекстларны күрсәтү санының чиге 100 дән 10 000 гә кадәр җиткерелде. Аларны таблица буларак күрү өчен "Барысын да карау" төймәсен кулланыгыз.
- 26.03.2015 - Хәзер Корпуска яңа corpus.tatar адресы аша да керергә мөмкин. Шул ук вакытта иске corpus.tatfolk.ru адресы да эшләячәк.
- 14.03.2015 - Корпуста калып (сүз башы) нигезендә эзләү системасы гамәлгә кертелде.
- 12.10.2014 - Тәкъдим ителгән җөмләләрне тыңлату мөмкинлеге булдырылды (җөмләнең сул ягында урнашкан махсус төймәгә басып).
- 05.10.2014 - Корпусны морфологик тамгалау башкарылды. Грамматик тамгалар метателе нигезенә Апертиум халыкара проекты тарафыннан төрки телләр өчен эшләнгән «тег»лар системасы алынды.
- 14.08.2014 - Корпусның яңа версиясе сафка бастырылды:
- корпусның күләме 45 млн сүздән 116 млн сүзгә кадәр җиткерелде;
- чыганак буларак күпсанлы әдәби әсәрләр, фәнни җыентыклар, монографияләр, гәҗит һәм журналлар, дини әдәбият һ.б. кертелде;
- билгеле бер сүзтезмә очраган җөмләләрне аерып карау эшләнде (уң һәм сул контексттагы сүзләргә басып);
- яңа тип статистик мәгълүмат кулланыла башлады ("Log-likelihood");
- Статистик мәгълүмат бүлеге эшләнде (алга таба тулыландырыла барачак);
- Басылган мәкаләләр бүлеге тулыландырылды.
- 16.03.2014 - Үзгәрешләр исемлеге:
- төрле роботлар тарафыннан серверга авырлык китерү очраклары теркәлү сәбәпле, корпустан мәгълүмат алу билгеле бер күләмдә чикләнә;
- табылган сүз җөмләләр эчендә кызыл төс белән аерып күрсәтелә;
- Басылган мәкаләләр бүлеге тулыландырылды;
- табылган хаталар төзәтелде.
- 24.03.2013 - Күпсанлы камилләштерүләр кертелде:
- хәзер интерфейс татар, рус һәм инглиз телләрендә тәкъдим ителә;
- биремнәр базасы һәм эзләү системасының оптимальләштерелүе;
- китерелүче мисаллар күләмен 50 җөмлә белән чикләүнең чигәрелүе;
- китерелүче мисалларның кайдан алынуын күрсәтү мөмкинлеге (“Текстны табу”га басып).
- 15.03.2012 - Татар теленең язма корпусын төзүгә караган төп эшләр тәмамланды. Сайтның төп версиясе һәм эзләү модуле ясалды. Сервисны эшкә кузгату.