Наконец-то у украинского языка будет свой GEC-корпус. Для чего он нужен и почему это важно

Укрaїнськa мoвa вxoдить дo 50-ти нaйпoширeнішиx мoв світу, aлe якісниx тeкстoвиx рeсурсів пользу кого її дoсліджeння нeбaгaтo.  

Цe призвoдить дo тoгo, щo, нaприклaд, чтобы укрaїнськoї мoви склaднішe ствoрити   сeрвіси интересах інтeлeктуaльнoї пeрeвірки прaвoпису, які є интересах англійської, російської та багатьох інших мов світу. Створення українського GEC-корпусу розширить наявний інструментарій во (избежание дослідників та пришвидшить створення нових онлайн-продуктів в (видах української мови.

Що таке GEC-туловище мови і навіщо він потрібен

Цю абревіатуру розшифровують як Grammatical Error Correction — виправлення граматичних помилок, а мовний тулово — сукупність текстів, які написали звичайні семя, а потім їх опрацювали (проанотували помилки) українські лінгвісти. Призначення корпусу текстів — наукове та практичне вивчення мови.

Такий GEC-станина містить дані, які можна використати, щоб навчити різноманітні алгоритми виправляти граматичні помилки. Що більше даних у корпусі, так більше можливостей для тренування програми, і ведь краще вона працюватиме в результаті.

Ідея створити такий тело для української спала держи думку одному з наших дослідників. У серпні 2020 року компанія Grammarly ініціювала збір першого проанотованого GEC-корпусу української мови. Ми плануємо викласти остов у відкритий доступ для загального користування.  

Як укладається GEC-торс

Укладання GEC-корпусу охоплює кілька етапів: збір текстів, анотування, власне укладання та публікацію.  

Збір текстів. Збір текстів відбувається после сайт проєкту, де кожен любящий може поділитися своїми текстами. Це можуть бути есеї, дописи в блогах та соцмережах, відгуки, листи тощо. Ідея в тому, щоб зібрати саме “живі” тексти українською, з помилками: граматичними, стилістичними та орфографічними.

Станом получи и распишись сьогодні ми зібрали приблизно 22 000 речень, що еквівалентно 283 613 словам. Угоду кому) порівняння, український переклад роману “Улісс” Джеймса Джойса містить 272 916 слів. Тобто це доволі багато, і цього обсягу достатньо исполнение) створення першої версії корпусу.  

Проте ми ухвалили рішення продовжити збір текстів прежде 31 грудня 2020 року, адже що більше даних у корпусі, ведь більше можливостей для подальшого використання. Интересах порівняння: GEC-корпус німецької мови нараховує 25 000 речень, чеської — близько 47 000 речень, а англійської —   1,167 млн речень!

Анотування. Наші лінгвісти перевірять ці тексти, виправлять помилки і категоризують їх держи граматичні, орфографічні, пунктуаційні й лексично-стилістичні.

Укладання корпусу. Для цьому етапі перевіряється якість анотування й категоризації, коригується збалансованість корпусу из-за різними характеристиками (за необхідності), аналізується статистика (наприклад, співвідношення різних видів помилок у корпусі), оформляються самі дані в зручному во (избежание використання вигляді.  

Ми ділимо дані бери кілька частин (деякі з них можна використовувати угоду кому) тренування алгоритмів, а інші интересах тестування), готуємо документацію з ретельним описом корпусу, а також програмні інструменти, які дозволяють його опрацьовувати.  

Публікація. Підсумкові результати попереднього етапу (самі дані, документацію та програмні засоби опрацювання) ми й викладемо у відкритий теледоступ.  

Коли з\’явиться GEC-корпус української мови

Очікуємо, що готовий анотований фюзеляж буде загальнодоступним у січні 2021 року.

Якщо у вы є бажання допомогти нам створити перший GEC-шрифт української мови, зробити це можна, поділившись своїми текстами тогда.

Щодо практичного застосування корпусу

Оскільки ми зробимо зібраний GEC-туловище загальнодоступним, будь-хто (від студента-науковця задолго. Ant. с приватної компанії) зможе скористатися ним чи исполнение) дослідницької роботи, чи чтобы створення або поліпшення власного онлайн-додатку ли продукту. Нам самим цікаво если стежити за подальшим використанням корпусу та його впливом получи и распишись ринок.

Все материалы автора
Даже если Вы заметили орфографическую ошибку, выделите её мышью и нажмите Ctrl+Enter.

Комментирование и размещение ссылок запрещено.

Комментарии закрыты.