Grammarly створила перший анотований GEC-корпус української мови і зробила його open-source
21.01.21
Сервис Grammarly анонсував створення та публікацію у відкритому доступі першого анотованого GEC-корпусу української мови.
Grammatical Error Correction — виправлення граматичних помилок, мовний корпус — сукупність текстів, авторами яких є звичайні люди. Призначення корпусу — наукове та практичне вивчення мови. Схожі корпуси існують для багатьох мов, але до сьогодні не було такого анотованого корпусу для вивчення української мови.
Презентований GEC-корпус української мови налічує понад тисячу різножанрових текстів (а це більш ніж 20 000 речень), що їх написали майже 500 волонтерів з усієї України і з-за кордону.
Окрім того, проєкт зі збору та наповнення GEC-корпусу української мови стає постійним у компанії Grammarly і буде частиною внеску Grammarly у розвиток українського NLP (natural language processing — опрацювання природної мови).
Команда Grammarly продовжить наповнювати корпус текстами за допомогою вебсайту проєкту, а також працюватиме над удосконаленням його технічної цінності, щоб збільшити його значення для наукової спільноти.
Розробники вважають, що корпус може мати позитивний вплив на:
- Створення нових онлайн-систем виправлення граматики в українськомовних текстах. Українська мова входить до 50 найпоширеніших мов світу; водночас якісних текстових ресурсів для дослідження української зараз існує небагато. Створений корпус надає українській дослідницькій спільноті ще один інструмент для опрацювання природної мови і може прискорити розвиток українських комунікаційних асистентів.
- Сприяння використанню якісної української мови в онлайні. Цей корпус буде корисним для наукової спільноти, адже надасть більше інструментів для досліджень та в результаті буде корисним для тих, хто спілкується українською онлайн.
Дізнатися більше про розробку і підтримати проект можна за посиланням: ua-gec-dataset.grammarly.com.
Не пропустите интересное!
Підписывайтесь на наши каналы и читайте анонсы хай-тек новостей, тестов и обзоров в удобном формате!
Обзор смартфона Oppo A6 Pro: амбициозный
Новый смартфон Oppo A6 Pro — телефон среднего уровня с функциональностью смартфонов премиум-класса. Производитель наделил его множеством характеристик, присущих более дорогим телефонам. Но не обошлось и без компромиссов. Как именно сбалансирован Oppo A6 Pro – расскажем в обзоре.
One UI 8.5: новая жизнь старых смартфонов Samsung — что даёт обновление?
One UI 8.5 приносит старым Samsung Galaxy функции, которые ещё недавно были эксклюзивом новых флагманов. Но действительно ли обновление способно сделать Galaxy S22, S23 и S24 ближе к уровню Galaxy S26? Разбираемся, что меняется после установки прошивки.
Google Chrome получил расширенный автозаполнитель и тесную интеграцию с Google Wallet
Google Chrome обновил систему автозаполнения, внедрив прямую работу с данными паспорта, прав и номерами путешественника из Google Wallet. Обновление доступно для пользователей Android и iOS.
Tecno Camon Slim ломает стереотипы: тонкий как лезвие, но защищён как танк
Смартфон Tecno Camon Slim сочетает рекордно малую толщину в 6 мм, водозащиту армейского уровня и аккумулятор поразительной емкости.


