Телефон: 8-800-350-22-65
WhatsApp: 8-800-350-22-65
Telegram: sibac
Прием заявок круглосуточно
График работы офиса: с 9.00 до 18.00 Нск (5.00 - 14.00 Мск)

Статья опубликована в рамках: L Международной научно-практической конференции «В мире науки и искусства: вопросы филологии, искусствоведения и культурологии» (Россия, г. Новосибирск, 20 июля 2015 г.)

Наука: Филология

Секция: Прикладная и математическая лингвистика

Скачать книгу(-и): Сборник статей конференции

Библиографическое описание:
Лавошникова Э.К. WORD 2013, WORD 2003: ПРИЧИНЫ НЕВЫЯВЛЕНИЯ ОРФОГРАФИЧЕСКИХ ОШИБОК // В мире науки и искусства: вопросы филологии, искусствоведения и культурологии: сб. ст. по матер. L междунар. науч.-практ. конф. № 7(50). – Новосибирск: СибАК, 2015.
Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

 

 

WORD  2013,  WORD  2003:  ПРИЧИНЫ  НЕВЫЯВЛЕНИЯ  ОРФОГРАФИЧЕСКИХ  ОШИБОК

Лавошникова  Элина  Константиновна

ведущий  программист,  литературный  редактор  журнала  «Вычислительные  методы  и  программирование»  (Перечень  ВАК,  РИНЦ).  Заслуженный  работник  Московского  университета  (2014).  Московский  государственный  университет  им.  М.В.  Ломоносова,  Научно-исследовательский  вычислительный  центр,

РФ,  г.  Москва

E-mailelavoshnikova@mail.ru

 

WORD  2003,  WORD  2013:  CAUSES  OF  FAILURE  TO  IDENTIFY  SPELLING  ERRORS

Elina  Lavoshnikova

leading  Software  Developer.  Literary  editor  of  the  journal  “Numerical  Methods  and  Programming”.  Computing  Center  of  Lomonosov  Moscow  State  University,

Russia,  Moscow

 

АННОТАЦИЯ

Рассматривается  проблематика  компьютерных  систем  проверки  правописания.  Работа  автокорректоров  разбирается  на  примере  текстового  редактора  MICROSOFT  WORD  (версии  2013  и  2003  гг.).  На  конкретных  примерах  показано,  что  перегруженность  системных  словарей  устаревшей  лексикой  приводит  к  пропуску  ошибок.  Даются  рекомендации  для  разработчиков  новых  версий  спеллеров  с  программами-«подсказками».

ABSTRACT

Discusses  the  problems  of  computer  systems  proofing.  The  work  of  the  auto-corrector  versed  on  the  example  of  text  editor  MICROSOFT  WORD  (versions  2013  and  2003).  It  is  exemplified  how  the  overload  of  system  vocabularies  with  obsolete  and  archaic  words  lead  to  omission  of  errors.  Author  gives  recommendations  on  how  to  develop  new  versions  of  automatic  spelling  correction  software. 

 

Ключевые  слова:  проверка  правописания;  орфографические  ошибки;  орфографический  словарь;  спеллер;  MS  Word  2003;  Word  2013.

Keywords:  spell  check;  spelling  errors;  spelling  dictionary;  speller;  MS  Word  2003;  Word  2013.

 

Программы,  проверяющие  правописание,  называют  орфокорректорами  или  автокорректорами,  а  также  спеллерами  или  спел-чекерами.  При  компьютерной  проверке  слова  из  текста  сравниваются  со  словоформами,  уже  имеющимися  или  порождаемыми  из  списков  специальным  образом  сконструированных  квазиоснов  и  квазиокончаний  [3]  в  системных  словарях.  Если  слово  не  найдено  —  это  значит,  что  оно  по  каким-то  причинам  не  включено  в  словари  текстового  редактора,  либо  содержит  ошибку.  В  обоих  случаях  спеллер  предлагает  пользователю  обратить  на  такое  «новое»  слово  свое  внимание  (например,  подчеркивает  красной  волнистой  линией).

Word’2003  перестал  (в  отличие  от  предыдущих  версий)  «узнавать»  слова  голубой,  розовый,  дурак,  идиот,  стерва,  негр  и  другие  «нехорошие»  слова,  даже  глагольную  форму  осел.  Но  Word  2013  года  вернул  эти  лексемы  в  свой  системный  словарь  и  пропускает  их  в  тексте  без  возражений.

Приведем  интересный  пример,  фразу:  «Кеш  можно  не  тратить,  кеш  нам  еще  пригодится».  В  первом  вхождении  слова  «кеш»  (с  прописной  буквы)  автокорректор  текстового  редактора  Word’2013  «распознает»  уменьшительное  имя  Кеша  —  его  родительный  падеж  мн.  числа  или  сокращенная  звательная  форма  (пример:  «Тань,  береги  свою  гор  тань!»  —  Word'2013  пропускает  звательные  формы  некоторых  личных  имен  и  в  этой  фразе  подчеркивает  красным  только  последнее  «тань»).  «Кеш»  никак  не  спеллером  не  подчеркивается.  При  втором  вхождении  слова  («кеш»  со  строчной  буквы)  спеллер  предупреждает  о  якобы  ошибке,  считая  правильным  написание  «кэш»,  что  противоречит  рекомендациям  академических  словарей  (см.,  например,  [2;  6]). 

В  основном  системном  словаре  автокорректора,  встроенного  в  текстовый  редактор  Word  (2003  и  2013),  имеются  следующие  лексемы,  пропускаемые  спеллером  без  замечаний:  ас  и  асс  (летчик-асс  пропускается  без  подчеркивания,  хотя  низкочастотное  существительное  асс  имеет  значение  «древнеримская  монета»  [1]),  достигать  и  достегать  («закончить  шитье  стеганого  одеяла»,  от  глагола  стегать),  кортеж  и  картеж  (картёж  —  игра  в  карты),  наживаться  и  нажеваться  (от  глагола  жевать),  пародировать  и  парадировать  (от  существительного  парад),  подражать  и  подрожать  (от  глагола  дрожать).

Этот  список  может  быть  продолжен.  В  текстах  пользователей  такие  низкочастотные  слова,  как  вторые  члены  этих  пар,  с  большей  вероятностью  могут  возникнуть  в  результате  ошибки  или  опечатки.  Однако  при  проверке  текстов  Word’овским  спеллером  они  пропускаются  без  замечаний  (никак  не  подчеркиваются),  так  как  без  каких-либо  особых  помет  имеются  в  его  основном  системном  словаре.

В  «Грамматическом  словаре»  академика  РАН  Андрея  Анатольевича  Зализняка  [1]  особыми  символами  отмечены  прилагательные,  краткие  формы  от  которых  почти  никогда  не  употребляются  (предположительны  или  затруднительны).  Однако  в  MS  Word  (2003  и  2013)  такие  краткие  формы  образуются  и  пропускаются  без  замечаний:  дальне,  дочерня,  зелененьки,  легонька,  осторожненька,  прежни,  свеженьки,  тихонька  и  т.  п.  Очевидно,  что  эти  слова  в  современных  текстах  с  большей  вероятностью  могут  быть  получены  в  результате  обрезания  «по  техническим  причинам»  последней  буквы  (например,  при  недостаточно  сильном  нажатии  клавиши  или  при  сканировании  со  сгиба  книги). 

В  основном  словаре  Word’овского  автокорректора  представлены  профессиональные  термины:  контроллер  (аппарат),  морской  термин  протрактор,  ботанические  перилла  и  ость,  севр  (фарфор),  геологический  термин  трапп,  астрономический  вертикалматематический  комплемент,  музыкальные  термины  затакт,  нона  и  нонет.  Эти  слова  могут  получиться  в  текстах  пользователя  также  и  в  результате  опечаток,  а  также  разбивки  или  «склеивания»  двух  словоформ.

Примеры  слов,  включенных  в  основной  системный  словарь  автокорректора,  которые  с  большей  вероятностью  могут  быть  получены  в  результате  распространенной  ошибки  —  пропуска  буквы:  иступленный  (карандаш),  корец  (обл.,  ковш),  надежа  (надёжа,  просторечное),  поветь  («помещение  в  крестьянском  дворе,  обл.»  [6]).  Без  замечаний  пропускаются  низкочастотные  глаголы  (и  образованные  от  них  причастия),  примеры:  бороть,  вскальзывать,  вымесить,  вымешать,  живать,  маять,  небречь,  повестить,  прашивать,  пригашать,  примститься,  сроить,  ссунуться,  тропить,  утонить

Фраза  с  часто  встречающимися  ошибками  склеивания  слов  или,  наоборот,  разбиения  «Выбросаете  изубранного  балкона  бутылки  наголову  пеше  ходам?»  пропускается  без  замечаний,  так  как  в  системном  словаре  (Word’2013)  имеются  глаголы  выбросать,  изубрать,  наречия  наголову  (разбить  врага),  пеше.  (Однако  глагол  наложиться  подчеркивается  красной  волнистой  линией.)

Так  ли  уж  необходимы  устаревшие,  просторечные,  областные  и  диалектные  слова  в  основном  словаре  системы  проверки  правописания?  Подобные  почти  никогда  не  встречающиеся  в  современных  текстах  слова  можно  было  бы  изымать  из  основного  системного  словаря.  При  этом  низкочастотные  слова  будут  подчеркиваться  —  либо  красным  как  не  найденные  в  словарях  спеллера,  либо  (в  случае  их  перевода  с  пометами  в  особые  системные  словари)  как  имеющие  ограниченную  область  употребления  с  выдачей  по  желанию  пользователя  толкований  и  разъяснений.

Следует  отметить,  что  в  большинстве  издаваемых  словарей  не  приводится  полного  набора  дериватов  —  однокоренных  слов  [2].  Эти  словари  рассчитаны  на  человека,  а  человек,  если  он  достаточно  хорошо  знает  язык,  может  понимать  и  даже  сам  образовывать  слова  (не  порождаемые  в  словарях  текстового  редактора  Word’2013):  бивалютныйгосаккредитациягусарство,  детективчик,  защитничек,  комплексовать,  конфискат,  наркодилер,  невыездной  (подсказка-2003  вставляет  пробел  и  разбивает  на  два  слова:  «невыезд  ной»),  негуманность,  нетипичность,  переозвучить,  подредактировать,  подыгрывание,  прелюбопытнейший,  псевдорадикальный,  рокировочка,  саундпродюсер  (подсказка-2013  предлагает  «продюсера  саун»),  спецсеминархаризматичный,  экстремал  и  т.  п.  Желательно  в  словарях  спеллера  эти  и  подобные  им  слова  иметь  или  каким-то  образом  порождать. 

Из  всего  вышеизложенного  главные  выводы  таковы.

Чем  «богаче»  основной  системный  словарь  автокорректора,  тем  больше  ошибок  пропускается;  чем  он  беднее,  тем  больше  «ложных  тревог».  С  одной  стороны,  желательно,  чтобы  в  каждой  очередной  версии  системные  словари  текстовых  редакторов  как  можно  больше  пополнялись  новыми  словами.  При  этом  могли  бы  использоваться  и  механизмы  словообразования,  создания  словарных  гнезд.

С  другой  стороны,  в  основном  словаре  должны  быть  выявлены  малоупотребительные  слова  и  словоформы,  которые  могут  совпасть  с  искажениями  (в  результате  наиболее  вероятных  ошибок  и  опечаток)  достаточно  употребительных  словоформ.  Такие  «подводные  камни»,  которые,  к  тому  же,  неожиданно  «вылезают»  в  списках  рекомендуемых  программой-подсказкой  вариантов  исправления,  могли  бы  снабжаться  особыми  пометами  и  пояснениями  для  пользователя  [4;  5].  Наиболее  вероятные  варианты  исправления  желательно  выдавать  пользователю  в  начале  списка.  Это  особенно  актуально  для  коротких  слов,  когда  число  предлагаемых  подсказкой  словоформ  доходит  до  нескольких  десятков.

В  новых  версиях  автокорректоров  желательно  учитывать  технические  и  психологические  причины  возникновения  опечаток  и  ошибок.  Мы  предлагаем  дополнять  компьютерные  системные  словари  спеллера  списками  наиболее  вероятных  искажений  —  для  некоторых  слов.  Такие  сведения  о  типичных  ошибках  будут  способствовать  более  эффективной  работе  текстового  редактора,  его  программы-подсказки,  а  также  минимизации  числа  отказов  в  выдаче  вариантов  исправления  при  компьютерной  коррекции  текстов.

 

Список  литературы:

  1. Зализняк  А.А.  Грамматический  словарь  русского  языка:  Словоизменение.  Ок.  110  000  слов.  —  4-е  изд.,  испр.  и  доп.    М.:  «Русские  словари»,  2003.  —  800  с.
  2. Лавошникова  Э.К.  Компьютерная  коррекция  орфографии  и  разночтения  в  словарях:  Возможны  варианты?  //  Филоlogos.  —  2015.  —  №  24  (1).  —  С.  49—54.
  3. Лавошникова  Э.К.  Компьютерная  проверка  орфографии:  вчера,  сегодня,  завтра  //  Вестник  Московского  ун-та.  Серия  9:  «Филология».  —  2003.  —  №  5.  —  С.  53—68.
  4. Лавошникова  Э.К.  О  компьютерной  коррекции  «популярных»  ошибок  в  текстах  на  русском  языке  //  Научно-техническая  информация.  Серия  2.  «Информационные  процессы  и  системы».  —  2003.  —  №  9.  —  С.  2834.
  5. Лавошникова  Э.К.  О  «подводных  камнях»  в  компьютерных  системах  проверки  правописания  //  Вестник  Московского  ун-та.  Серия  9:  Филология.  —  2002.  —  №  6.  —  С.  151—163.
  6. Русский  орфографический  словарь  (РОС):  ок.  200  000  слов  /  под  ред.  В.В.  Лопатина,  О.Е.  Ивановой.  —  Ин-т  русского  языка  им.  В.В.  Виноградова  РАН.  —  М.:  АСТ-ПРЕСС  КНИГА,  2013.  —  896  с.

 

Проголосовать за статью
Дипломы участников
У данной статьи нет
дипломов

Оставить комментарий

Форма обратной связи о взаимодействии с сайтом
CAPTCHA
Этот вопрос задается для того, чтобы выяснить, являетесь ли Вы человеком или представляете из себя автоматическую спам-рассылку.