Преимущества компьютеризации в лексикографии очевидны: компьютер может быстро предоставить доступ к обширному словнику, цитатному материалу, быстро дать информацию о многозначном слове и т.д. Специальные компьютерные программы обработки текста позволяют хранить и обрабатывать большие массивы словарной и текстовой информации, а также могут использоваться для создания одно- и многоязычных словарей, конкордансов, контекстологических и прочих современных словарей.
Актуальность вопросов развития компьютерной лексикографии не вызывает сегодня сомнений. Растет социальная значимость словарей: ведь они не только фиксируют совокупность знаний, которыми располагает современное общество, но и служат надежным инструментом научного познания. За компьютерной лексикографией большое будущее, и результатами разработок в этой области смогут пользоваться не только ученые-лингвисты, но и школьники, студенты, а также люди самых различных профессий.
Тема 1. Автоматизация лексикографии
Задачи, стоящие перед современной лингвистикой, выдвинули на первый план использование компьютерной техники для автоматической обработки текстов. Здесь можно выделить такие направления как лингвистическое обеспечение информационных систем разных типов; машинный перевод; разработка систем, понимающих естественный язык (лингвистические задачи в системах искусственного интеллекта); разработка систем использования информации, содержащейся в звуковом речевом сигнале и др.
Внедрение электронно-вычислительной техники в различные отрасли науки и сферы жизнедеятельности человека способствует появлению новых направлений прикладной лингвистики. Ю.Н. Марчук уже в 1970-е годы писал о возможностях применения компьютера для учебной лексикографии. Действительно, компьютер может выполнять такие задачи, как упорядочение по алфавиту введенных в него лексических единиц, приписывание каждой из них частоты встречаемости и многие более сложные работы, на которые лексикографам приходится затрачивать очень много времени и труда. Задача использования современных компьютерных технологий в лексикографии остается по-прежнему актуальной и требует детального изучения. Современные вычислительные средства дают возможность автоматизировать лексикографическую работу практически на всех этапах - от выбора цитат до редактирования словаря и его печати. Автоматизация рутинных процедур, широкое распространение компьютерных программ повышают производительность труда отдельного лексикографа. В результате этого в рамках лексикографии сформировалось новое направление - компьютерная лексикография, включающая в себя создание автоматических словарей, а также разработку программ поддержки лексикографических работ.
В научной литературе можно обнаружить ряд терминов для обозначения лексикографирования на машинных носителях: компьютерная лексикография, вычислительная лексикография, машинная лексикография, автоматическая лексикография и автоматизированная лексикография. Термин «компьютерная лексикография» теперь наиболее употребим.
Компьютерная лексикография сегодня представляет собой: во- первых, быстро развивающуюся отрасль компьютерной индустрии, главным образом из-за того, что «ословаривание» научного знания является одним из основных способов его проявления и распространения; во-вторых, прикладную научную дисциплину в языкознании, изучающую методы, технологию и отдельные приемы использования компьютерной техники в теории и практике составления словарей.
Компьютерная лексикография как таковая, подобно лексикографии, может быть разделена на теоретическую и практическую. Первый раздел включает теорию компьютерной лексикографии и рассматривает такие темы, как типы компьютерных словарей, их конструирование, выработку правил компьютерного лексикографирования и др. Второй раздел имеет дело непосредственно с практическим воплощением теоретических исследований, т.е. созданием компьютерных словарей и баз данных.
К основным направлениям компьютерной лексикографии можно отнести:
1) автоматическое получение из текста с помощью компьютерных средств различных словарей (частотных, терминологических, конкордансов и т.д:);
теоретические и практические аспекты составления компьютерных словарей для систем обработки естественного языка (Natural Language Processing);
создание и эксплуатация словарей, являющихся машинными версиями традиционных словарей.
Первое и второе направления занимаются разработкой программ поддержки лексикографических работ.
В лексикографической практике широко пользуются компьютерными технологиями обработки лексического материала. Такие технологии представляют собой алгоритмы осуществления операций преобразования данных, которыми пользуется лексикограф в процессе своей деятельности. Основными компонентами компьютерной обработки текста являются компьютерные средства, включая сам компьютер и программное обеспечение, позволяющие вводить и запоминать текстовые данные, изменять их в процессе работы лексикографа и выводить результаты как в виде копий на традиционном бумажном носителе, так и в «электронном» виде на магнитных, магнитооптических и оптических (лазерных) носителях информации. Благодаря усовершенствованию инструментария практической лексикографии, создатели словарей теперь имеют возможность выбирать форму носителя своего произведения: традиционный бумажный или цифровой.
В настоящее время весьма актуальным является ввод на машинные носители известных словарей и справочников и создание на их базе новых словарей. Перевод в машинную форму ранее опубликованных книжных словарей позволяет «разложить по полочкам» содержимое каждого из них. Только на этой основе и можно осуществить эффективный контроль полноты и последовательности заполнения полей в статьях словаря, а также эффективно использовать и контролировать информацию в последующей лексикографической работе над новыми версиями данного словаря (в том числе в виде получения различных аспектуальных проекций словаря, его конверсий и т.п.).
Одной из важных задач лексикографии является также создание комплексных автоматизированных лексикографических систем. Во-первых, это может быть объединение в едином программном комплексе возможностей получения различных словарей по тексту (на основе использования лексических, морфологических, морфемных, фразеологических, синтаксических и иных анализаторов) и подкачки этой информации в основной словарь, содержащийся в словарной подсистеме. Во-вторых, имеется в виду обратное "опрокидывание" выбранных характеристик некоторого внешнего словаря на лексический и иной материал текста с целью дополнительной разметки текста и анализа полученных в нем соотношений различных типов разметки в интересах более глубокого проникновения в структуру и содержание текста. Все это дает возможность получения из компьютерного словаря разноаспектной информации.
Компьютерная лексикография является дисциплиной переходного периода - перехода от существовавшей в течение многих десятилетий традиционно ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям. В среде профессионалов-лингвистов уже сейчас известно множество программных разработок для построения глоссариев, словников, словоуказателей, конкордансов и других профессиональных компонент результатов лексикографической деятельности.
В Санкт-Петербурге в 2006 году была образована Лаборатория компьютерной лексикографии Института филологических исследований Санкт-Петербургского государственного университета. Лаборатория занимается созданием фундаментальных и аспектных словарей современного русского языка, созданием словника, составлением базы данных. В Лаборатории проходят регулярные семинары, посвященные обсуждению наиболее сложных и нерешенных теоретических задач лексикографии и текущих практических трудностей. Активную работу в области компьютерной лексикографии также проводят Лаборатория общей и компьютерной лексикологии и лексикографии филологического факультета МГУ им. М.В. Ломоносова. Лаборатория компьютерной лингвистики Института проблем передачи информации Российской академии наук и многие другие организации по всей России.