книги хакеры / журнал хакер / 146_Optimized
.pdf
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
||
|
|
|
C |
|
E |
|
|
|
|
|
|
C |
|
E |
|
|
|
||||||
|
|
X |
|
|
|
|
|
|
|
|
X |
|
|
|
|
|
|
||||||
|
- |
|
|
|
|
|
d |
|
|
- |
|
|
|
|
|
d |
|
||||||
|
F |
|
|
|
|
|
|
|
i |
|
|
F |
|
|
|
|
|
|
|
i |
|
||
|
|
|
|
|
|
|
|
t |
|
|
|
|
|
|
|
|
|
t |
|
||||
P |
D |
|
|
|
|
|
|
|
|
o |
P |
D |
|
|
|
|
|
|
|
|
o |
||
|
|
|
|
NOW! |
r |
|
|
|
|
NOW! |
r |
||||||||||||
|
|
|
|
|
BUY |
|
|
|
|
|
|
|
BUY |
|
|
||||||||
|
|
|
|
to |
|
|
|
|
|
|
|
|
|
|
to |
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
w |
|
|
|
|
|
|
|
|
|
m |
w |
|
|
|
|
|
|
|
|
|
m |
||
w Click |
|
|
|
|
|
|
o |
w Click |
|
|
|
|
|
|
o |
||||||||
|
w |
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
|
|
|||
|
. |
|
|
|
|
|
|
.c |
|
|
. |
|
|
|
|
|
|
.c |
|
||||
|
|
p |
df |
|
|
|
|
e |
|
|
|
p |
df |
|
|
|
|
e |
|
||||
|
|
|
|
|
g |
|
|
|
|
|
|
|
|
g |
|
|
|
||||||
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
||||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
-x cha |
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
классов — категоризировать ее по уровню доступа (для свободного |
Третьим достоинством лингвистических технологий является их |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
распространения, для ограниченного доступа, для служебного |
масштабируемость. Скорость обработки информации пропорци- |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
использования, секретная, совершенно секретная и так далее). |
ональна ее количеству и абсолютно не зависит от количества катего- |
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
Большинство современных систем лингвистического анализа ис- |
ðèé. |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
пользуют не только контекстный анализ (то есть в каком контексте, |
До недавнего времени построение иерархической базы категорий |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
в сочетании с какими другими словами используется конкретный |
(исторически ее называют БКФ — база контентной фильтрации, но |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
термин), но и семантический анализ текста. Эти технологии рабо- |
это название уже не отражает настоящего смысла) выглядело неким |
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
тают тем эффективнее, чем больше анализируемый фрагмент. На |
шаманством профессиональных лингвистов, поэтому настройку |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
большом фрагменте текста точнее проводится анализ, с большей |
БКФ можно было смело отнести к недостаткам. Но с выходом в 2010 |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
вероятностью определяется категория и класс документа. При |
сразу нескольких продуктов-«автолингвистов» построение первич- |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
анализе же коротких сообщений (SMS, интернет-пейджеры) ничего |
ной базы категорий стало предельно простым — системе указыва- |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
лучшего, чем стоп-слова, до сих пор не придумано. Автор столкнулся |
ются места, где хранятся документы определенной категории, и она |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
с такой задачей осенью 2008 года, когда с рабочих мест многих бан- |
сама определяет лингвистические признаки этой категории, а при |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
ков через мессенджеры пошли в Сеть тысячи сообщений типа «нас |
ложных срабатываниях — самостоятельно обучается. Так что теперь |
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
сокращают», «отберут лицензию», «отток вкладчиков», которые |
к достоинствам лингвистических технологий добавилась простота |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
нужно было немедленно заблокировать у своих клиентов. |
настройки. |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
Достоинстватехнологии |
И еще одно достоинство лингвистических технологий, которое хо- |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
чется отметить в статье — возможность детектировать в информа- |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
Достоинства лингвистических технологий в том, что они работают |
ционных потоках категории, не связанные с документами, находя- |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
напрямую с содержанием документов, то есть им не важно, где и |
щимися внутри компании. Инструмент для контроля содержимого |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
как был создан документ, какой на нем гриф и как называется файл |
информационных потоков может определять такие категории, как |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
— документы защищаются немедленно. Это важно, например, при |
противоправная деятельность (пиратство, распространение за- |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
обработке черновиков конфиденциальных документов или для |
прещенных товаров), использование инфраструктуры компании в |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
защиты входящей документации. Если документы, созданные и ис- |
собственных целях, нанесение вреда имиджу компании (например, |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
пользующиеся внутри компании, еще как-то можно специфическим |
распространение порочащих слухов) и так далее. |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
образом именовать, грифовать или метить, то входящие документы |
Недостаткитехнологий |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
могут иметь не принятые в организации грифы и метки. Черновики |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
(если они, конечно, не создаются в системе защищенного докумен- |
Основным недостатком лингвистических технологий является их |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
тооборота) тоже могут уже содержать конфиденциальную информа- |
зависимость от языка. Невозможно использовать лингвистический |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
цию, но еще не содержать необходимых грифов и меток. |
движок, разработанный для одного языка, в целях анализа друго- |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
Еще одно достоинство лингвистических технологий — их обуча- |
го. Это было особенно заметно при выходе на российский рынок |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
емость. Если ты хоть раз в жизни нажимал в почтовом клиенте |
американских производителей — они были не готовы столкнуться с |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
кнопку «Не спам», то уже представляешь клиентскую часть системы |
российским словообразованием и наличием шести кодировок. Не- |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
обучения лингвистического движка. Замечу, что тебе совершенно |
достаточно было перевести на русский язык категории и ключевые |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
не нужно быть дипломированным лингвистом и знать, что именно |
слова — в английском языке словообразование довольно простое, |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
изменится в базе категорий — достаточно указать системе ложное |
а падежи выносятся в предлоги, то есть при изменении падежа |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
срабатывание, все остальное она сделает сама. |
меняется предлог, а не само слово. Большинство существительных в |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
XÀÊÅÐ 03 /146/ 2011 |
119 |
|
|
|
|
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
||
|
|
|
C |
|
E |
|
|
|
|
|
|
|
C |
|
E |
|
|
|
||||||
|
|
X |
|
|
|
|
|
|
|
|
|
X |
|
|
|
|
|
|
||||||
|
- |
|
|
|
|
|
d |
|
|
- |
|
|
|
|
|
d |
|
|||||||
|
F |
|
|
|
|
|
|
|
|
i |
|
|
F |
|
|
|
|
|
|
|
i |
|
||
|
|
|
|
|
|
|
|
|
t |
|
|
|
|
|
|
|
|
|
t |
|
||||
P |
D |
|
|
|
|
|
|
|
|
|
o |
P |
D |
|
|
|
|
|
|
|
|
o |
||
|
|
|
|
NOW! |
r |
|
|
|
|
NOW! |
r |
|||||||||||||
|
|
|
|
|
BUY |
|
SYN/ACK |
|
|
|
|
|
BUY |
|
|
|||||||||
|
|
|
|
to |
|
|
|
|
|
|
|
|
|
|
to |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
w |
|
|
|
|
|
|
|
|
|
|
m |
w |
|
|
|
|
|
|
|
|
|
m |
||
w Click |
|
|
|
|
|
|
|
o |
w Click |
|
|
|
|
|
|
o |
||||||||
|
w |
|
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
|
|
||
|
. |
|
|
|
|
|
|
|
.c |
|
|
. |
|
|
|
|
|
|
.c |
|
||||
|
|
p |
df |
|
|
|
|
e |
|
|
|
p |
df |
|
|
|
|
e |
|
|||||
|
|
|
|
|
g |
|
|
|
|
|
|
|
|
g |
|
|
|
|||||||
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
||||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
|
-x cha |
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
английском языке становятся глаголами без изменений слова. И так |
информации будет ошибочно причислено не к тому классу со всеми |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
далее. В русском все не так — один корень может породить десятки |
вытекающими для бизнеса последствиями (утечка или прерывание |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
слов в разных частях речи. |
легитимного процесса). |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
В Германии американских производителей лингвистических |
Обычно не принято относить к недостаткам сложность разработки |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
технологий встретила другая проблема — так называемые «компа- |
технологии, но не упомянуть о ней нельзя. Разработка серьезного |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
унды», составные слова. В немецком языке принято присоединять |
лингвистического движка с категоризацией текстов более чем по |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
определения к главному слову, в результате чего получаются слова, |
двум категориям — наукоемкий и довольно сложный технологи- |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
иногда состоящие из десятка корней. В английском языке такого |
чески процесс. Прикладная лингвистика — быстро развивающаяся |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
нет, там слово — последовательность букв между двумя пробелами, |
наука, получившая сильный толчок в развитии с распространением |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
соответственно английский лингвистический движок оказался |
интернет-поиска, но сегодня на рынке присутствуют единицы рабо- |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
неспособен обработать незнакомые длинные слова. |
тоспособных движков категоризации: для русского языка их всего |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
Справедливости ради следует сказать, что сейчас эти проблемы во |
два, а для некоторых языков их просто еще не разработали. Поэтому |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
многом американскими производителями решены. Пришлось до- |
на DLP-рынке существует лишь пара компаний, которые способны |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
вольно сильно переделать (а иногда и писать заново) языковой дви- |
в полной мере категоризировать информацию «на лету». Можно |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
жок, но большие рынки России и Германии наверняка того стоят. |
предположить, что когда рынок DLP увеличится до многомиллиар- |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
Также сложно обрабатывать лингвистическими технологиями муль- |
дных размеров, на него с легкостью выйдет Google. С собственным |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
тиязычные тексты. Однако с двумя языками большинство движков |
лингвистическим движком, оттестированным на триллионах поис- |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
все-таки справляются, обычно это национальный язык + англий- |
ковых запросов по тысячам категорий, ему не составит труда сразу |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
ский — для большинства бизнес-задач этого вполне достаточно. |
отхватить серьезный кусок этого рынка. |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
Хотя автору встречались конфиденциальные тексты, содержащие, |
Статистическиеметоды |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
например, одновременно казахский, русский и английский, но это |
|
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
скорее исключение, чем правило. |
Задача компьютерного поиска значимых цитат (почему именно |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
Еще одним недостатком лингвистических технологий для контроля |
«значимых» — немного позже) заинтересовала лингвистов еще в |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
всего спектра корпоративной конфиденциальной информации |
70-х годах прошлого века, если не раньше. Текст разбивался на куски |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
является то, что не вся конфиденциальная информация находится в |
определенного размера, с каждого из которых снимался хеш. Если |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
виде связных текстов. Хотя в базах данных информация и хранится |
некоторая последовательность хешей встречалась в двух текстах |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
в текстовом виде, и нет никаких проблем извлечь текст из СУБД, |
одновременно, то с большой вероятностью тексты в этих областях |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
полученная информация чаще всего содержит имена собственные |
совпадали. |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
— ФИО, адреса, названия компаний, а также цифровую информа- |
Побочным продуктом исследований в этой области является, напри- |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
цию — номера счетов, кредитных карт, их баланс и прочее. Обра- |
мер, «альтернативная хронология» Анатолия Фоменко, уважаемого |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
ботка подобных данных с помощью лингвистики много пользы не |
ученого, который занимался «корреляциями текстов» и однажды |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
принесет. То же самое можно сказать о форматах CAD/CAM, то есть |
сравнил русские летописи разных исторических периодов. Удивив- |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
чертежах, в которых зачастую содержится интеллектуальная собс- |
шись, насколько совпадают летописи разных веков (более чем на |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
твенность, программных кодах и медийных (видео/аудио) форма- |
60%), в конце 70-х он выдвинул теорию, что наша хронология на |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
тах — какие-то тексты из них можно извлечь, но их обработка также |
несколько веков короче. Поэтому, когда какая-то выходящая на ры- |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
неэффективна. Еще года три назад это касалось и отсканированных |
нок DLP-компания предлагает «революционную технологию поиска |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
текстов, но лидирующие производители DLP-систем оперативно до- |
цитат», можно с большой вероятностью утверждать, что ничего, |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
бавили оптическое распознавание и справились с этой проблемой. |
кроме новой торговой марки, компания не создала. |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
Но самым большим и наиболее часто критикуемым недостатком |
Статистические технологии относятся к текстам не как к связной |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
лингвистических технологий является все-таки вероятностный |
последовательности слов, а как к произвольной последовательности |
|
|
|
|
|
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
подход к категоризации. Если ты когда-нибудь читал письмо с кате- |
символов, поэтому одинаково хорошо работают с текстами на любых |
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
|
|
|
|
горией «Probably SPAM», то поймешь, о чем я. Если такое творится |
языках. Поскольку любой цифровой объект — хоть картинка, хоть |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
со спамом, где всего две категории (спам/не спам), можно себе |
программа — тоже последовательность символов, то те же методы |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
представить, что будет, когда в систему загрузят несколько десятков |
могут применяться для анализа не только текстовой информации, |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
категорий и классов конфиденциальности. Хотя обучением системы |
но и любых цифровых объектов. И если совпадают хеши в двух |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
можно достигнуть 92-95% точности, для большинства пользовате- |
аудиофайлах — наверняка в одном из них содержится цитата из |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
лей это означает, что каждое десятое или двадцатое перемещение |
другого, поэтому статистические методы являются эффективными |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
120 |
XÀÊÅÐ 03 /146/ 2011 |
|
|
|
|
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
|
|
|
|
hang |
e |
|
|
|
|
|
||
|
|
|
C |
|
E |
|
|
|
|
|
|
C |
|
E |
|
|
|
||||||
|
|
X |
|
|
|
|
|
|
|
|
X |
|
|
|
|
|
|
||||||
|
- |
|
|
|
|
|
d |
|
|
- |
|
|
|
|
|
d |
|
||||||
|
F |
|
|
|
|
|
|
|
i |
|
|
F |
|
|
|
|
|
|
|
i |
|
||
|
|
|
|
|
|
|
|
t |
|
|
|
|
|
|
|
|
|
t |
|
||||
P |
D |
|
|
|
|
|
|
|
|
o |
P |
D |
|
|
|
|
|
|
|
|
o |
||
|
|
|
|
NOW! |
r |
|
|
|
|
NOW! |
r |
||||||||||||
|
|
|
|
|
BUY |
|
SYN/ACK |
|
|
|
|
|
BUY |
|
|
||||||||
|
|
|
|
to |
|
|
|
|
|
|
|
|
|
to |
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
w |
|
|
|
|
|
|
|
|
|
m |
w |
|
|
|
|
|
|
|
|
|
m |
||
w Click |
|
|
|
|
|
|
o |
w Click |
|
|
|
|
|
|
o |
||||||||
|
w |
|
|
|
|
|
|
|
|
|
|
w |
|
|
|
|
|
|
|
|
|
||
|
. |
|
|
|
|
|
|
.c |
|
|
. |
|
|
|
|
|
|
.c |
|
||||
|
|
p |
df |
|
|
|
|
e |
|
|
|
p |
df |
|
|
|
|
e |
|
||||
|
|
|
|
|
g |
|
|
|
|
|
|
|
|
g |
|
|
|
||||||
|
|
|
|
|
n |
|
|
|
|
|
|
|
|
|
n |
|
|
|
|
||||
|
|
|
|
-xcha |
|
|
|
|
|
|
|
|
|
-x cha |
|
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
цена лицензии, техническая поддержка от Oracle и дополнительные |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
пакеты, которые могут использоваться приложениями Oracle. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Подготовка ОС к установке Oracle стандартна и заключается в |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
создании пользователей и групп, задании переменных окружения и |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
параметров ядра. Параметры для конкретной версии ОС и БД можно |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
найти в Installation Guide, который поставляется вместе с дистрибу- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
тивом. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
На узлах должен быть настроен доступ к внешним общим дискам, |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
на которых будут храниться файлы базы данных и файлы Oracle |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Clusterware. К последним относятся votingdisk (файл, определя- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ющий участников кластера) и Oracle Cluster Registry (содержит |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
конфигурационную информацию — например, какие экземпляры |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
и сервисы запущены на конкретном узле). Рекомендуется создавать |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
нечетное количество votingdisk. Для создания и настройки ASM- |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
дисков желательно использовать ASMLib, которую надо установить |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
на всех узлах: |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
# rpm -Uvh oracleasm-support-2.1.3-1.el4.x86_64.rpm |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
# rpm -Uvh oracleasmlib-2.0.4-1.el4.x86_64.rpm |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
# rpm -Uvh oracleasm-2.6.9-55.0.12.ELsmp-2.0.3-1. |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
x86_64.rpm |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Кроме интерфейса для взаимодействия с хранилищем на узлах |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
желательно настроить три сети — Interconnect, External и Backup. |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
Необходимо настроить IP-адресацию (вручную или с использова- |
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
нием Oracl e GNS) и DNS для разрешения всех имен (или только |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
GNS). |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Вначале осуществляется установка Grid Infrastructure. Для этого |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
загружаем и распаковываем дистрибутив, затем запускаем |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
установщик (рис. 5). В процессе установки необходимо указать |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Рис. 4. ASM disk group |
имя кластера; указать узлы, которые будут входить в кластер; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
указать назначение сетевых интерфейсов; настроить хранилище. |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
|
|
|
В конце нужно выполнить с правами root скрипты orainstRoot.sh и |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
РазвертываниеOracleRAC |
root.sh. Первым на всех узлах выполняется скрипт orainstRoot.sh, |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
причем запуск на следующем узле осуществляется только после |
|
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
Рассмотрим этапы установки различных компонентов, необходимых |
завершения работы скрипта на предыдущем. После выполнения |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
для функционирования Oracle RAC в режиме active/active кластера с |
orainstRoot.sh последовательно на каждом узле выполняется root. |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
двумя узлами (рис. 7). В качестве дистрибутива будем рассматривать |
sh. Проверить успешность установки можно с помощью команды: |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
последнюю на момент написания статьи версию Oracle Database |
/u01/grid/bin/crsctl check cluster –all |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
11g Release 2. В качестве операционной системы возьмем Oracle |
Выполнив проверку, можно приступать к установке базы данных. |
|
|
|
|
|
|
|
|
|
|
|||
|
|
|
|
|
|
|
|
|
Enterprise Linux 5. Oracle Enterprise Linux — операционная система, |
Для этого запускаем Oracle Universal installer (рис. 6), который |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
базирующаяся на RedHat Enterprise Linux. Ее основные отличия — |
используется и для обычной установки базы. |
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
Рис. 5. Установка OracleGrid Infrastructure |
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
126 |
XÀÊÅÐ 03 /146/ 2011 |
|
|
|
|
|
|
|
|
|