Краткий исторический обзор разработок иции

Исследовательский центр искусственного интеллекта (ИЦИИ) ИПС РАН был создан в 1987 г. на основе лаборатории проблем представления знаний, входившей тогда в состав Филиала Института проблем кибернетики РАН. Таким образом, научное направление — искусственный интеллект существовало в институте с самого его зарождения. Конец восьмидесятых годов — время бурного развития искусственного интеллекта в СССР. ИПС РАН стал фактически головным институтом в области ИИ благодаря теоретическим и практическим работам по созданию интеллектуальных систем. На основе разработанной в ИЦИИ модели неоднородной семантической сети были созданы инструментальные программные средства построения интеллектуальных систем SIMER+MIR . Эта технология нашла применение при создании ряда прикладных экспертных систем: по травматологии (для Центрального института травматологии и ортопедии им. ), диагностике топливной аппаратуры дизельных двигателей, контролю качества питьевой воды. С помощью технологии SIMER+MIR были созданы сложные комплексы прогнозирования и квотирования запасов биологических ресурсов для Каспийского и Азовского бассейнов (рис. 1). Но этой технологии было присуще одно существенное ограничение — в ней не было динамики. Таким образом, из области ее возможного применения выпадал довольно большой класс задач, а именно, задачи моделирования поведения. ИрОГИОЗ ПО IIQKQ Прогноз па лака Праги» по лакал Прогноз по поколения» члснннлстл какси Предо*ригельпня прогноз по поколении!* численности иаг*сн Предоаритгдьнн! прогноз по поколенном вионасси xjhcu ^j «1 I Г 115 |Имита числовое Рис. 1. Интерфейс системы оценки рыбных запасов на Азовском бассейне. 66 ИОТОРИЯ НАУКИ И ТбХНИКИ. № 5. 2009 модуль интеллектуал ьного планирования модуль анализа и управления Запрос на построение плана Запрос на выбор 3 на применвние угорий правил. прэЕил.01ношений| „отношении, оценок вы^ение оценох прос на выбор правил целеуказания и управления МодульвыПора правил Модуль применения правил План Запрос на извлечение процедур обработки правил и отношении Измененные значений атрибутов/оценок уровня экземпляров Рис. 2. Архитектура системы Miracle Для решения такого класса задач был предложен и исследован новый класс динамических моделей — динамические модели, основанные на знаниях (ДМЗ), динамика которых описывается экспертными и эмпирическими знаниями; исследованы вопросы устойчивости ДМЗ и компенсации возмущений . На основе перечисленных результатов была разработана архитектура динамических систем, основанных на знаниях (рис. 2), и реализованы соответствующие инструментальные программные средства, включающие в себя: базу знаний, средства динамического целеуказания, механизм динамического планирования, механизм анализа текущего состояния и механизм управления системой . В инструментарии представлены средства решения задач в предметных областях со сложной динамикой и структурой. Средства динамического целеуказания позволяют устанавливать необходимые целевые состояния интеллектуальной системы в зависимости от конкретной ситуации. Механизм интеллектуального динамического планирования прогнозирует изменение состояния предметной области, учитывая всевозможные управления в будущих состояниях, и вырабатывает план действий для достижения цели. Механизм анализа и пополнения описания состояния на основе текущего состояния предметной области выводит дополнительные факты, замыкая тем самым описание состояние предметной области. Механизм управления изменяет основные параметры процесса управления в соответствии с текущими целями и выработанным планом. Работа интеллектуальных систем в условиях динамичной внешней среды подразумевает своевременную реакцию на изменение параметров среды, что накладывает временные ограничения на функционирование механизмов анализа, управления, планирования и средства динамического целеуказания. Инструментальные средства программно реализованы как для фон-неймановской, так и для кластерной архитектуры вычислительных средств. В конце девяностых годов XX в. сфера интересов ИЦИИ расширяется в сторону задач обработки текстов и изображений. Задачи обработки текстов приобретают все большую значимость в связи с непрерывным ростом объема доступной информации. В ИЦИИ велись работы по трем аспектам обработки информации: поиск, классификация текстов, извлечение информации из текстов. Обработка текстов Поиск Хорошо известно, что применяемые в существующих поисковых системах методы не позволяют достичь высокой полноты и точности поиска. Кратко остановимся на основных идеях, приведших к появлению новой системы поиска информации, обеспечивающей высокое качество поиска. Основное соображение состояло в том, что высокого качества поиска (главным образом, точности) можно достичь, сопоставляя ситуации, описываемые в запросе и искомых документах. Отсюда следует, что запрос должен быть задан не списком ключевых слов, а фразой на языке предметной области. Таким образом, первой задачей явилась задача анализа фразы на естественном языке, а именно, такого анализа, который был бы достаточен для извлечения из фразы описания ситуации. При 67 ИОТОРИЯ НАУКИ И ТбХНИКИ. № 5. 2009 этом не было желания привязывать процесс к какой бы то ни было предметной области. Из этих двух посылок следует, что анализ запроса (и фраз текста) должен опираться, главным образом, на лингвистическую (т.е. морфологическую и синтаксическую) и некоторую семантическую информацию. Экспериментально было установлено, что для целей поиска достаточно описания ситуации в виде ролевого фрейма. С лингвистической точки зрения это означало использование семантических падежей, а в качестве минимальной лексической единицы, служащей для заполнения валентностей в падежных (ролевых) структурах, была выбрана именная синтаксема . Таким образом, основной акцент был сделан на формировании семантического (в указанном смысле) представления запроса и построении семантического поискового представления документа (в дальнейшем — поискового образа документа). Поисковый образ документа — это индекс пар «роль, именная синтаксема»; именная синтаксема = предлог + падеж следующего за ним существительного. Релевантность определяется на основе сопоставления поисковых образов документа и запроса. Эти идеи были реализованы в метапоиско-вой системе СИРИУС, которая продемонстрировала достаточно высокую точность поиска, близкую к 90% . Классификация текстов Задачи классификации текстов решались с применением достаточно ограниченного арсенала лингвистических средств — морфологического анализа, лемматизации, элементов синтаксического анализа, направленного, главным образом, на распознавание именных групп и некоторых иных лингвистических механизмов. Основным в этих задачах являлся механизм формирования образов классов — взвешенных векторов терминов, соответствующих каждому из классов. Этот вектор формировался в результате обучения для каждого набора классов на основе соответствующей обучающей выборке. Особенностью подхода являлось то, что были определены классы терминов, которые определялись как морфологическими характеристиками, так и синтаксическими. При этом в зависимости от прикладной области можно было задавать набор классов терминов, используемых как при обучении, так и при классификации. Кроме того, использовался словарь синонимов. Это позволило повысить точность классификации. Результатом работ этого направления явились системы классификации текстов КЛАСТЕР и АКТИС (на фон-неймановской и кластерной архитектуре, соответственно), демонстрирующие точность классификации 87 % . Извлечение информации Разрабатываемый подход основан на модели TIPSTER и языке описания правил извлечения информации CPSL . Но для решения сложных задач извлечения информации из текстов у языка CPSL недостаточная выразительная сила и мощь. Например, язык CPSL не позволяет явным образом использовать связи между аннотациями; это обусловлено тем, что эталонная модель TIPSTER и большинство ее реализаций не предлагают встроенных средств для выражения такой информации. Отсутствие таких средств приводит к тому, что невозможно (или неудобно) посредством правил строить деревья синтаксического подчинения, которые представляются нам более удобным формализмом для анализа предикатных конструкций (макросинтаксиса в нашей терминологии), чем деревья непосредственных составляющих. Поэтому данный язык был расширен коллективом разработчиков, и расширенный язык был реализован в системе ИСИДА-Т . Ключевыми элементами систем извлечения информации являются средства выявления информации и средства описания и использования знаний о предметной области. В случае системы ИСИДА-Т эти роли распределяются между множеством правил извлечения информации и онтологией. В задаче извлечения информации из текста можно выделить два этапа или подзадачи, которые были ранее названы извлечением информации в «слабом» и «сильном» смысле . Для 68 ИОТОРИЯ НАУКИ И ТбХНИКИ. № 5. 2009 GPE ТОГ UNTCORE CJient 1.4.4 — Fdc Settrw Help T*oetSysttffls isidfl смеете: ЛЫ stdout 5tdtrr:il^e Mpi*: ЕВЕ Евгении велихов ЮРИИ ОСИПОВ МИХАИЛ КОВАЛЬЧУК Концепт ©лицо TextExpresaon: Евгений Велихов Имя: Евгении Фамилия: Велихов Концепт: ©лицо TextExpression: Юрий Осипов Имя: Юрий Фамилия: Осипов Концелт: @лнцо Те xlExp cession: Михаил Коальчу Имя: Михаил Фамилия: Ковальчук 1лнцо_игр мт_рвп* !ЦО_ТйККМй(Т_Д СП ЛОГО СТЬ ЮРИЙКОВАЛЬЧУК Концепт: ©лицо TextExpression: Юрий Ковальчук Имя: Юрий Фамилия: Краальчук 1лнцо_нгрит_ропь Концепт: ©лица TextEKpresaon: Юрий Коаяяшук Имя: Юрий Фамилия: Ковэльчук Концепт. ©брат TextExpression: рат БРАТ СЕКРЕТАРЬ Концепт: @глэва_орг TextExpression секретарь I ^дшскнаст ь_ва_гп*5с_срг юрии ковальчук ОБЩЕСТВЕННОЙ ПАЛАТЫ Концепт: ©организация Тех1Екргв55пал: общественной Палаты 1лица_тчкм.(т_дотжно сть 1 лтго_1*ннмч ?тj сп даго пь ПРЕЗИДЕНТ_ОРГ Концепт. @преэидент_орг TexlExpressiort: президент \ ДОГЬМ10СТ^_Р _П1 OB !_(ТГ АКАДЕМ ИЯ-1 Концепт: ©академия_1 TextEicpression: акадямин ПРЕДСЕДАТЕЛЯ Концепт: ©плава_срг Те ж!Екр cession председателя deno*UHr betting property document from )ob- 1-IstdaGrid v. 1.0 foisted Runrnnq Thteads: 0 Рис. 3. Фрагмент когнитивной карты документа первого, как правило, достаточно локального контекста и ограниченного, локального, синтаксического анализа. Получаемый результат либо представляет собой разметку текста, либо немногим отличается от нее. Обработка, которой подвергаются извлеченные фрагменты для заполнения целевых структур, включает в себя лишь морфологическую и, по возможности, лексикографическую нормализацию. Результаты извлечения информации в «слабом» смысле — первичные текстовые факты в нашей терминологии — ограничивают возможности дальнейшего использования добытых из текста данных. Извлечением информации в «сильном» смысле мы считаем переход от текстовых фактов к такому их представлению, которое можно интегрировать в интеллектуальный информационный ресурс — ресурс знаний. В системе реализован язык запросов к ресурсу знаний, в результате выполнения которого система строит граф на экземплярах концептов с указанными типами связей между вершинами (рис. 3). Обработка изображений Распознавание изображений Одна из актуальных задач дистанционного зондирования Земли (ДЗЗ) связана с обработкой потоков изображений, доставляемых из космоса средствами технического зрения, в целях обнаружения локальных объектов. Здесь под потоком понимается последовательность видео-, фотои телевизионных снимков, приведенных к цифровому виду. Эффективным инструментом для решения этой задачи служат алгоритмы искусственных нейронных сетей (ИНС), которые выполняют фильтрацию (сети Хопфилда и Palm), распознавание образов (ИНС Хемминга, однослойный и многослойный персептроны), кластеризацию (сети Кохо-нена) и другие функции. В ИЦИИ ИПС РАН разработаны методы и реализована система распознавания изображений на космических снимках на основе использования ИНС . Особенностью методов 69 ИОТОРИЯ НАУКИ И ТбХНИКИ. № 5. 2009 ReaijMap (readpng)ReadEtalons (fidpng) i MagicWand (magicwand) I SmallDel (smalldel) 1 Fi n dQ bject s (fi rid о bje ct s)RatioCcunt (rati о count) Glue Objects (glue objects) 1 Autorotate2 (a u(qrotate)Aulorotatel (autorotate) 1I Re$ize2 (resize)Resizel (resize) Net (hemrriFna) 1 ResFiHer (scanwinjuwlilter) 1 Writer (savexnl) Рис. 4. Схема распознавания изображений на основе ИНС является, в частности, использование составной метрики Евклида-Махаланобиса вместо метрики Евклида, традиционно используемой в сетях Кохонена. Перед использованием ИНС для распознавания снимки проходят предварительную обработку (оконтуривание, утончение, выделение инвариантов и интегральных параметров (рис. 4). Обработка изображений и диагностика. Проблема современной клинической диагностики заключается в том, что она чрезмерно перегружена фактическими данными — это тысячи различных параметров организма, извлекаемых широким спектром диагностических методов. Врач не в состоянии не только глубоко проанализировать, но и просто ознакомиться со всеми результатами анализов, которые может предоставить ему современная лаборатория. В Российском геронтологическом научно-клиническом центре Росздрава разработана новая уникальная методика диагностики заболеваний по морфологической картине биологических жидкостей человека, позволяющая при помощи выделения характерных морфологических признаков — маркеров патологии диагностировать целый ряд серьезных заболеваний. В рамках данного направления разработаны уникальные способы диагностики и оценки эффективности лечения, которые защищены 50-ю отечественными и зарубежными патентами. При исследовании, например, мочи пациента можно установить: • ·мочекаменную болезнь, в том числе до стадии формирования камня в почке, определить вид камнеобразующих солей (оксалаты, фосфаты, ураты) и предупредить развитие заболевания при соответствующей коррекции; • гипоксически-ишемическое повреждение почечной ткани и оценить эффективность терапии; • ·некробиотический и склеротический процесс в ткани почек и оценку эффективности проводимого лечения; • кандидоносительство урогенитального тракта, кандидоз органов мочевой системы 70 ИОТОРИЯ НАУКИ И ТбХНИКИ. № 5. 2009 пая Mam tiMfl* AdbbofMl Diepv» > ¦ Ш LOW о … Среп fokb… Ffa JSJ.KJ ItJiywJ IbC vrtw LXurvc-HvennesS bcufve Ыж*52 bkcktfjumy Ым*54 Ы0СЫ_еЛ№у Ым*з Ыо^кзв^сДГЛу btoCkjcartly CtfW/Un« CtfViyPi*. CenHyPoWJ Cart1vP0irt4_SriMl thwt.Cryit „color met»* mkrenw mfcwwjwp pattern pettem_pat_Ol puttern_petjЈ patt*fn_pat_[ij .Ј.+ tmp (rim ичю*ег_п*ИР« ¦r yXvXwK* ViWAWiV ¦I ¦ ¦ Ilil 8Ш8Щ, Q О OlOOMlS.png Q V ОЮОЭЕЗ.род D ,-¦ оюозма.рпд D . 010G39S2.png О ОЮМвИ.рлд G V 010(M657.f*4 П ,¦¦ 01004714.рч ПОо а ^о D в D о а ^о G vo D о а ^о П ^о D о а vo п о П О о а о а во П о U о D о G ^о D . 010ЮТ54.рпд D .¦- 01010458.РСЧ П .» 01010529.(жч П ..¦ 01010И7.рч Q ^ 0101(ЈS3.png П j OWlOHB.png ИЮ5ДВ.(ЖЧ .00571 l.png Ш05729.рч i::»i.-p-n 10СБ746.[пд L00575Q.P4 LOOSSll.mg LQICCHS.png L010D53.png L010101 .png LOlOlCH.png [010120. рлд 10101^.рч ||| ЧМ.|. ,.п I ll 41 =¦..;.-¦;! ^шсил.рпд I ли ::/.!.¦¦¦ j crMft-Q rt-O ifjt chert. Qrtt-pfrt chert .p^ot drt Lfft fftz nndprot h