Для особо ленивых, кому лень по ссылкам лазить выкладываю интервью тут:
Эра Элинги
Владимир ЦВЕТКОВ
В НГТУ им. Р. Е. Алексеева прошла 15-я Международная научно-техническая конференция “Информационные системы и технологии”. Одним из ее направлений было обсуждение систем управления знаниями. В нем принимал участие постоянный эксперт нашей газеты, специалист в сфере создания систем направления “искусственный интеллект”, директор научно- исследовательского и проектного института “Сириус-2”, кандидат технических наук, доцент НГТУ Геннадий БРОНФЕЛЬД.
— Почему эта проблема вызвала такой большой резонанс?
— Это проблема сродни глобальному потеплению Земли и уж, конечно, финансовым кризисам, которые происходят из-за переизбытка, допустим, товаров или долгов. В данном случае речь идет о переизбытке знаний, которыми мы не умеем управлять. А неуправляемые процессы такого рода могут послужить катализатором глобальных катастроф.
Во весь голос о проблеме управления знаниями начали говорить несколько десятилетий назад. Был веский повод забить тревогу. Объем поступающей информации увеличивается из года в год. И в этих гиганских объемах информации человечество стало захлебываться. Попробуй отыскать в пучине информации то, что тебе нужно. Процесс этот давно уже получил название — сатурация (перенасыщение информацией). Как объект изучения сатурацию смело можно поместить в графу катастроф и аномальных явлений. И возникает вопрос: зачем продолжать какие-то исследования, если мы не в состоянии использовать или даже отыскать уже добытые знания, испытывая информационный голод среди изобилия информации.
Тупик мощнейший. Чтобы выбраться из него, тратятся громадные средства, но результат или минимальный или даже отрицательный. Процесс “затоваривания” знаниями идет экспоненциально, объем информации продолжает угрожающе нарастать. Уже в 60—70-е годы ученые пришли к выводу: если знания будут прибывать теми же темпами, то к 2020 году все будут заниматься только обработкой информации.
Выходит, что мы не знаем то, что знаем. И это одна из причин всевозможных кризисных явлений совершенно в разных направлениях, в том числе и в экономике. Мы с ними не можем справиться, потому что не в состоянии воспользоваться уже добытыми знаниями. Это одна из тех проблем, которые топят человечество изначально. Возьмем проблему потепления Земли. Чтобы решать ее, требуется обработка гигантского количества информации и знаний, в том числе и тех, которые уже добыты. Но мы не можем до них дотянуться.
С этим связаны все реформы образования, которые начались в мире с 60-х годов. Это попытка таким образом дать человеку знания, чтобы он мог ими воспользоваться. Но очень быстро выяснилось, что впихивать информацию, допустим, школьникам, студентам можно только в ограниченном количестве. Проблема стала выглядеть тупиковой, несмотря на применение вычислительной техники. При существующих подходах в поиске и обработке знаний неизбежно возникает перебор. И он растет так быстро, что никакие в мире ЭВМ справиться с этим не могут.
— Об утилизации речь не возникала?
— Можно привести данные, допустим, по берлинским библиотекам. Там некоторые книги лежат столетиями, и больше половины из них не спрашиваются ни разу. Знания архивируются, потому что никто ими не пользуется. Но утилизация знаний не годится по очень простой причине. Дело в том, что часть их в принципе не устаревает вообще. Достижения, скажем, Эвклида, Платона и т. д. уточняются и совершенствуются. А кто может поручиться, что остальные знания, в которых собран исторический опыт человека, никогда никому не пригодятся? Просто выкидывать их нельзя. Информация должна сохраняться, дополняться и уточняться.
Современные средства сохранения знаний достаточны по мощности, чтобы выполнять громадный объем работы. На это нам хватает техники. Но нам не хватает методов найти то, что надо при решении какой-то задачи. Даже не касаясь проблем спасения человечества. У существующих систем поиска информации довольно узкий спектр возможностей.
Недавно в Японском центре проходил семинар, где выступал один из руководителей компании “Тойота”, чьи технологии поддерживаются и развиваются десятилетиями. Понятие “забывание” для современной экономики просто смертельно. Если компания забудет то, что делала вчера, то она потеряет конкурентоспособность и клиентуру. Японец привел ряд формул, показывая, что прибыль компании равна количеству персонала, умноженному на его профессиональный потенциал и мотивацию. Прибыль “Тойоты” из года в год росла, а значит и профессиональный потенциал сотрудников реализовывался в полной мере. То есть они получали и использовали все новые и новые знания.
Специалисты российских компаний могли бы преуспеть значительно больше, чем сегодня, если бы воспользовались новой системой доступа к знаниям, которая определяет новые возможности по принятию решений. На самом деле “переплюнуть” японцев не так уж и сложно. Новые подходы в работе со знаниями имеют абсолютно четкую коммерческую направленность и эффективность. Они позволят ускорить процесс нахождения правильных (а точнее сказать рациональных) решений не на 5—10 проц., а в разы.
— Какой продукт вы предлагаете рынку?
— Он имеет две ветви. Для предприятий — это аналитическая система управления знаниями (АСУЗ), а для индивидуального потребителя — интеллектуальная электронная книга в варианте — элинга. Я уже сейчас готов создавать во всяком случае экспериментальные варианты АСУЗ для нижегородских предприятий. Эта система позволит почти моментально вылавливать из моря знаний нужную рыбку. Предприниматель ищет, допустим, клиента, чтобы продать какую-то вещь, и ему тут же выдается лучшее решение. Нужна технология? На его запрос почти мгновенно выдается именно то, что требуется. Резко подскакивают и скорость выдачи информации, и результативность принятого решения. Но для этого надо сначала создать базу знаний (БЗ). Ее нет пока в необходимой форме ни по одному направлению. На создание БЗ потребуется минимально 1,5—2 года.
— В чем же суть нового подхода?
— Применяется метод прямой интеграции знаний на основе их наложения в АСУЗ и элинге. Это означает, что если одно и то же предложение текста в разных источниках знаний или вводимых документах содержит одно и то же формальное представление (в том числе с учетом синонимов) знания и понимается одинаковым образом экспертом-редактором (вводящим знание в БЗ), то оно вводится один раз с указанием всех идентификаторов, где эта формальная модель встречается. При этом практически исчезает дублирование знаний, столь мешающее специалистам-пользователям при их работе с текстовыми источниками и с рядом информационных и интеллектуальных систем, в том числе с интернетом.
— Для каких случаев лучше всего подходят ваши инструменты?
— Например, специалисту нужно получить знания, как обрабатывать какую-то конкретную деталь. Он может воспользоваться известными автоматизированными системами технологической подготовки. Ну а если в детали есть некие особенности конструкции или материалов, не предусмотренные технологической системой, то ему придется искать решение самостоятельно. Вот тут и требуются АСУЗ или элинга. Пользователь задает вопрос системе, и она выдает цепочку ответов в виде блоков взаимосвязанного текста на основе разных принципов.
При этом создаются условия для возникновения у пользователя новых ассоциаций, которые ведут к ускоренному нахождению решений с высокой оригинальностью и эффективностью. Критерии, альтернативы, представления и оценки непрерывно исследуются и приспосабливаются в течение этого процесса с участием самого пользователя. Возникает круговой и рекурсивный, но постепенно сужающийся поиск устойчивой конфигурации решения.
Назовем применяемый в АСУЗ и элинге подход диалогово-ассоциативным поиском. Каждый раз при подаче запроса сложно сказать, найдет ли пользователь необходимый ответ. Но зато можно уверенно утверждать, что он разберется в интересующем его предмете намного лучше и быстрее, чем при традиционных технологиях. При достаточной развитости новых инструментов не надо будет заглядывать в печатные книги, обращаться к другим специалистам, в другие отделы и организации. Процесс нахождения рационального решения сократится в десятки, сотни раз. Он станет значительно дешевле. В чем-то схожий подход предполагалось использовать и при решении задач с помощью ЭВМ пятого поколения. Но до появления и использования этих машин пока еще далеко.
— Какие у АСУЗ и элинги могут быть рыночные перспективы?
— В книге канадца М. Маклюэна “Галактика Гутенберга” (как его в свое время называли, “пророк из Торонто”) рассказано о наступлении новой эры, которая связана со средствами массовой коммуникации — радио, телевидение, компьютер. До этого была цивилизация печатной книги, которая служила носителем информации. Но что является новым носителем знаний? Им в компьютерную эру будет элинга — интеллектуальная электронная книга. Она начнет давать человеку знания быстро и обширно. Новый вариант в эру коммуникаций, описанную Маклюэном, наверняка будет пользоваться спросом.
Американский ученый В. Винж с начала 90-х годов стал говорить, что предстоит некая революция в технологиях, “технологическая сингулярность”, то есть исторически мгновенный скачок в совершенно разных направлениях. Но связано это будет именно с успехами направления “искусственный интеллект”. Сингулярного скачка до сих пор нет. Почему? Не исключаю, что инструмент наподобие элинги — новый носитель знаний и информации, заменяющий печатную книгу в новую эру массовых электронных коммуникаций, этот сингулярный скачок в развитии научно-технических возможностей человечества вполне может вызвать.
Интересен пример лингвиста проф. В. Чернявской. Почему, например, американцу Крику и соавторам дали Нобелевскую премию за открытие ДНК, причем за статью на одной журнальной странице? За 10 лет до него группа других американских ученых все это опубликовала, но их не заметили. Крик более точно указал термины и связал их с существующим уровнем. А его менее удачливые конкуренты не в том месте опубликовали свое открытие и не так его описали. Если элинга будет быстро выдавать результаты, то целый их ряд в технической области будет признан изобретениями. Вы за 5—10 минут можете стать изобретателем, технология ТРИЗ в ряде случаев может оказаться гораздо более медленной и менее результативной. Ведь что такое изобретение? Это описание нового решения. А если вы новое решение получили, то смело подавайте заявку на авторские права.
— Как вы подошли к созданию элинги?
— Все было достаточно просто. Проблемами искусственного интеллекта я занимаюсь с 1986 года, создавал экспертные системы. Но в 90-е годы немного от этого отошел. А потом была работа в институте “Сириус”, где скопился очень большой объем разработок и информации. Возник вопрос, как их внедрять, что делать с информацией? Мне это было непонятно, что-то устарело, что-то нуждалось в доработке, что-то можно активно внедрять, но денег на раскрутку не было и т. д. И вдруг в какой-то момент, перебирая свои старые материалы по экспертным системам, — я понял, как решать проблему переизбытка знаний. Это был июнь 2001 г.
В экспертных системах есть специфический метод создания БЗ. Там за кадром стоит эксперт, который сам вносит знания, которые нужны, из разных источников, он интегрирует их, создает единую базу. Но возникает вопрос: а почему мы не можем сделать единую БЗ из источников просто без эксперта или с его минимальным участием?
Мы моделируем с помощью методов искусственного интеллекта знания и начинаем их вносить в единую базу. То что у нас известно, во второй раз не вносится. Помечается только, из какого источника повтор. Что это нам дает? Информационный шум мгновенно исчезает. Но поскольку источники этих знаний мы пометили, то можем их восстановить.
Я долго занимался разработкой стандартов. В частности, отраслевых. И знаю, как важно расписать пользователю последовательность операций. И если мы подаем запрос и нам выдается последовательность знаний, то у нас появляется некая последовательность предложений, которые методами искусственного интеллекта получаются семантически связанными. С применением дополнительно известных в лингвистике подходов — когезии и когерентности мы получаем некий текст, который по сути является виртуальной книгой, которую пишет сам пользователь. И у него в этом отношении будут неограниченные возможности, намного большие, чем при применении гипертекстовых систем.
Возьмем закон Зипфа, известный с 50-х годов. Он говорит, что если мы выстроим график терминов, которые употребляются в тексте, то окажется, что вначале идут термины, чаще встречающиеся, а потом те, что реже и реже — по гиперболе. Получается, что если мы чего-то ищем, то оно все в начале. Не надо перебирать миллионы книг, основные зацепки мы можем найти почти с первых шагов. И есть еще менее известное (кроме лингвистов) — правило шести шагов Караулова. Оно означает, что если мы хотим найти связь понятий, даже казалось бы весьма удаленных, то нам не надо миллионы слов, она достаточно быстро найдется.
Но за кадром возникает проблема понимания. Почему человек что-то не понимает? Как правило, потому что он не знает отдельных терминов и неких незнакомых методик. Фокус в том, что в одних книжках термины и методики описываются плохо или вообще не упоминаются, а в других лучше. И человеку надо просто их найти. И если система этим обладает, а в элингу будет введено достаточное количество источников, то человек за два—три часа найдет большинство решений, которые ему, в первую очередь, нужны. Ключевой вопрос — база знаний. Но она не является бесконечной и ей не требуется быть таковой. Достаточно, допустим, по каждой теме 30—50-ти введеных источников, и эта БЗ уже будет на уровне хорошего специалиста выдавать практические результаты (тут есть уже практика экспертных систем).
— Создание элинги — вещь дорогостоящая. Нашлись бы предприниматели, готовые поддержать ваш проект.
— Создавать аналитические системы управления знаниями для нижегородских заказчиков я мог бы начать уже сегодня. Простейшие прототипы элинг уже есть, но до коммерческого варианта элинги пока весьма далеко — нужны серьезные вложения.
Источник:
[...]