К
О
Н
К
У
Р
С

"ИСКУССТВЕННЫЙ СОБЕСЕДНИК"




На главную страницу

лист 2

Результаты конкурса "Искусственный собеседник - 2007(2008)"


Словарные базы плюс алгоритм определяют адекватность поведения программы-собеседника.

КАЧЕСТВО ОБЩЕНИЯ

Процент адекватности реакций - самый провокационный показатель! Он вроде и самый важный, НО!
Во-первых, стопроцентную адекватность очень легко обеспечить за счет простейших манипуляций. Например, заложить две реакции - "Хороший вопрос!" и "А ты не мог бы задать мне вопрос?" - соответственно, для вопросов и не вопросов. А потом получать диалоги вида:

Человек: Как тебя зовут?
Компьютер: Хороший вопрос!
Человек: Ты мне не ответил!
Компьютер: А ты не мог бы задать мне вопрос?

Примитивно? Да! Крайне примитивно! Но ведь адекватно! Более того, как известно, поиск всегда сопрождается ошибками, а это значит, что при высоких показателях творческой активности мышления повышается доля как раз неуместных, абсурдных реакций. Как говорится, не ошибается лишь тот, кто ничего не делает!
Во-вторых, обеспечить полную идентичность реплик, с которыми человек обращается к программе, невозможно без нарушения связности общения. Неодинаковость фраз обращения к программам, в свою очередь, нарушает сопоставимость оценок качества ответных реплик программ. А эта неодинаковость может даже носить определенную предвзятость! Я в процессе общения с конкурсными программами неоднократно ловил себя на мысли о том, что качественные ответы вызывали у меня жгучее желание предложить программе еще более сложную для восприятия реплику. "Ого!" - думал я. - "А программа ответила просто здорово! Интересно, как она тогда отреагирует на нечто более каверзное?". Получается, что чем качественнее отвечала программа, тем более сложные реплики я ей преподносил! Конечно, предвзятость!
В-третьих, оценка адекватности реакций программы носит очень субъективный характер из-за знаний. Например, если составитель словарных баз любит рыбалку, и оцениватель программы любит рыбалку, то велика вероятность того, что первый заложит в словарные базы реплики про эту самую рыбалку, а второй затем предложит программе реплики про то же самое. И вот только из-за этого сразу повышается вероятность того, что оцениватель будет восхищен ответами программы. В этом плане, наверное, пострадал Simulator - я не настолько большой знаток творчества про Гарри Поттера.
В-четвертых, люди иногда, например, нарочно не отвечают на прямо поставленный вопрос просто потому, что тема неприятна или даже собеседник...

- Ты когда мне долг отдашь?
- Какое небо голубое!

Или произносят реплику не непосредственно в ответ на реплику собеседника, а для поднимания новой темы.

Вот на эту тему два диалога для примера:

- Ты когда мне долг отдашь?
- Завтра.
- "Завтра, завтра, не сегодня," - так ленивцы говорят!

- Ты когда мне долг отдашь?
- Завтра.
- А ты видел, как наши на чемпионате мира вчера здорово выступили?

Считаю, что и во втором диалоге все реплики адекватные, хотя третья реплика не имеет прямых связей ни с первой, ни со второй. Просто третья реплика свидетельствует о том, что тема отдачи долга исчерпана. Соответственно, я и диалоги программ-собеседников оценивал с этих же самых позиций. Некоторые реплики "не в тему" я рассматривал как реплики, свидетельствующие о "желании" программы сменить тему.
Ну, и в-пятых, на самом деле никакая программа сейчас по адекватности реплик не может подняться выше нуля в принципе. Объяснение простое - программы сейчас имитируют осмысленность (эмуляция!), а на деле ее нет. Так что мои оценки адекватности программ - результат моего домысливания. И тут уж как мог, так и домысливал!

Сначала оценка того, насколько диалоги получаются связными, когда одна реплика "цепляет" другую.

Таблица 6 - Процент адекватности реплик связного диалога
 WildAIWAIECSimulator
1) человек - один персонаж767367
2) человек - много персонажей--67
-------------------------
Примечание: Ознакомиться с диалогами, использованными для получения данного показателя, можно здесь.

Проценты получились вроде и близкие друг к другу, но все же они совпадают и с эмоциональными ощущениями. WildAI и WAIEC, на мой взгляд, лучше обеспечивают связность диалога, чем Simulator. Связано это с тем, что Simulator использует довольно много изощренных реплик, которые сложнее приспособить ко всем случаям жизни, а также тем, что Simulator почаще менял тему.

Таблица 7 - Количество реплик, засчитанных в качестве адекватных, но резко менявших тему (на 100 реплик)
 WildAIWAIECSimulator
1) человек - один персонаж9717

Чтоб проверить, насколько сказалось совпадение (несовпадение) интересов и словарного запаса у меня и у разработчиков, я организовал общение программы самой с собой: у WildAI и WAIEC - с помощью манипуляции с запуском сразу двух вариантов программы, у Simulator - просто за счет запуска всех персонажей.

Таблица 8 - Адекватность реплик при общении программы самой с собой
 WildAIWAIECSimulator
Процент адекватности реплик связного диалога у программы, при общении самой с собой877985
-------------------------
Примечание: Ознакомиться с диалогами, использованными для получения данного показателя, можно здесь.

Повышение процента адекватности реакций было ожидаемо, так как программа вынуждена реагировать на те реплики, которые у нее есть в базе. Однако обращает на себя внимание впечатляющий прирост адекватности у программы Simulator. В первую очередь, думаю, это объясняется разницей в строении словарной базы (у WildAI и WAIEC не всякая фраза ответа одновременно присутствует в базах как фраза восприятия - в отличие от Simulator), а также, вполне возможно, тем, что все-таки мои интересы и познания ближе к базам WildAI и WAIEC, чем к базам Simulator.

Поскольку связность диалога приводит к неодинаковости используемых фраз, то, само собой разумеется, встала задача сравнить работу программ с помощью одного и того же набора реплик.

Таблица 9 - Процент адекватности реакции на одни и те же простые реплики
 WildAIWAIECSimulator
1) человек - один персонаж553737(41)
2) человек - много персонажей--47
-------------------------
Примечание 1: У программы Simulator для общения с одним персонажем в скобках показано число с учетом на самом деле адекватного, но не разговорного варианта реакции - [Нет вариантов ответа. Введите свой вариант и нажмите кнопку "Исправить"].
Примечание 2: Ознакомиться с диалогами, использованными для получения данного показателя, можно здесь.

Процент адекватности реакций сразу упал более чем на треть по сравнению с показателями, полученными в ходе связного общения со мной. Произошло это из-за того, что в обычном диалоге обычно используются фразы гораздо проще, чем те, которые я использовал при данной проверке. Хотя и подобранные мои фразы, по идее, не представляли чего-то экстраординарного - большинство из них состоит не более чем из трех распространенных слов. Ну, и нужно отметить, что избранный способ оценки привел к тому, что WildAI существенно вырвался вперед. Здесь явно сказывается объем словарной базы.


Страницы: 1   2   3   4   5   6




Hosted by uCoz