лист 2
Результаты конкурса "Искусственный собеседник - 2007(2008)"
Словарные базы плюс алгоритм определяют адекватность поведения программы-собеседника.
КАЧЕСТВО ОБЩЕНИЯ
Процент адекватности реакций - самый провокационный показатель! Он вроде и самый важный, НО!
Во-первых, стопроцентную адекватность очень легко обеспечить за счет простейших манипуляций. Например, заложить две реакции - "Хороший вопрос!" и "А ты не мог бы задать мне вопрос?" - соответственно, для вопросов и не вопросов. А потом получать диалоги вида:
Человек: Как тебя зовут?
Компьютер: Хороший вопрос!
Человек: Ты мне не ответил!
Компьютер: А ты не мог бы задать мне вопрос?
Примитивно? Да! Крайне примитивно! Но ведь адекватно! Более того, как известно, поиск всегда сопрождается ошибками, а это значит, что при высоких показателях творческой активности мышления повышается доля как раз неуместных, абсурдных реакций. Как говорится, не ошибается лишь тот, кто ничего не делает!
Во-вторых, обеспечить полную идентичность реплик, с которыми человек обращается к программе, невозможно без нарушения связности общения. Неодинаковость фраз обращения к программам, в свою очередь, нарушает сопоставимость оценок качества ответных реплик программ. А эта неодинаковость может даже носить определенную предвзятость! Я в процессе общения с конкурсными программами неоднократно ловил себя на мысли о том, что качественные ответы вызывали у меня жгучее желание предложить программе еще более сложную для восприятия реплику. "Ого!" - думал я. - "А программа ответила просто здорово! Интересно, как она тогда отреагирует на нечто более каверзное?". Получается, что чем качественнее отвечала программа, тем более сложные реплики я ей преподносил! Конечно, предвзятость!
В-третьих, оценка адекватности реакций программы носит очень субъективный характер из-за знаний. Например, если составитель словарных баз любит рыбалку, и оцениватель программы любит рыбалку, то велика вероятность того, что первый заложит в словарные базы реплики про эту самую рыбалку, а второй затем предложит программе реплики про то же самое. И вот только из-за этого сразу повышается вероятность того, что оцениватель будет восхищен ответами программы. В этом плане, наверное, пострадал Simulator - я не настолько большой знаток творчества про Гарри Поттера.
В-четвертых, люди иногда, например, нарочно не отвечают на прямо поставленный вопрос просто потому, что тема неприятна или даже собеседник...
- Ты когда мне долг отдашь?
- Какое небо голубое!
Или произносят реплику не непосредственно в ответ на реплику собеседника, а для поднимания новой темы.
Вот на эту тему два диалога для примера:
- Ты когда мне долг отдашь?
- Завтра.
- "Завтра, завтра, не сегодня," - так ленивцы говорят!
- Ты когда мне долг отдашь?
- Завтра.
- А ты видел, как наши на чемпионате мира вчера здорово выступили?
Считаю, что и во втором диалоге все реплики адекватные, хотя третья реплика не имеет прямых связей ни с первой, ни со второй. Просто третья реплика свидетельствует о том, что тема отдачи долга исчерпана. Соответственно, я и диалоги программ-собеседников оценивал с этих же самых позиций. Некоторые реплики "не в тему" я рассматривал как реплики, свидетельствующие о "желании" программы сменить тему.
Ну, и в-пятых, на самом деле никакая программа сейчас по адекватности реплик не может подняться выше нуля в принципе. Объяснение простое - программы сейчас имитируют осмысленность (эмуляция!), а на деле ее нет. Так что мои оценки адекватности программ - результат моего домысливания. И тут уж как мог, так и домысливал!
Сначала оценка того, насколько диалоги получаются связными, когда одна реплика "цепляет" другую.
Таблица 6 - Процент адекватности реплик связного диалога
| WildAI | WAIEC | Simulator |
1) человек - один персонаж | 76 | 73 | 67 |
2) человек - много персонажей | - | - | 67 |
-------------------------
Примечание: Ознакомиться с диалогами, использованными для получения данного показателя, можно здесь.
Проценты получились вроде и близкие друг к другу, но все же они совпадают и с эмоциональными ощущениями. WildAI и WAIEC, на мой взгляд, лучше обеспечивают связность диалога, чем Simulator. Связано это с тем, что Simulator использует довольно много изощренных реплик, которые сложнее приспособить ко всем случаям жизни, а также тем, что Simulator почаще менял тему.
Таблица 7 - Количество реплик, засчитанных в качестве адекватных, но резко менявших тему (на 100 реплик)
| WildAI | WAIEC | Simulator |
1) человек - один персонаж | 9 | 7 | 17 |
Чтоб проверить, насколько сказалось совпадение (несовпадение) интересов и словарного запаса у меня и у разработчиков, я организовал общение программы самой с собой: у WildAI и WAIEC - с помощью манипуляции с запуском сразу двух вариантов программы, у Simulator - просто за счет запуска всех персонажей.
Таблица 8 - Адекватность реплик при общении программы самой с собой
| WildAI | WAIEC | Simulator |
Процент адекватности реплик связного диалога у программы, при общении самой с собой | 87 | 79 | 85 |
-------------------------
Примечание: Ознакомиться с диалогами, использованными для получения данного показателя, можно здесь.
Повышение процента адекватности реакций было ожидаемо, так как программа вынуждена реагировать на те реплики, которые у нее есть в базе. Однако обращает на себя внимание впечатляющий прирост адекватности у программы Simulator. В первую очередь, думаю, это объясняется разницей в строении словарной базы (у WildAI и WAIEC не всякая фраза ответа одновременно присутствует в базах как фраза восприятия - в отличие от Simulator), а также, вполне возможно, тем, что все-таки мои интересы и познания ближе к базам WildAI и WAIEC, чем к базам Simulator.
Поскольку связность диалога приводит к неодинаковости используемых фраз, то, само собой разумеется, встала задача сравнить работу программ с помощью одного и того же набора реплик.
Таблица 9 - Процент адекватности реакции на одни и те же простые реплики
| WildAI | WAIEC | Simulator |
1) человек - один персонаж | 55 | 37 | 37(41) |
2) человек - много персонажей | - | - | 47 |
-------------------------
Примечание 1: У программы Simulator для общения с одним персонажем в скобках показано число с учетом на самом деле адекватного, но не разговорного варианта реакции - [Нет вариантов ответа. Введите свой вариант и нажмите кнопку "Исправить"].
Примечание 2: Ознакомиться с диалогами, использованными для получения данного показателя, можно здесь.
Процент адекватности реакций сразу упал более чем на треть по сравнению с показателями, полученными в ходе связного общения со мной. Произошло это из-за того, что в обычном диалоге обычно используются фразы гораздо проще, чем те, которые я использовал при данной проверке. Хотя и подобранные мои фразы, по идее, не представляли чего-то экстраординарного - большинство из них состоит не более чем из трех распространенных слов. Ну, и нужно отметить, что избранный способ оценки привел к тому, что WildAI существенно вырвался вперед. Здесь явно сказывается объем словарной базы.
Страницы: 1 2 3 4 5 6
|