четверг, 22 июля 2010 г.

Компьютер научили анализировать тексты


Учёные разработали алгоритм, который позволяет компьютеру отличать новостные сообщения от художественных текстов, а именно рассказов. Статья исследователей пока не принята к публикации в рецензируемый научный журнал, но её препринт доступен на сайте arXiv.org.
Алгоритм, придуманный авторами этой научной работы, анализирует, сколько раз любое слово из текста встречается вместе с другими словами в рассказах и новостных сообщениях. Полученные данные впоследствии сравнивали, пишет Лента.ру.
Оказалось, что для двух данных типов текстов этот показатель заметно отличается. Исследователи проверили созданную ими методику при помощи 400 новостных заметок, случайным образом выбранных с новостного сайта National Public Radio, и 400 случайных рассказов из базы электронной библиотеки проекта "Гутенберг". Чтобы исключить влияние исторических особенностей языка, авторы выбирали для анализа произведения писателей XX века.
Для новостных заметок точность угадывания составила 69,1% с погрешностью 1,22%, а для рассказов - 73,8% с погрешностью 5,15%.
http://www.oreanda.ru

Комментарии: 0:

Отправить комментарий

Подпишитесь на каналы Комментарии к сообщению [Atom]

<< Главная страница

Фонд Развития Интернет ПКДБ
Приглашаем в Пермскую краевую детскую библиотеку им. Л. И. Кузьмина. 614990, г. Пермь, ул. Сибирская, 11. тел. 212-69-13. E-mail:mail@pkdb.ru. Web-сайт - http://www.pkdb.ru.
Добро пожаловать в Миры библиотек! Добро пожаловать в ЧУМотеку!
все конкурсы, гранты, стипендии БИБЛИОТЕКАРЬ.РУ: электронная библиотека. Книги по истории, религии, культуре, искусству Детский портал «СОЛНЫШКО» Счетчик любви Google Рейтинг блогов Рейтинг блогов Рейтинг блогов
Сколько дней блогу позиция в рейтинге BestPersons.ru Проверка ТИЦ Праздники России

Powered by Blogger

Подпишитесь на каналы
Сообщения [Atom]