Моя статья может быть интересна в первую очередь людям, которые хотят быть в курсе мировых событий и которые хотя бы пару раз в неделю посещают с этой целью новостные порталы. Сегодня речь пойдет о новом проекте Ziwa.org. ZIWA - это новостной интегратор, основная задача которого - анализировать тексты новостей из различных открытых источников, объединять новости по сюжетам и рубрикам, формировать наиболее полную информацию о событиях и связанных с ними объектах, а также оценивать уникальность статьи из того или иного источника.
Часть 1. Как ZIWA работает?
В качестве платформы разработки была выбрана Mono, являющаяся полноценным воплощением системы .Net от Microsoft, но работающая на базе свободного программного обеспечения - проект ZIWA использует серверы под управлением Open Suse. В качестве основы для поискового движка используется библиотека Lucine.Net, для которой были реализованы различные дополнения улучшающие поисковые возможности. Ну и самое важное, на чем базируется ZIWA, это технологии извлечения информации из текстов, построенные на основе открытых статистических алгоритмов и нейронных сетей и оптимизированные, и улучшенные командой разработчиков проекта.
От короткого описания используемых технологий перейдем к представлению технологического процесса обработки текстов новостей. В начале отбирается список проверенных новостных источников с RSS-каналами для России, Казахстана и Великобритании (в дальнейшем планируются и другие страны). Специально разработанный спайдер постоянно собирает новости по RSS-каналам, отслеживая повторяемость новостей. После того как страница с новостью сохранена на сервере, она подвергается парсировке, в ходе которой выделяются сущности, такие как география, персоны и организации, проводится классификация документа. Алгоритмы достаточно сложны и для их описания потребовалась бы отдельная статья, поэтому подробно на этом останавливаться не буду. Далее все необходимые данные сохраняются в репозиторий и в будущем используются для проведения анализов, различного рода статистики, например, для формирования рейтингов, кластеризации, классификации сюжетов. Не менее интересной является возможность сопоставления уже сохраненных новостей с теми, которые приходят позже, благодаря чему составляется картина плагиата новости, о которой я расскажу ниже.
Все это позволило создать относительно экономный в части инвестиций проект, обладающий при этом мощным функционалом.
Часть 2. Что ZIWA делает?
Главная страница проекта с первого взгляда может напомнить популярные новостные порталы, такие как Google.Новости, Яндекс.Новости, Лента.ру и другие. Здесь представлены все основные сюжеты дня. Под шапкой расположен список рубрик, по которым группируются сюжеты. При этом следует помнить, что сюжет может относится одновременно к нескольким тематикам и, соответственно, присутствовать более, чем в одной рубрике.
Справа располагается рейтинг упоминаемости персон и организаций за текущий день, а также рейтинг цитируемости изданий. Клик по персоне или организации приведет на страницу, соответствующую выбору: кликнув по персоне Путина, пользователь будет перемещен на страницу с новостями, в тексте которых фигурирует В.В. Путин.
Отличительной особенностью ZIWA является то, что все новости группируются по сюжетам как на главной странице, так и на страницах каждой рубрики, т.е. клик по определенному сюжету позволит ознакомится со всем списком документов на эту тему.
Каждый документ открывается в отдельном окне, в котором также размещены три полезные кнопки:
Только текст. Кнопка "Только текст" позволяет просмотреть последнюю имеющуюся на сервере версию распарсированного текста новости, что достаточно удобно.
Уникальный текст. По середине находится вторая кнопка "Уникальный текст", которая "затемняет" весь текст, который уже был использован в другой опубликованной ранее статье по этому сюжету. Уникальный текст при этом остается черным. Такой функционал дает возможность анализировать текст новости на предмет плагиата.
Кроме того, на странице конкретного сюжета отображается индекс уникальности каждой статьи, что позволяет пользователю выбирать только самые интересные документы, избегая повторов.
Оригинал страницы. Если пользователь в чем-то сомневается, то он может обратиться к третьей кнопке "Оригинал страницы", которая откроет страницу оригинала документа-первоисточника.
В каждом сюжете пользователь может управлять сортировкой документов, относящихся к нему: их можно сортировать по времени публикации, релевантности, уникальности и темам.
Не менее интересной является функция под названием "Отчет".
Перейдя по соответствующей ссылке, пользователь увидит самый полный документ сюжета, в котором при наведении на любое предложение появится выпадающее окно со списком источников и временем публикации, в которых похожие фрагменты встречаются.
В выпадающем окне каждый источник представлен в виде ссылки, клик по которой открывает окно с текстом соответствующей новости, где предложение будет выделено жирным шрифтом.
Справа от отчета предоставлен список самых цитируемых предложений сюжета. Таким образом, функция "Отчет" не только позволяет экономить время, затрачиваемое на ознакомление с сюжетом, но и анализировать источники новостей на предмет плагиата.
Часть 3. Как ZIWA ищет?
Для поиска, как и в любом стандартном поисковике, достаточно набрать необходимый текст, и он будет найден с учетом морфологии.
Например, для поиска по слову "Новость", будут найдены документы содержащие слова: "новость", "новости", "новостью" и т.д. Если пользователю необходимо помимо слова "Новость" отыскать еще и персону (например, "Путин"), то следует ввести следующее сочетание: "Новость person:Путин". Если требуется указать организацию (Например, "Дума"), то следует написать: "Новость organization:Дума". Соответственно, все документы можно группировать. Если требуется найти статьи, слова в которых начинаются с "позвол", то для этого можно использовать символ "*". Например, запрос "позвол*" будет искать предложения, где встречаются слова: "позволил", "позволяет", "позвонил" и т.д. Если требуется искать слова, в которых можно заменить только одну букву, то вместо "*" пользователь должен использовать "?". Например, запрос "карт?н" выведет статьи, в которых упоминается "картон" и "картин". Тем не менее, надо помнить, что хоть знак вопроса и заменяет любой символ, он не может находится в первых 3-х символах слова. Для указания логической связи двух и более слов используется ключевые слова: "И" и "ИЛИ". Например, запрос "(дуб ИЛИ дерево)" найдет тексты, где упоминаются слова "дуб" или "дерево". Для группировки слов в поисковом запросе на ZIWA используются скобки, как и на других поисковых порталах, например: "(дуб И дерево) спилил". Для исключения слова из поиска используется символ "-", который располагается перед словом. Например, запрос ("Путин -Медведев") вернет документы, где упоминается Путин, но не упоминается Медведев. Этот знак можно так же применять и на ключевых словах: запрос "-person:Иванов" исключит предложения, где Иванов определен как персона. И последнее, про что хотелось бы рассказать - это словосочетание в кавычках. Например: ""из трубы идет"". Такие слова в найденных статьях будут идти в предложении друг за другом. Если требуется определить близость слов, то для этого используется символ "~" и число, указывающее на количество слов. Например: ""взрыв цех завод" ~3", разрешает вставить между указанными словами от 0 до 2 любых других слов, т.е. вернуться может следующий текст: "Взрыв произошел в цехе дробления ферросплавного завода".
Одним из уникальных поисковых дополнений, сделанных разработчиками, является система фильтров результата поискового запроса.
Эта система включает в себя фильтры по рубрикам, источникам и времени. Используя их пользователь может легко отобрать найденные статьи, не затрачивая дополнительных усилий на корректировку поискового запроса.
Часть 4. ZIWA стремится к лучшему!
Вот я и закончил знакомить вас с проектом ZIWA. От себя хочу добавить, что все ваши комментарии относительно проекта не останутся без внимания. Нам очень важно знать точку зрения людей, которые нашли наш сервис интересным и полезным для себя, ведь от этого зависит его будущее развитие. Не буду отрицать, что в процессе создания этой статьи я мог что-то упустить, и, возможно, сейчас, когда вы ее читаете, наш сайт уже получил ряд обновлений, о которых нет упоминания в этой статье, но о которых мы написали в нашем блоге разработчиков blog.ziwa.org.
понедельник, 7 июня 2010 г.
Статья: Система отслеживания перепечаток
Ярлыки:
habrahabr,
антиплагиат,
новости,
статья
Подписаться на:
Комментарии к сообщению (Atom)
Справа располагается рейтинг упоминаемости персон и организаций за текущий день, а также рейтинг цитируемости изданий. Клик по персоне или организации приведет на страницу, соответствующую выбору: кликнув по персоне Путина, пользователь будет перемещен на страницу с новостями, в тексте которых фигурирует В.В. Путин.
Каждый документ открывается в отдельном окне, в котором также размещены три полезные кнопки:
Уникальный текст. По середине находится вторая кнопка "Уникальный текст", которая "затемняет" весь текст, который уже был использован в другой опубликованной ранее статье по этому сюжету. Уникальный текст при этом остается черным. Такой функционал дает возможность анализировать текст новости на предмет плагиата. 





Эта система включает в себя фильтры по рубрикам, источникам и времени. Используя их пользователь может легко отобрать найденные статьи, не затрачивая дополнительных усилий на корректировку поискового запроса.
0 коммент.:
Отправить комментарий