Зачем айтишнику парсер?

Пост конкурсный и одновременно внеконкурсный. В нем моя задача описать связь таких понятий как парсер и айтишник, что в принципе не так уж и сложно сделать, если сравнивать с другими конкурсными статьями. А если учесть, что я сам айтишник до мозга костей и делать парсеры мне уже не раз приходилось, то задача вообще выглядит тривиальной.Начнем с терминологии. Парсер — это программа или скрипт для разбора текста, с помощью которой из большого массива данных выделяются вменяемые структуры. Ну это если простым языком. Например, только после парсинга можно определить где у текста заголовок, сколько в нем внешних ссылок и так далее. Также можно парсить статистические таблицы, скрипты и прочие текстовые данные.

Совсем другой вопрос, зачем айтишнику парсер. Как с помощью данного инструмента можно заработать деньги (это более правильное определение). И так, что можно парсить:

  • Статистика. Зачем существуют конкуренты? Правильно, чтобы за ними подсматривать. Особенно, если у конкурентов открытая статистика. Тогда можно распарсить статистику и, например, узнать, по каким запросам люди идут на сайты конкурентов с поисковых систем. Я в свое время пытался узнать, какими запросами кормятся сеошные блоги и надо сказать не все из ключевиков тематические.
  • RSS лента (Что такое RSS?). RSS парсить очень легко, так как структура данных заведомо известна. Наверное поэтому многие вебмастера так любят автонаполняемые (из нескольких RSS) сайты. Их просто делать, но вот эффект от этого небольшой.
  • Синонимизация. В дополнение к прошлому пункту. Чтобы неуникальные тексты с большей готовностью съедались поисковыми системами, их можно синонимизировать. Однако, это уже более сложный парсинг — определение частей речи, логических связок и прочее, иначе без семантического анализа текст превратится в нечитабельный.
  • Постинг. Автоматизация постинга (как сделать постер) любых данных (например, в социальные закладки, чем занимается Жукладочник) невозможна без парсинга форм (точнее, form). А определить где каптча, а где скрытые input параметры — это все парсинг.
  • Наполнение сайтов. Тут уже речь не об RSS. представим, что вы сделали сайт с юридическими адресами фирм по производству окон. Сколько времени придется потратить, чтобы собрать адреса в одно место. А если применить мозг айтишника в совокупности с хорошим парсером, наполнить сайт можно за вечер.

В общем, долго можно продолжать. Писать парсеры и рубить бубло — вполне реальная тема для заработка, особенно если есть что-то в голове.

Статья написана при моральной и материальной поддержке уважаемых seo форум вебмастеров и WebEffector – очень умный робот.

Добавить комментарий

Ваш e-mail не будет опубликован.