О текстовой составляющей

04.01.2010

О текстовой составляющей

Здравствуйте. Сегодня на связи Orlan, участник осеннего конкурса SEO статей, приготовил для вас статью, с названием О текстовой составляющей. Контакты автора в конце статьи.

На днях бродил по интернету в поисках своего счастья. По интересующему меня запросу попал с поисковика на блог yarikseo, здесь я оказался уже не в первый раз, периодически читаю материал, публикуемый Яриком. Увидел что проводится интересный конкурс статей, совместно с партнерской программой SmartBucks и решил тоже принять участие, кстати, делаю это впервые.

Давно уже хотел поделиться одной своей идеей и выслушать мнение окружающих по поводу темы дальнейшей статьи. Итак, в этой статье речь пойдет о генерации текста для нужд сателлитчиков, дорвейщиков и сплогеров. Не секрет, что текстовая составляющая является одной из основ для попадания и существования в поисковой системе любого ресурса. Особенно остро данный вопрос встает в отношении индексации и живучести в нашем «любимом» Яндексе. Эта ПС обладает мощными средствами анализа морфологии, синтаксиса и, возможно, семантики русскоязычных текстов. На основе морфологического анализа, проводимого яшей, умирают не сочетающиеся в падежах, родах и числах бредотексты, отсюда вылет доров, генерируемых марковкой. Стыковка по запятым не проходит глубокую проверку синтаксиса, так как нарушен синтаксический граф – сочетаемость членов предложения. Синонимизированный контент, скорее всего, тоже палится из-за неизменности структуры предложений. Кроме того, яндекс наверняка обладает качественной базой синонимов, превосходящей в разы базы, используемые вебмастерами. Так же, при генерации и синонимизации текста, важно помнить о законе Зипфа, применительно к текстам на естественных языках, то есть частотности употребления в русском языке тех или иных слов и их сочетаний. Я считаю, ПС проверяет частотность употребления сочетаний не более 3-х слов подряд (так называемые биграммы – два слова, триграммы – три слова). Яндекс заявлял, что при проверке текстов на уникальность, не использует проверку по шинглам, я считаю что это не так. В любом случае проверка на шинглы используется как дополнительная, и, если Вы занимаетесь размножением статей, не забывайте об этом. Кто-то скажет, что копипаст рулит – да, от части это так. Но срок существования, тематики в которых он живет (новости, варез, некоторые виды описаний, витрины), позиции и легальность таких ресурсов вызывает ряд сомнений.

Теперь перейдем непосредственно к практике. Долгие поиски «темы» текстовки, эксперименты, наконец, увенчались относительным успехом. Решение оказалось не сложным, перспективным, но не автоматизированным. Суть заключается в добавлении прилагательных, наречий и оборотов в уже существующий текст. Для реализации метода подходят программы и скрипты для размножения статей. Я остановил свой выбор на программе Generating The Web (GTW), так как она поддерживает использование переменных (макросов), позволяет получать уникальные варианты текстов, имеет возможность сохранения результатов в удобном виде, что хорошо интегрируется с возможностями большинства паблик-доргенов. Отмечу, что пример программы ни в коем случае не является рекламой, просто для меня она показалась самой удобной, используйте любую. Были собраны в интернете базы наиболее часто употребляемых слов, разбитых по частям речи. С помощью грамматических словарей расширена база слов, получены все падежные, родовые, численные варианты, а так же, отглагольные производные к каждому из слов. Из всего этого собран словарь, каждый тип слов выписан как отдельный макрос, теперь его удобно добавлять в шаблон текста.

Для наглядности приведу пример:

Исходное предложение выглядит так: «Осенним (1) днем я (2) бродил по (3) лесу».

1 – макрос вставки прилагательного в творительном падеже и единственном числе.

2 – наречие.

3 – снова прилагательное в дательном падеже, единственном числе.

Подстановка производится из частотных словарей, описанных выше. Получаем: «Осенним спелым днем я активно бродил по трудному лесу». Этот вариант был сгенерирован программой, выглядит он немного бредовым, но, тем не менее, воспринимается как читателем, так и ПС, сохранена тематика и смысл. Можно пойти дальше и не просто подставлять слова в предложение, но и заменять используемые, однако, это увеличит его бредовость. Существует автоматизированное решение для рерайта копипаста с учетом частотности слов и словосочетаний. Такой продукт я нашел на сайте проекта solarix, однако его стоимость составляет порядка 13000 рублей.

На этом позвольте откланяться, используйте то, что пока живет в поисковиках, но смотрите в будущее, описанный метод всего лишь дополнение к уже существующим. Но, с моей точки зрения, он поможет в создании дорвеев для людей, качественных сателлитов и прочей пищи для яндекса.