Как работает алгоритм LSI? • ТехРТ

Google использует LSI для оценки смысла написанного в вашем блоге или на веб-сайте. Скрытое семантическое индексирование — это неправильное название «скрытого семантического анализа», статистического аналитического метода, который может использовать строки символов для определения семантики текста — того, что этот текст на самом деле означает.

Здесь мы обсудим некоторые аспекты LSI, которые заставят вас по-другому взглянуть на ключевые слова и на то, как вы пишете свой контент. Имейте в виду, что Google больше по поисковому трафику, чем все остальные поисковые системы вместе взятые. Кроме того, некоторые из этих других используют данные Google. Именно поэтому мы делаем на нем акцент.

Что такое скрытое семантическое индексирование?

Цель Google состоит в том, чтобы предоставить своим клиентам наилучшую информацию, которую они могут получить, когда они выполняют поиск. Поэтому Google должен полностью понимать, какую именно информацию ищут пользователи, когда они используют ключевые слова для информации, а также насколько хорошо каждая проиндексированная веб-страница предоставляет эту информацию.

Алгоритм скрытого семантического индексирования (LSI) Google был разработан для использования строк символов в документе для установления его семантической релевантности используемому поисковому термину (ключевому слову). Другими словами, чтобы помочь установить истинное значение текста в сообщении в блоге или на веб-странице.

Алгоритм LSI рассматривает все составляющие термины, используемые в тексте документа, чтобы установить его истинное значение по отношению к используемым ключевым словам. Вот почему важно быть конкретным при поиске информации в Google. Если вы используете слово «Apache» в качестве поискового запроса в Google, ваши первые шесть результатов включают приложение веб-сервера, племя коренных американцев, вертолеты Apache и компанию по разведке нефти и газа, использующую это имя.

Вы не можете предполагать, что Google вернет то же самое определение для поискового запроса, о котором вы думаете. Вы должны не только использовать свое основное ключевое слово, но и определить его определение в связи с тем, как вы его используете.

Результаты поиска Google в Apache

Точно так же, если вы используете концепцию LSI в своем тексте, вы можете увеличить вероятность того, что ваша страница или запись в блоге будут указаны для этого поискового запроса в контексте, в котором вы его используете. Это верно, даже если в тексте на вашей веб-странице или в блоге не упоминается ключевое слово «apache» или любое другое ключевое слово, которое вы используете. Вот почему.

LSI включает анализ символьных строк

Алгоритм не использует словарь, как мы его знаем, а включает в себя сложный статистический и математический анализ отдельных символов и строк символов, используемых в тексте, который составляет конкретную веб-страницу. Неважно, является ли это страницей блога, постом, полной страницей на веб-сайте или даже комментарием поста или строкой форума. LSI используется для оценки содержимого любого отдельного файла, опубликованного в Интернете.

Из-за этого Google ввел очень мощное средство различения языка, словарного запаса и семантики. Чем они отличаются? Вот как:

Язык: это слово обычно относится к формам письменных или устных слов, характерных для определенной страны или сообщества. Таким образом, текстовая строка «боль» означает «хлеб» на французском, но не на английском языке. Google не может определить разницу, если не понимает используемый язык.

Словарь: это слово относится к словам, используемым в определенном языке. Это также может относиться к диапазону слов, известных конкретному человеку в языке. «Плохой язык» относится к использованию словарного запаса, а не языка. «Коробка» — это слово из английской лексики, но у этого слова много значений, что приводит нас к:

Семантика: одно и то же слово может означать множество вещей. Таким образом, слово «ящик» может означать вместилище, сражаться, указывать стрелки компаса или тип куста. Семантика относится к значению слов в конкретном контексте. Плохой язык может очень хорошо выражать смысл, поэтому может формировать эффективную семантику!

Синтаксис: способ соединения слов в предложении. Таким образом, слова «собака укусила человека» могут быть выражены с использованием другого синтаксиса, как «мужчина укусил собаку.«До LSI Google не мог различить разницу — он просто обнаруживал слова.

Алгоритм Google LSI учитывает каждый из этих факторов. Если вы подумаете достаточно глубоко, вы сможете понять, почему повторение ключевых слов бессмысленно и почему низкая плотность ключевых слов (KD) может обеспечить вам лучшие результаты ранжирования, чем высокая KD.

Алгоритм анализирует значение слов на вашей веб-странице или в блоге, используя семантику и синтаксис, и сопоставляет их с предполагаемым значением ключевых слов, используемых человеком, выполняющим поиск.

Ключевое слово или смысл?

Что важнее для ваших читателей? Ключевые слова или смысл? Допустим, вы ищете информацию в Интернете с помощью поисковой системы. Что вы предпочтете найти: страницу, предлагающую много повторений вашего ключевого слова, но очень мало других, или страницу, которая предоставит вам то, что вы ищете, даже если вы не можете найти свой поисковый запрос в тексте?

Вы знаете ответ на этот вопрос, как и Google. Проблема заключалась в том, что в первые дни своего существования поисковая система Google могла находить, индексировать и ранжировать только те веб-страницы, которые содержали поисковый запрос (ключевое слово/фразу), используемый теми, кто ищет информацию.

Если ваш пост в блоге или веб-страница не содержит ключевого слова фразы, используемого в поисковом запросе несколько раз, то оно не будет отображаться и отображаться для всех, кто использует эту фразу — в будущем мы будем называть ключевые слова одним словом или несколькими. Так что угадайте, что!

Наполнение ключевыми словами и программное обеспечение

Стало обычной практикой наполнять веб-страницы ключевыми словами. Чем больше, тем веселее, и Google будет ранжировать их высоко на страницах результатов по этому ключевому слову. Предприниматели нажили состояние, разрабатывая программное обеспечение (приложения для вас, молодежь), которое брало одну страницу текста и генерировало сотни других, не меняя ничего, кроме ключевого слова, используемого для этой страницы.

Многие люди, которые использовали поисковую систему, чтобы найти очень важную для них информацию, получали страницу за страницей бесполезной чепухи, которая не давала им ничего, кроме рекламы и повторения одного и того же материала снова и снова.

Даже веб-мастера жаловались Google на то, что такие страницы могут располагаться выше тех, которые действительно предлагают информацию. Причиной было, конечно же, повторение ключевых слов. Алгоритм ранжирования был настроен таким образом, что чем больше ключевых слов, тем выше рейтинг. Это должно было прекратиться.

Google заметил это и решил что-то с этим сделать, но что? Это началось с использования алгоритма AdSense, который использовал семантику для определения наилучшего типа рекламы для любой конкретной веб-страницы. Он развил эту концепцию дальше, используя латентный семантический анализ для создания алгоритма латентной семантической индексации. Подробнее об этом в ближайшее время.

LSI использует концепцию латентного семантического анализа для изучения всего словарного запаса, синтаксиса и семантики на странице, чтобы установить ее истинное значение. С помощью LSI Google может сравнить поисковый термин, используемый его клиентом, с проиндексированными веб-страницами и определить, какие из них лучше всего соответствуют этому поисковому запросу/ключевому слову, анализируя весь словарный запас на странице, а не только ключевые слова. Как оно это делает?

Проблема двусмысленности в языке и лексике

Допустим, вы пишете книгу об изобретении и использовании замков на протяжении всей истории. Вам нужна некоторая информация в Интернете по этой теме, поэтому вы вводите поисковый запрос «замки и их история». Или, может быть, «история замков».

Первый вопрос, который следует рассмотреть, будет «какой тип замков?» Вы пишете о секретных замках – замках и ключах, или о канальных замках? Или, может быть, вы даже имеете в виду пряди волос? Для большинства людей вероятны только первые два варианта — замки каналов или те, для открытия которых нужны ключи.

Однако для Google все одинаковы. Ключевое слово «замки» или даже «история замков», но откуда машина узнает, о чем вы говорите? Он не может спросить вас — все, что он может сделать, это взять строку символов, из которой состоят слова, и найти ее в проиндексированных сообщениях в блогах и на веб-страницах.

Эффект от приобретения прикладной семантики

Ответ пришел после Google приобрела компанию в Санта-Монике в 2003 году. известная как прикладная семантика. Эта фирма работала над алгоритмами, применяющими семантику для понимания истинного значения написанного текста. Google купил компанию, а затем применил ее принципы к своей программе AdSense.

Это упомянутая ранее программа, в которой Google размещает релевантную рекламу PPC на ваших веб-страницах. Принципы прикладной семантики использовались для определения наилучшего типа рекламы для вашей страницы, исходя из истинной направленности ее содержания.

Google продолжил развитие этого математического аналитического метода и, наконец, придумал то, что он назвал скрытым семантическим индексированием. Используя LSI, Google может индексировать, а затем ранжировать вашу страницу по ее значению и общему содержанию, а не только по использованию ключевых слов.

Как работает алгоритм LSI: ключевые слова и семантика?

Google просмотрит другие словари на вашей странице, а затем проведет статистический анализ контекста и синтаксиса таких слов. Если пользователь Google ищет «история замков безопасности», Google примет во внимание другой словарь своих проиндексированных страниц. Если ваша страница содержит такие слова, как «ключи», «рычаги» и «двери», то она будет ассоциировать этот словарь с замками безопасности.

После учета других факторов ранжирования ваша страница будет отображаться на страницах результатов поиска по этому ключевому слову (история замков безопасности) в соответствии с преимуществами, которые, по мнению Google, она предлагает пользователю, выполняющему поиск. До LSI искателю также давали страницы, посвященные замкам каналов и даже волосам.

Избегайте наполнения ключевыми словами

Весь смысл здесь в том, что больше нет необходимости в чрезмерном повторении ключевых слов. Поскольку Google представил LSI, все, что вам нужно сделать, это убедиться, что вы используете как можно больше синонимов и связанных терминов с ключевым словом, которое вы преследуете.

Но не поймите нас неправильно — ключевые слова по-прежнему учитываются. Вы по-прежнему должны использовать релевантные ключевые слова, но Google использует концепцию LSI, чтобы определить, о чем на самом деле контент веб-сайта: что он на самом деле говорит. Это отлов страниц, написанных специально для включения в список отдельных ключевых слов, но имеющих мало полезного контента, кроме бессмысленных повторений ключевого слова.

Вы все еще можете использовать их, хотя даже 1,5% КД или меньше будет вполне достаточно. Используйте ключевые слова экономно, а также используйте другие термины, означающие то же самое в контексте вашей ниши. Это ответ на ваш вопрос — Как работает алгоритм LSI — и почему скрытое семантическое индексирование — это термин, который вам не нужно запоминать, пока вы понимаете и применяете концепции, которые использует Google, когда он использует LSI в своих алгоритмах индексации и ранжирования.

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *