История поисковых систем

0
351
Настоящая история интернета. Поисковые системы

История поисковых систем

Сеть развилась вне архивов программы передачи файлов, становясь графически богатым мультимедийным миром и развивая инструменты, которые позволяли найти и получить доступ к этому богатству. Многие помнят, что перед браузерами был WAIS (выпущенный в 1991 году), и версия XWAIS, которая обеспечила легкий способ GUI для поиска информации. Однако эта система требовала, чтобы серверы организовали информацию согласно определенному формату. Одна из самых ранних поисковых систем Lycos, начала работу весной 1994 года, когда паук Джона Ливитта был связан с программой индексации Майклом Молдином. Каталог Yahoo, стал доступным в тот же самый год. Сравните это с появлением мозаики NCSA в 1993 году и Netscape в 1994 году.

Поисковой системе присуще данные и инструменты, чтобы создавать базу данных и осуществлять поиск; каталог — организационный метод и связанная база данных плюс инструменты для того, чтобы организовывать поиск. Есть сайты, которые предоставляют новости, библиотеки, словари, и другие ресурсы, которые не только выступают как поисковые системы или каталоги, но некоторые из них могут быть действительно полезными. Yahoo, например, подчеркивает каталогизацию, в то время как другие, типа AltaVista или Excite, подчеркивают обеспечение наибольшей базы данных поиска. Некоторые услуги сети не имеют ни одной из технологий поисковых систем, их главная задача осуществлять другие услуги. Компании, типа Inktomi обеспечивают технологию поиска.

Эта паутина поместила удивительную власть в руки каждого пользователя, делая жизнь каждого из нас намного лучше. И это свобода, правильно?

Возможно нет. Это известно по слухам, что эти информационные компании могли бы увеличить свои доходы, продавая информацию — информацию о Вас. После того, как Вы используете определенную поисковую систему и находите нужную вам страницу, Вы могли бы неожиданно получить по электронной почте рекламные инвестиции. Полагаете, что это — совпадение? Подумайте еще раз… Инвестиционная компания, возможно, заплатила поисковой системе за ваш адрес электронной почты. Продажа такой информации не рекламируется, однако, есть протокол для серверов, по поиску такой информации.

Сегодняшние высокоэффективные поисковые интернет системы были разработаны в кротчайшие сроки.

Академики и ученые имели элементарные инструменты, подобные поисковым системам уже в 1970-ые годы. Однако количество информации, к которой они получили доступ, — просто капля в море по сравнению с тем, к чему средний компьютерный пользователь может получить доступ сегодня.

Только одна поисковая система Google внесла больше чем 3.3 миллиарда веб-страниц по данным на октябрь 2003 года, увеличение 1.2 миллиардов страниц через 20 месяцев – или 23 страницы в секунду.

Как работают поисковые системы

Каждая поисковая система ищет базу данных полного текста веб-страниц, отобранных из миллиардов, находящихся на серверах. Когда Вы ищете сеть, используя какую-либо поисковую систему, то всегда находите несвежую копию реальной веб-страницы. Когда Вы нажимаете на связи, находящиеся в результатах поиска, Вы восстанавливаете у сервера текущую версию страницы.

Базы данных поисковой системы отобраны и построены в соответствии с компьютерными программами робота, названными пауками. Они находят страницы для потенциального включения следующим страницам, которые они уже имеют в своей базе данных, (то есть, уже «знают о них»). Они не могут думать или печатать URL или использовать суждение, чтобы «решить» куда пойти.

Если веб-страница не связывается с ни какой другой страницей, пауки поисковой системы не могут ее найти. Единственный путь для регистрации новой страницы заключается в том, чтобы занести URL данной страницы в форму добавления для поискового робота. Все компании поисковой системы предлагают способы это сделать.

После того, как пауки находят страницы, они передают их на другую компьютерную программу для «индексации». Эта программа распознает текст, связи, и другое содержание в странице, и хранит это в файлах базы данных поисковой системы так, чтобы база данных могла быть найдена по ключевым словам.

Некоторые типы страниц и связей исключены из большинства поисковых систем, потому что пауки системы не могут получить доступ к ним.

Archie, the grandfather of all search engines – 1989

Первая поисковая Интернет система появилась в 1989 году и была изобретена Alan Emtage, студентом информатики из Барбадоса, учащегося университета McGill. Emtage дублировал его в изобретение Archie, сокращение от слова «архив», чтобы соответствовать сокращенным обозначениям операционной системы UNIX.

Archie был предназначен для обеспечения общественной программы передачи файлов сайтов, информационных интернет хранилищ, которые существовали раньше сети и домашних страниц. Archie, это был единственный способ, через который люди могли узнать существование сервера программы передачи файлов.

К 1992 году, Archie каталогизировал более чем 200 общественных сайтов программы передачи файлов. Это число, которое кажется почти смехотворным по сегодняшним стандартам, но десятилетие назад, об этом могли только мечтать. В 1995 году, 30 двигателей Archie ползали в Интернете и каталогизировали миллионы страниц.

В то время как программа передачи файлов продолжает быть обычным способом передачи файлов по Интернету, Archie больше не используется.

Veronica, the grandmother – or Archie’s girlfriend – 1993

Программа передачи файлов позволила интернет-пользователям определить местонахождение и получить доступ к файлам или правильнее сказать, папкам информации, расположенных на серверах программы передачи файлов. Gopher существовал, для обращения с документами обычного текста, и они сохранялись на так называемых Gopher — серверах. Gopher был создан в 1991 году Mark McCahill и его командой в университете штата Миннесота и был назван в честь университетского талисмана — Золотой Гофер.

Популярность Archie Emtage значительно выросла к 1993, побуждая тем самым Fred Barrie и Steven Foster из университета Невады, с использованием ЭВМ системы развивать Veronica, чтобы с ее помощью искать файлы Gopher. Группа дублировала Veronica — Very Easy Rodent-Oriented Netwide Index to Computerized Archives – как «бабушка всех поисковых систем».

Veronica перерыла базу данных более чем 5 500 Gopher — серверов и более чем 10 миллионов Gopher «статей» или документов, названия которых содержат ваше ключевое слово. Veronica была очень перегружена, часто выдавала ошибочные сведения при поиске ключевого слова, и обеспечивала результат только на второй или третьей попытке.

Archie’s pal, Jughead – 1993

Вскоре после появления Veronica, другой инструмент поиска Gopher по имени Jughead был создан Rhett «Jonzy» Jones в университете Юты. Несмотря на смешной внешний вид, Jones утверждал, что Jughead поддерживал Jonzy’s Universal Gopher Hierarch Excavation and Display. Jughead имел подобные функциональные возможности Veronica, но при этом в него были добавлены логические способности поиска. Однако Jughead ограничивался поиском индивидуальных серверов.

The first web robot – 1993

Первый сетевой робот был созданием института штата Массачусетс, студентом физики Matthew Gray в 1993 году. Странник всемирной паутины был разработан, для отслеживания роста тогда еще — младенческой сети.

Странник был первоначально мотивирован для того, чтобы обнаруживать новые сайты, поскольку сеть тогда еще была относительно маленьким пространством. Он был первичным инструментом для собрания данных, чтобы измерять рост сети. Это был первый автоматизированный агент сети или «паук». Странник начал свою работу весной 1993 года и выполнял регулярные пересечения сети с июня 1993 до января 1996 года.

В течение его трехлетнего пробега, Странник отслеживал рост вебсайтов от 130 в июне 1993 года, к больше чем 100 000 в январе 1996 года и приблизительно 230 000 только 6 месяцев спустя.

Выросли возможности Странника от прослеживания размера сети к завоеванию индивидуальных URL в Wandex.

The Web’s oldest existing search engine – 1993

Спустя десятилетие после этого был создан Aliweb в октябре 1993 года, самая старая поисковая система сети и все еще действующая, хотя уже не соответствует стандартам современных преемников.

Aliweb был создан Martijn Koster. Aliweb не имеет функциональных возможностей робота Странника и полагается на владельцев сети, отправляя по почте информацию относительно индексации сайтов, которой у них не хватает. Большинство людей не знает, как нужно предоставлять специальный требуемый файл для индексации; поэтому немного сайтов доступно через Aliweb по сравнению с поисковыми роботами.

The birth of Excite – 1993

Популярная общественная поисковая система Excite, начала жизнь как проект по имени Architext, созданный шестью Стэнфордскими новичками в феврале 1993 года. Их идея должна была использовать статистический анализ отношений слова, чтобы обеспечить более эффективные поиски через большое количество информации в Интернете. Их проект полностью был профинансирован к середине 1993 года. Как только финансирование было получено, они стали выпускать версию для своего программного обеспечения — webmasters, чтобы использовать его на собственных вебсайтах. Программное обеспечение сегодня называют, Excite для Web-серверов.

Galaxy – 1994

Запущенный в январе 1994 года, Galaxy.com был первым доступным для поиска интернет-справочником. Galaxy была создана как часть Einet в исследовательском консорциуме в университете Техаса. Инициатива состояла в том, чтобы развить инструменты для крупномасштабных директивных услуг, поддерживающих электронную торговлю.

Собственность Galaxy перешла к другому владельцу через ряд слияний компаний и приобретений. Сегодня Galaxy.com принадлежит Logika Corporation, Чикаго и имеет справочник более чем в 3.2 миллиона списков.

Yahoo – 1994

Поскольку распространение и использования Интернета и Сети возросло в геометрической прогрессии, то и общественная сила притяжения возросла. Люди – по большей части студенты — стали создавать страницы связей с другими веб-страницами, которые их интересовали, так, чтобы друзья и коллеги могли легко в них участвовать.

David Filo и Jerry Yang были двумя кандидатами в доктора наук в Стэнфордском университете, когда создали справочник для вебсайтов в трейлере университетского городка в феврале 1994 года.

Поскольку списки вебсайтов росли, они разбили их на категории, затем на подкатегории. David Filo и Jerry Yang настаивают, что назвали так в честь себя – несколько «yahoo», поскольку в переводе «yahoo» означает: «грубый, бесхитростный, неотесанный».

Слово Yahoo распространилось быстро, представляя почти 100 000 уникальных посетителей.

WebCrawler – 1994

К 1994 году Интернет был основным источником обсуждения в большинстве научных программ информатики. В университете Вашингтона студент Brian Pinkerton развивал маленькое однопользовательское применение, для нахождения информации в сети. При поддержке сокурсников, Pinkerton строил интерфейс сети к своей программе WebCrawler, которая была выпущена 20 апреля 1994 года, с базой данных, содержащей документы в 6 000 серверов.

WebCrawler был уникален тем, что это был первый робот сети способный индексировать каждое слово на веб-странице, в то время как другие хранили URL, название и самое большее 100 слов. Через несколько коротких месяцев, WebCrawler составлял в среднем 15 000 хитов в день. Служба AOL в конечном счете купила WebCrawler и управляла им на его системе.

InfoSeek — 1994/1995

Нет точных данных о том, когда InfoSeek стал истинно поисковой системой. Первоначально справочник Steven Kirsch’s InfoSeek был службой оплаты за пользование интернетом, созданным в январе 1994 года, и эти платы были снижены в августе 1994 года. Поисковик InfoSeek повторно окрестили в феврале 1995 года, и это была истинная поисковая система.

InfoSeek не был изначально оригинален как поисковая система. Это был легкий в использовании интерфейс, с присутствием некоторых уникальных возможностей, которые демонстрировал маркетинговый контакт Kirsch, типа прослеживания пакета UPS и подачи новостей. Но где InfoSeek действительно поражал своими большими возможностями, так это в стратегических делах в 1995 году, когда InfoSeek увидел страну как настоящая поисковая система, по умолчанию для web-браузера Netscape.

The Meta-search – 1995

Почему Вы осуществляете поиск только одной поисковой системой, в то время как Вы можете искать, по крайней мере, несколькими? Это был вопрос, которым занималось множество исследователей после PC Computing. Этот журнал рассмотрел множество систем и выяснил, что различные поисковые системы выдавали противоречивые результаты из-за различных алгоритмов, на которых каждый базировался.

Daniel Dreilinger в Колорадском государственном университете предоставил свои ответы SearchSavvy, которые позволяют пользователям искать до 20 различных поисковых систем в большом количестве справочников, типа Four-11 справочники с адресами электронной почты, FTPSearch95 для Интернет — файлов и DejaNews, база данных на основе сети регистраций телеконференции UseNet. SearchSavvy был ограничен простым поисковиком и в то время не был надежным.

В то же самое время появился Dreilinger’s SearchSavvy. Студент из Вашингтонского университета Eric Selberg и его консультант Oren Etzioni показали проект — MetaCrawler.

MetaCrawler изменял к лучшему точность SearchSavvy’s с дополнением собственного синтаксиса и поиска. MetaCrawler перерыл шесть поисковых систем, при этом, показывая лучшие результаты.

AltaVista – 1995

К концу 1995 года, увеличилось количество поисковых систем.

AltaVista появилась в декабре 1995 года и была поддержана самым мощным доступным вычислительным сервером – 64-битовым алфавитным сервером DEC. Это была самая быстрая поисковая система, которая могла обрабатывать миллионы хитов в день без любой деградации.

Произошло одно ключевое изменение — был включен поиск естественного языка. Пользователи могли напечатать фразу или вопрос и получить интеллектуальный ответ.

The Northern Light – 1995/96

Northern Light был ближе к миру поисковых систем, чем Apple к компьютерному миру. Вскоре после того, как произошел запуск Northern Light, у него в короткие сроки появились последователи, но Northern Light придерживался относительно маленького рынка сбыта по сравнению с подобными себе Lycos и AltaVista.

Northern Light был создан David Seuss в Кембридже, штате Массачусетс. Его методология поиска была более сложной, чем у других поисковых систем, результат организованного поиска, приводил к определенным папкам.

Seuss купил активы Northern Light на аукционе банкротства за 81 000 $ в 2003 году и вскоре после этого повторно запустил поисковую систему.

HotBot – 1996

Другая мощная поисковая система брала свое начало в еще одной университетской научно-исследовательской лаборатории. Eric Brewer доцент в университете Калифорнии в Беркли и Paul Gauthier, аспирант информатики, претендующий на степень доктора философии, доказали, что даже группа маленьких компьютеров может достигнуть того же, что и большой суперкомпьютер. В феврале 1996 года была основана Inktomi Corporation. Только три месяца спустя, они «развязали» поисковую систему HotBot и быстро ее лицензировали.

HotBot доказал, что может быть одной из самых мощных поисковых систем своего времени, способной к индексации 10 миллионов страниц в день. Это означало, что HotBot не только имел самый современный список доступных новых сайтов и страниц, но был способен к переиндексации всех предварительно внесенных в указатель страниц.

LookSmart – the Australian connection – 1996

LookSmart появился в США в июле 1996 года, при участии NetGet Ltd..

Delaware corporation сформировалась в Австралии в 1995 году под руководством Evan Thornley и Tracey Ellery, дабы приобрести бизнес и интеллектуальную собственность национальных справочников. В то время, Ассоциация Обзора Читателей была акционером, владеющим контрольным пакетом акций.

В течение следующих 12 месяцев, работа была сосредоточена на построении одной из самых обширных директивных услуг онлайна.

Со временем NetGet был переименован в LookSmart. Главный офис был перемещен из Мельбурна в Сан-Франциско и к концу 1997 года, справочник LookSmart достиг существенных результатов.

LookSmart стал одной из справочных служб, имеющий право на оказание директивных услуг другим поисковым системам и стал одним из ведущих справочников в Интернете.

Goto, what do I bid? – 1997

Предприниматель Bill Gross был один из первых истинных Интернет — инкубаторов, который финансировал развитие деловых моделей онлайн.

Одна из тех идей была GoTo, поисковая система и справочник, которая не была основана только для оплаты людей за списки. Также, можно было использовать аукционный формат, чтобы предлагать людям и компаниям, оплату, дабы иметь высокие ранжирования на GoTo. Это было началом рекламирования оплаты за клик. Компания согласились выплачивать GoTo плату за количество кликов на сайт. Чем больше пользователей посетили ваш сайт, тем выше ваша компания будет оценена, но при этом следует помнить, что для владельца само обслуживание сайта будет стоить дорого, так как существует необходимость в поддержании ранжирования.

Ask Jeeves, the butler did it – 1997

К середине 1990-ых годов, Интернет был все еще в значительной степени областью исследователей и компьютерных поклонников. Но на западе в Беркли, Калифорнии, Garrett Greuner и David Warthen задавались вопросом, как облегчить для всех остальных пользователей поиск нужной информации в Интернете и получать ответы на каждодневные волнующие вопросы, и в результате, «очеловечить» опыт поиска. В конце концов, не каждый обучался Булевскому поиску.

Поисковая Интернет система вращалась вокруг обработки данных естественного языка (NLP), которые позволяют пользователям задавать вопросы в поиске на родном языке. NLP позволяет понимать контекст вопроса и обеспечивать ответы на подобном языке.

The Open (source) Directory Project– 1998

Это должно было произойти. Интернет — пользователи стали придираться к коммерциализации технологии поисковой системы, особенно это видно в отношении оплаты за клик, платы за списки и интерфейсы поисковой системы.

Rich Skrenta и Bob Truel пользовались системой Yahoo до середины 1990-ых годов. Они предпочли ее иерархическую структуру большинству поисковых систем типа Excite, Lycos, и AltaVista.

К 1997 году Skrenta и Truel были расстроены тем, что в Yahoo появилось больше электронной коммерцией. Skrenta и Truel видели, что основные справочники пострадали из-за увеличения устарелых и «не найденных» списков.

Работая над Sun Microsystems, пара столкнулась с Универсальной общественной лицензией(Gnu) и решила запустить Gnuhoo как открытый исходный справочник, который будет свободно использоваться для внесения в список сайтов.

Gnuhoo был укомплектован редакторами добровольцами. С 200 редакторами, 27 000 сайтов и 2 000 категорий, они быстро попали во внимание главных пользователей и только спустя пять месяцев после запуска, Gnuhoo был куплен Netscape Communications.

Google – 1998

BackRub был уникальной поисковой системой, предназначенной, для анализа «обратной связи», которая указывала на данный вебсайт.

Larry Page и Sergey Brinу устанавливают вычислительный центр в комнате общежития и поскольку они нарушили уровень данных терабайта, переименовали BackRub в Google.

Page и Brinу не интересовались построением компании вокруг своей технологии и пробовали распродать ее как можно быстрее. David Filo основатель Yahoo, предложил им вернуться, когда все будет коммерциализировано.

Google все еще имел «бету» или испытательный ярлык версии на сайте до 21 сентября 1999 года.

На октябрь 2003 года, Google внес в указатель 3,307,998,701 веб-страницу, миллионы изображений, бесчисленные телеконференции. Его влияние стало настолько сильно, что «Google» или «Googling» стал синонимичным поиску сети.

MSN – 1998

Эта поисковая система была запущена в то время, когда Microsoft выпускала свою вторую версию браузера Internet Explorer, и Netscape был все еще доминирующим пользователем браузера.

MSN Search был частью MSN портала и был инструментом поиска для портальных клиентов. Когда в 1997 году было объявлено, что Microsoft начала развивать свою «собственную» поисковую систему, появились опасения, что проект под кодовым названием «Yukon» сокрушит пользователей как, Excite и Yahoo – но этого не случилось.

Однако, MSN Search – на сегодняшний день всемирная и наиболее используемая поисковая система.

Взаимосвязь может быть Microsoft, но действительность состоит в том, что результаты поиска будут произведены Inktomi.

It’s a hit! DirectHit — 1999

Поисковая система Direct Hit выиграла великий приз в 1998 году на MIT Entrepreneurship Competition. Direct Hit хвалилась за достижения в концепции крупного поиска на все более и более переполненном рынке поисковых систем.

«Popularity Engine» означает, что, чем больше людей посетило сайт и дольше там оставалось, тем выше ваше ранжирование.

Now that’s fast! — 1999

Исследователи в норвежском университете технологии воздействовали на поиск и технологию фильтра в реальном времени, относящуюся ко времени ранних дней Интернета.

Fast быстро влился в мировые технологии. Благодаря очень мощному поиску и поисковым технологиям эта поисковая система в скором времени была в компаниях, типа Dell, Ariba, Cigna, AT&T, IBM и многих других.

Также быстро была запущена AlltheWeb.com, общественная, поисковая система свободного доступа, которая была первым двигателем к веб-страницам с индексом 200 миллионов.

A winning search concept — 1999

Сайт iWon начал свою работу в октябре 1999 года. Он объединил поиск с ощущением игры на автомате в режиме онлайн. Система iWon позволяет входить в критерии поиска, далее серверы iWon отсылают запрос.

Отличие между iWon и другими сайтами — маркетинговое вращение.

Основатели Bill Daugherty и Jonas Steinman называют iWon первой торговой компанией. С начальной поддержкой в 100 миллионов долларов от CBS. iWon быстро стал одним из главных порталов Интернета.

К концу 2003 года, больше чем 250 000 человек требовали сверх 57 миллионов долларов в денежном призе.

Some Web expertise, Teoma — 2000

Команда ученых во главе с профессором Apostolos Gerasoulis в университете Rutgers намеревалась рассмотреть структуру Интернета для нахождения другой перспективы, непохожей на другие поисковые системы.

Результатом была Teoma, что означает «эксперт» на гаэльском языке. Teoma была запущена в апреле 2001 года, принося свежую идею в поисковую систему. Teoma анализирует и рассматривает сеть в условиях сообществ, являющихся группой веб-страниц, которые могут выступать тем же самым предметом или близко связанны с ним.

Теома была приобретена в сентябре 2001 года.

Goodbye GoTo, hello Overture — 2001

GoTo была переименованная в Overture, чтобы лучше сообщать позицию компаний, выступая, как главный поставщик поиска и рекламных услуг компаниям, занимающимся коммерцией онлайн. Overture была куплена Yahoo в 2003 году.

Microsoft redux — 2003

Microsoft потревожило спокойствие, существовавшее в мире поисковой системы, объявляя в конце 2003 года, что бросит вызов превосходству Google и другим системам.

Перед запуском новой поисковой системы, Microsoft развязывала MSNBot, чтобы внести вебсайты в указатель. Microsoft была лучшим клиентом LookSmart’s, имеющая в то время 65 процентов дохода.

Это только малая часть из развития поисковых систем, но несомненно это самые заметные события в этой сфере для США. Главное понять, что самая популярная в наше время система Google, является далеко не единственной, и возможно не самой лучшей поисковой системой…