Разговоры мужчин / О поиске, картах и мобильных телефонах (Сегалович, Ашманов, Черкашин)

Сегалович, Ашманов и Черкашин о поиске, картах и мобильных телефонах

Илья Сегалович, «Яндекс»

Поисковые системы научились делать многое, чего не умели ещё 10 лет назад. Самые яркие стартапы просуществовали много лет и доказали свою жизнеспособность, как, например, «Увертюра» (Overture), с новым форматом рекламы (аукцион по ключевым словам, самообслуживание, простой текстовый формат), вдохновившим и Google AdWords и Яндекс. Директ. Но был, скажем, краудсорс проект Open Directory, посвящённый тому, что люди сами описывают web. Это был 1998-1999 год, и казалось, что это очень свежо и никогда не умрет, а сейчас мы видим, что он еще живет, но тихонечко затухает. По большому счету такой способ поиска исчерпал себя — он не бесполезен, но у него ограниченный предел возможностей. По-моему, похожая картина сейчас происходит с обычным поиском. Когда люди начинают его использовать, осваивают, у них появляются радость, волнение и счастье. Но потом это становится привычным, рутинным, они начинают уставать, больше обращают внимание на детали и воспринимают поиск совершенно по-другому. В этом смысле налицо некий кризис поисковых систем. Как он будет преодолен? Новыми проектами? Не знаю. Все-таки поисковые системы — это успешный бизнес, и они аккумулировали в себе огромные силы, денежные средства и очень хорошие команды, построили бренды, создали привлекательный имидж. В таких условиях революцию трудно сделать. Возможно, что смена парадигмы поиска случится внутри самих компаний.

Существует масса команд, занимающихся семантическим поиском в США, в Израиле. Одну из лучших — Clear Text — купил Reuters, другую — PowerSet — приобрел Microsoft. Но тут есть важное терминологическое уточнение. Семантический поиск — это когда человек набирает в запросе слово, а система возвращает ему документ, в котором этого слова нет. Если остановиться на этом предельно точном определении, то поисковые системы перешли к такому поиску на наших глазах, это случилось в последние 3-4 года. В 2003 году в help Google было написано, что они не занимаются морфологическими расширениями запроса, потому что в Сети достаточно информации, и они нацелены на максимально точный поиск. Потом они вынуждены были осознать проблему в той же России и наверняка в других странах, и в течение 2-3 лет, начав с морфологии, перешли к массе других расширений. Сейчас все поисковые системы кроме морфологии занимаются синонимами, аббревиатурами, сокращениями, транслитерациями и переводом. Эта часть семантики освоена поисковиками очень хорошо — вы почти всегда получаете документ, где не содержится сам запрос.

Когда мы строим наши словари расширений поисковых запросов, мы опираемся на какое-то небольшое знание, которое доступно поисковой системе на данный момент времени. Но можно подойти системно и построить максимально полную базу таких объектов и попытаться её применить везде. Применять этот граф можно не только к расширениям запросов, но и к пониманию текстов или чего угодно ещё. И такие попытки есть. Например, сайт freebase.com, который аккумулировал разные базы данных, начиная от фильмов и актёров, заканчивая товарами. Но одно дело иметь такую базу, а другое — научиться использовать её на сто процентов.

А вот WolframAlfa это уже даже не только и не столько про объекты, сколько про задачу помочь пользователю до и после поиска. Фаза перед поиском это то, что называют suggest, она давно реализована в поисковиках. Если процитировать Бродера, то раньше у нас средний запрос был 2,5 слова, а теперь 2,5 буквы. Это, конечно, шутка, но вся эта система подсказок реализована пока в первом приближении: её можно сильнее персонализировать, создавать в ней внутреннюю структуру. А WolframAlfa работает над после-поисковой фазой, когда пользователь делает запрос и получает результат, а система на уровне презентации выдачи пытается угадать, что же на самом деле хотели спросить. Человеку при поиске обычно нужно получить несколько фактов или даже какой-то один яркий факт, и он не будет писать длинные запросы. Показать этот ответ как раз задача этой самой пост-поисковой фазы. Тут как раз очень естественно применим semantic web.

Другая идея — это так называемый персональный поиск. Обычно поисковая система пытается найти документы, а, например, Aardvark ищет человека, который в свою очередь ответит на ваш вопрос. Вопрос задается с использованием любого протокола, начиная от ICQ, заканчивая sms, а нужный человек ищется по всем возможным в интернете социальным связям. Идея очень красивая — применить математику к выбору человека, но, судя по тому, что люди туда не особо «пришли», она всё-таки не будет жить. Возможно, Facebook сейчас удастся повторить эту идею на своей огромной базе пользователей. Социальный поиск я бы не отделял от персонального. Это просто попытка более детально учесть контекст запроса. Например, на cuil.com появилась возможность войти как пользователь Facebook, и тогда он заглянет вам в профиль, посмотрит, что вы читаете, чем интересуетесь, кто у вас в друзьях, и попытается персонализировать ваш поиск. Это важно, потому что множество запросов неоднозначны без личного контекста. Другое применение социального поиска, когда вы ищете то, что уже видели: сайт, который уже посещали, новость, которую видели у себя в ленте на прошлой неделе, но не помните ни адреса, ни названия. Но это опять не всем подходит, а только тем, кто использует Facebook или ВКонтакте не просто как чат, а имеет там осмысленные контакты, отражающие интерес.

Когда человек давно и часто пользуется поисковой системой, то начинает хотеть от нее чего-то большего, в частности более свежего. Мы недавно спорили с американцами, рассказывая, что у нас в потоке только 3-5% новостных запросов. У них якобы эта доля составляет 15-20%. Возможно, что и у нас люди станут больше интересоваться свежим и новым. У нас новость часто так идёт: появляется в западном отраслевом издании типа TechCrunch, на следующий день попадает в WallStreet Journal, далее в «Ведомости», и только на четвёртый день попадает в отечественное отраслевое издание. Этот срок будет сокращаться и будет всё больше появляться сайтов типа «Хабрахабра», потому что это хороший пример сайта с новостным интентом в чистом виде, где именно новое создает среду для аккреции. Но основная задача real-time поиска не просто находить поток постов или твитов, а находить главное — ту точку, которая породила новость, первоисточник, находить самый интересный комментарий. Ранжирование в потоке нового это очень интересная задача и мало кто её решает хорошо.

Недавно в Твиттере у кого-то вычитал одну философскую мысль, что Foursquare это поиск, но без запроса. Когда я делаю cheсk-in, я на самом деле произвожу неявный поиск окружения. И в этом направлении есть масса поисковых задач, связанных с тем, как помочь в этом поиске. Другое направление для поиска — инфраструктурные решения для таких сервисов. Поисковой системе, которая претендует на звание универсальной, необходимо обеспечивать, в том числе и локальный поиск. А для такого поиска с учётом местности очень важно иметь как можно больше «сигналов»: аннотации с Foursquare, количество cheсk-in, показывающих насколько место реально и востребовано.

В мобильном поиске, напрямую связанном с локальным, важная технологическая задача — дать максимально прямой ответ в сжатом виде. Например, стартап Siri, который в этом году купила Apple, концентрируется именно на этом. Второй важный момент — это геолокация. Представьте, как по городу Москве прямо сейчас ходят мужчины, которые ищут нотариуса, чтобы отпустить ребенка заграницу. Такие неожиданные не серийные задачи возникают постоянно: вызвать такси, найти ближайший шиномонтаж, ключ сделать, сфотографироваться для визы. И третья вещь, которая на самом деле должна быть первой, заключается в превращении человека в эрудита. У нас у всех очень ограниченные знания, мы ничего не знаем на самом деле, но как только у нас в кармане появляется смартфон с интернетом, мы даём мгновенные справки по любому вопросу. Каждый день число людей, пользующихся этим неиссякаемым карманным источником знаний, растёт. В мобильных устройствах у поисковых систем есть заметный отрыв от конкурентов, состоящий в том, что в интернете всё уже есть, а роботы умеют всё это собирать и поддерживать актуальность. Это базовый блок, без которого очень сложно делать универсальные решения. Отдельные специализированные приложения будут, но я не могу представить, что человечество снабдит себя, скажем, тридцатью приложениями под каждый конкретный вид поиска.

Бизнес модель Google — это искусственный интеллект. Это очень точно сказал Джобс, и я с ним полностью согласен. Всё, где может быть применим искусственный интеллект, Google собирает, скупает и атакует. Сейчас ему приносит деньги контекстная реклама. Мы атакуем ту же самую нишу со своей командой и своими подходами, и пытаемся завоевать какие-то куски этого рынка.

Свой рынок у нас уже захвачен, мы пытаемся получить соседние, на какие-то ещё рынки смотрим. У «Яндекса» перспективы роста больше, чем у западных систем, так как в России и на других развивающихся рынках еще будут расти рекламные деньги, проникновение интернета, интенсивность его использования. Мы хотим, чтобы все страны бывшего СССР были наши. В Казахстане, Беларуси и Украине большинство ищет на русском языке, но создание поиска на национальном языке — это важная часть присутствия. Мы хотим быть локальными и учитывать все локальные особенности.

Игорь Ашманов, «Ашманов и Партнеры»

Вряд ли кто-то 10 лет назад мог представить ландшафт не только поисковый, но и вообще в любой области, в политике, науке, обществе. Будущее вообще трудно себе представить. 10 лет назад мобильные телефоны были только у богатых людей. 10 лет назад Гугла в нашем Интернете фактически не было, безусловным лидером был Рамблер, а в мире правили поисковики Альтависта, Хотбот, Инктоми и другие, Гугл же только делал заявку на лидерство. Будущее стало именно таким настоящим, как обычно, в результате совместного действия множества крупных и мелких факторов и влияния массы мелких деталей.

Поисковик — вообще вопрос эксплуатации, а не технологии. Кто выдержал эксплуатацию в течение 10 лет в условиях чудовищного роста и нагрузок — тот и победитель. Скажем, я убеждён, что Гугл победил в мировом Интернете не из-за одной конкретной технологии ссылочного ранжирования, и вообще не из-за технологии поиска. А потому, что энергично вкладывался в поиск тогда, когда остальные из взрыва пузыря доткомов увольняли людей, продавали мебель и компьютеры, и потому, что он единственный справился с экспоненциальным ростом Интернета, построив свои знаменитые серверные фермы. Превосходящее качество поиска тоже было не лишним, но не определяющим.

Семантический поиск — довольно скомпрометированное слово. Современные поисковики довольно далеко ушли от простого перетряхивания обратного индекса. Они разбирают многочисленные прагматики в запросе, то есть вычисляют истинные потребности пользователя, анализируют запросы вертикально, то есть историю сессий пользователя, и горизонтально, то есть статистику запросов всех пользователей. Они сейчас начинают анализировать поверхностный синтаксис текстов, которые они индексируют, чтобы понять связи слов в предложении и т. п. То есть в техническом смысле этого слова, в «слабом» смысле, семантический поиск уже с нами.

Что касается этого слова в «сильном» смысле, как понимания компьютером смысла, то я в это не верю. Я уже 25 лет занимаюсь искусственным интеллектом, слова «семантика», «смысл», «понимание» слышал тысячи раз, слушал сотни докладов про «модель мира», «извлечение смысла»... Ничего этого ни у кого нет, и я думаю, не будет. Хотя вот фирма IBM примерно раз в год-два объявляет, что искусственный интеллект наконец-то создан в её лабораториях, каждый раз забывая уточнить, а что же стало с тем, предыдущим ИИ, созданным в её лабораториях в позапрошлом году.

Вопросо-ответные машины типа WolframAlfa будут развиваться до определённого упора (вызванного отсутствием там «настоящей семантики»), и в конце концов поисковики их купят или вытеснят такими же своими. У нас пример такой «семантики» представляет Нигма, которая выполняет довольно много сложных трюков с семантической обработкой запросов.

Социальный поиск существует уже лет 5-6 и пока не взлетел. Скажем, Гугл то открывает, то закрывает сервисы вопросов-ответов, Яндекс тоже. Вопросы-ответы Mail. ru, довольно успешные, как массовый проект, превратились во что угодно социальное, но не поисковое. У меня у самого есть проект социального поиска, и он тоже как-то пока ни шатко ни валко. Как-то человечество пока не осознало, в чём тут соль, хотя создатели Аадварка, конечно, своего успеха добились, продав стартап Гуглу. В общем, не знаю. Возможно, опять-таки социальный поиск станет одной из фасет, сегментов большого поиска, как поиск по картинкам или видео. Вот поиск по блогам — мог бы стать истинно социальным, если бы он знал, что ищет по социальной сети, по людям, а не по текстам, пока же он выполнен в парадигме обычного поиска и «не вставляет».

Поиск по социальным сетям и поиск реального времени в конце концов станут просто частью джентльменского набора большого поисковика. Шума там будет столько, сколько можно на нём будет заработать денег. Как с любым спамом и другим электронным мусором, который появляется только там, где есть денежный спрос. Поиск внутри конкретной социальной сети или Твиттера не станет большим поиском ровно потому, что он не будет искать по остальному Интернету. Если у вас нет поиска по кинофильмам, статьям, словарям, товарам, адресам, расписаниям, магазинам, корпоративным сайтам — вы не массовый поисковик. Надо понимать, что информационный спрос и социальные сети — совершенно разные вещи, пересекающиеся очень небольшими секторами.

Большой поиск — это по-прежнему идея единой точки входа. Службы единого поискового окна. Это значит, что в Яндекс идут «искать». Что угодно. Значит, возникновение любых дополнительных мест, где тоже «ищут», Яндексу — невыгодно. Это размытие его образа абсолютного поисковика, где «найдётся всё». Значит, он будет включать географические виды поиска к себе, в общий поиск или хотя бы в общий портал. Что он и делает, собственно. Значит, удачные стартапы в области узких видов поиска, например, локального, будут скупаться или копироваться большими поисковиками.

Убийца Гугла? А может ли появиться убийца Кока-колы? Каков он, напиток будущего? Гугл, Яндекс за 13 −14 лет накопили огромный запас хода. Порог вхождения на рынок больших поисковиков очень высок. Даже чисто технологический порог. Интернет огромен, спама много, у Гугла-Яндекса нарос толстый слой нетривиальных технологий, огромные команды разработки и тестировщиков качества. Вероятность появления новых игроков постоянно снижается по мере постоянного повышения порога входа. Сейчас к тому же появление нового игрока ограничивается необходимостью бороться с мощным брендом Гугла или Яндекса, то есть огромными вложениями в маркетинг. При этом нельзя сказать, что есть острое недовольство пользователей качеством поиска и неспособностью поисковиков справиться с размером сети, как было в 1996-1998 годах. В принципе всех всё устраивает.

Появление нового игрока в формате выпрыгивания из ниоткуда, как чёртика из коробки, и быстрого набирания популярности, как было с Гуглом в 1997-2000, наверно, уже маловероятно. А вот запуск больших «космических» проектов с огромными вложениями, например, выход Байду на мировую арену или создание европейского поисковика — ну почему бы и нет.

Павел Черкашин, Microsoft

Потребности людей в поиске информации огромны и на текущий момент покрыты в лучшем случае процентов на 10%. Огромные массивы информации не доступны для электронного поиска, существующие системы поиска тупы и ограничены в понимании того, что же хочет от них человек. Так что можно предположить, что и в ближайшие годы этот рынок будет полем битвы для большого числа игроков и технологий и сформируется окончательно ещё нескоро.

Рынок поиска — это постоянный поток инноваций. Можно было бы назвать сотни проектов, которые предлагали новые интересные концепции. Многие из них были приобретены существующими игроками и интегрированы, ещё больше разваливаются. Поиск работает по принципу больших чисел — даже с революционной технологией на этом рынке нечего делать, если ты не можешь обеспечить достаточное покрытие с точки зрения индексации информации и удовлетворения запросов пользователей.

Люди не хотят разбираться в тонкостях научных алгоритмов поиска — им просто нужно найти требуемую информацию, даже если она представлена в форме примитивного справочника. Причём чем проще — тем лучше. «Непоисковые сервисы» — это фактически старые добрые справочники, существующие столетиями до появления контекстного поиска. Как ни странно, в эту сторону двигаются и поисковые системы. Bing, в частности, делает большую ставку на так называемые «вертикали», т. е. специализированные поисковые приложения или справочники, подключённые к основному контекстному поиску. Если человек ищет игроков своего любимого футбольного клуба, то поисковая система, поняв суть запроса, предлагает ему удобный справочник с фотографиями, статистикой, биографиями, расписанием матчей и т. д. В этом случае и источники информации и структура выдачи сильно отличается от «горизонтальных», т. е. размазанных по разным областям знаний, запросов. С точки зрения потребителя это происходит незаметно, но создаёт значительно более высокую лояльность к поисковой системе, т. к. увеличивает релевантность. С точки зрения монетизации это также открывает дополнительные возможности, т. к. позволяет продавать более целевые контекстные запросы.

Социальный поиск необходим. Это очевидно всем. Люди создают информацию, которая актуальна в режиме реального времени и её в таком же режиме надо искать. Это область экспериментов, точного ответа о том, как должен работать такой поиск, чтобы обеспечить требуемую релевантность и одновременно не похоронить важную информацию под горой мусора, пока нет ни у кого. Тем более, что для социальных сетей данная информация — ключевой актив. Отдавать его «просто так» поисковым системам на индексацию они не готовы и требуют за это большие деньги. Когда выработается бизнес-модель вокруг этой информации — тогда будет понятно кто сколько кому должен платить. Но и отдельно такой поиск существовать скорее всего не сможет, т. к. он предлагает только строго определенный срез результатов (упрощенно — мнения друзей).

Я себе представляют это таким образом: каждый человек на земле в любой момент времени своей жизни подключен к своей социальной сети. Она нужна ему постоянно — это и его справочник, и средство общения, и дневник, и черт-его-знает-что-еще. Из разных источников информация о событиях, мыслях, ощущениях, мечтах человека попадает в его профиль. Он сам решает — с кем, когда и в какой мере делиться этой информацией. Кто-то живет абсолютно закрыто, другой активно эксгибиционирует. Лет через 20-30 хранение информации и каналы связи будут настолько дешевыми, что каждый человек сможет записывать и хранить хоть каждое биение своего сердца. Сам факт того, что такая информация будет доступной, еще не означает, что она «забьет» интернет и будет мешать искать другую информацию, создавая лишний шум. Для этого разрабатывается и будет разрабатываться все новые и новые средства систематизации, поиска и структуризации.

Человек из 19 века, наверное, не хотел бы жить в веке, где каждый придурок может сообщить миру точное время, когда он последний раз пукнул и какие впечатления он при этом чувствовал. Я сказал «пукнул»? Куда катится этот мир… Нас пугают объемы информации, с которыми придется оперировать через десятилетие, но шум всегда был и будет саморегулирующимся фактором и беспокоиться по его поводу точно не стоит.

Мобильный телефон до сих пор ограничен в одной важной задаче — ввод текста. Что бы не творили с клавиатурами, кнопками и другими наворотами — это все равно останется существенным ограничением. Я набираю текст данного интервью 10 пальцами за несколько минут. На телефоне эта задача превратилась бы в несколько напряженных часов работы.

Поиск на мобильных телефонах начнет активно развиваться тогда, когда будет решена хотя бы одна из двух задач:
— Голосовой ввод. Чтобы можно было сказать: «хочу кушать» и получить список ресторанов поблизости, а не тексты мантр кришнаитов.
— Визуальный ввод. Чтобы можно было направить камеру своего телефона на что-то и использовать изображение для поиска (здание, вывеска, человек, товар, предмет).

И те и другие возможности сейчас заявлены десятком компаний, но не работаю они пока ни у кого. Но прорыв явно не за горами.

Поисковики являются основным источником инноваций в области картографии. Десятилетиями эта отрасль была прерогативой узкого круга профессионалов — сейчас это часть жизни каждого пользователя компьютера или мобильного телефона. Практически любая информация на нашей Земле имеет пространственную привязку и рано или поздно будет нанесена на карту. И сделают это, почти наверняка, поисковые системы и их партнеры.

Текущая бизнес-модель поисковых сервисов — это, наверное, самый выгодный из легальных бизнесов на земле. Он будет эффективен ровно столько, сколько люди будут искать информацию, а рекламодатели — рекламировать свой товар. Наверняка, появятся и новые бизнес-модели, но мне они, к сожалению, не известны.

Я не понимаю термин «убийца Google». В бизнесе умирают самостоятельно, если не выдерживают конкурентной борьбы. Убить кого-то, если он сам того не хочет, очень сложно. Свою рыночную нишу, пусть и падающую, сохраняют даже компании, которые давно должны были умереть тихой и почетной смертью. Мы все новости читаем, многие из них до сих пор на слуху.

Для Microsoft поисковый сервис Bing — это стратегический ход. То, как люди потребляют компьютерные программы, сильно изменилось в последние 10 лет, а за следующие 10 лет изменится до неузнаваемости. Люди все меньше и меньше покупают программы в коробке для установки на своем компьютере. Они пользуются онлайн-сервисами (платными или бесплатными), хранят свои файлы не только на собственном жестком диске, а в «облаке», они могут поменять поставщика программных сервисов за несколько минут. Люди работают со все большими массивами данных, производят и потребляют больше информации и поиск — это первый и самый главный сервис, который необходим любому пользователю информации. Без него все остальные услуги становятся вторичными, зависимыми, легко повторяемыми.

Более того, бизнес модель целевой контекстной рекламы, связанной с поиском — это, как я уже сказал, самая эффективная на текущий момент изобретенная бизнес-модель. Она дает возможность сделать многие сервисы бесплатными, наращивать объемы доступной информации, получить стратегическое преимущество на компьютерах, мобильных телефонах, телевизорах каждого пользователя. Microsoft просто не имеет права не включиться в эту гонку, чтобы не потерять позиции лидера.

Bing — инновационный сервис. Он ориентирован на пользователей с определенной культурой потребления информации, с ожиданиями и потребностями, которые можно реализовать, используя преимущества сервиса. К сожалению, российский рынок в этом плане очень отсталый. Мы привыкли хвалиться своими инновационными достижениями, однако по числу компьютеров на душу населения мы плетемся в хвосте, интернет-сервисы стагнируют и не развиваются из-за того, что крупнейшие игроки плюют на права интеллектуальной собственности. Bing будет развиваться в России. В этом нет никаких сомнений. Компания Microsoft обладает огромным опытом работы на рынках по всему миру, в России ее позиции очень сильны. Когда? Зависит в первую очередь от того, когда российский рынок до этого созреет.

Новые сервисы Bing появляются каждую неделю. Microsoft достаточно поздно вступил в гонку за лидерство в сфере поиска и победить сможет только задав такой ритм инновационного развития, который не сможет поддерживать ни один из конкурентов. За недели, что пройдут с момента написания этих строк до момента, когда читатель увидит их, измениться может очень много, поэтому описывать конкретные сервисы просто не имеет смысла. Это область экспериментов — какие-то сервисы появляются, другие закрываются, перерождаются. И так до бесконечности.