Soloviov.ru / Веб для бизнеса

Сергей Соловьев о применении веб-технологий с пользой для бизнеса

Опубликовано: 24.05.2010, 23:19

Автоматическое тегирование контента — утопия?

Hard Rock Cafe

Еще пара слов о таксономии. Все уже знают, что в социальных сетях генерируется масса контента, который надо организовывать. Некий гений придумал его тегировать, создав, тем самым, саморегулирующая систему. Это превосходно.

Но сегодня активные пользователи социальных сервисов уже начинают уставать от этого. Когда я выкладываю очередную порцию фотографий в свой блог на Flickr.com, я каждую аккуратно тегирую, чтобы другие пользователи сервиса могли их удобно находить. Но для альбома в 30 фото (к примеру) это занимает добрые полчаса.

Read More

Опубликовано: 16.10.2009, 20:10

По дороге с облаками (и тегами)

По дороге с облаками

Подход UGC (контент, генерируемый пользователями) несомненно подарил Интернету новую жизнь. На высокопосещаемых ресурсах пользователи - это большая движущая сила, которая сворачивает горы и бесплатно создает массу информации разной степени полезности. Все приемы, обеспечивающие легкость создания и публикации контента пользователями, быстро были взяты на вооружение бизнесом, и теперь активно внедряются в разнообразные веб-продукты.

При этом на базе фундаментальной идеи многопользовательской системы с распределенными правами возникло великое многообразие решений и видов контента:

  • Статьи в корпоративных блогах
  • Фотоотчеты с мероприятий (выставки, форумы, презентации)
  • Файлы в системах совместной работы
  • Проекты и Задачи в корпоративных порталах

Все это - востребованная информация. И она генерируется с очень большой скоростью. А вместе с ростом объема информации ее становится сложнее искать. Решение этой проблемы тоже уже есть в виде инструмента - как правило, это теги.

Небольшой ликбез

Теги представляют собой текстовые ярлыки (буквальный перевод), присваиваемые единицам контента в системе. На основе базы тегов можно сформировать навигацию, которая позволяет фильтровать контент.

Теги не имеют внутренней структуры - это просто набор меток, не имеющий взаимного подчинения и иерархии. Каждый тег может встречаться в системе много раз, и каждая единица контента может помечаться несколькими тегами. Видимо, поэтому наиболее популярным способом представления тегов на сайтах стало облако: алфавитный список меток, размер шрифта которых отражает частоту использования. Чем крупнее тег, тем больше на сайте единиц контента, которые им помечены.

Таким образом, облако тегов дает неплохое представление о тематике ресурса с первого взгляда.

Любопытно то, что имея такой превосходный инструмент, его очень часто используют не очень умело. Разумеется, он изначально был создан для неконтролируемой среды пользователей. Предполагается, что за счет огромной массы пользователей, которые в среднем мыслят схожим образом, навигация на базе тегов будет адекватно отражать реальный состав контента.

Но уж если задумываться о том, как использовать UGC в бизнесе, то совершенно естественно будет поискать возможность дополнительных выгод. В вышеперечисленных примерах аудитория сервисов поддается некоторому контролю. Корпоративный блог ведет не кто попало, а маркетологи с определенными целями. Проекты и задачи сами по себе формируют некоторую структуру со своими правилами. И файлы тоже, как правило, создаются по поводу, а не по настроению, а поводов таких внутри компании - ограниченное количество.

Ну, а раз так, то полезно вместо стихийных паттернов создать обдуманные. И если облако тегов начнет выполнять функцию навигации на порядок эффективнее, это значительно облегчит жизнь тем, кому потребуется что-либо найти в море корпоративной информации.

Принципы тегирования

Идея заключается в том, чтобы выработать некоторые несложные правила, по которым будут присваиваться теги. Самое простое - определить набор признаков, по которым может классифицироваться контент. Цель - обеспечить попадание каждой единицы контента в каждую классификацию, чтобы исключить выпадание из навигации. Представить это абстрактно нелегко, поэтому поясню на примерах.

В зависимости от типа контента набор признаков может варьироваться:

  • Текстовый контент (например, статьи в блоге) характеризуется:
    • Темой (на soloviov.ru к ним относятся Контент, Навигация, Эффективность, Интерфейсы и т.п.)
    • Упоминаемыми именами персон и названиями компаний
    • Упоминаемыми распространенными терминами (на soloviov.ru к ним относятся RSS, SaaS, PM и т.п.)
    • Автором (в общем-то не тег, но почему бы не включить в облако?)
  • Для каждого изображения (фотографии с мероприятий) можно указать:
    • Тип, тематика или название мероприятия (подумайте, что чаще будут искать)
    • Место проведения
    • Степень формальности (“официальное” / “без галстука”)
    • Имена персон, изображенных на фото
    • Вид (ландшафт/портрет/помещение)
  • В коллекции ссылок (закладки, публикуемые публично, как экспертные библиотеки) каждая имеет признаки:
    • Язык материала
    • Географическая привязка (страна или город, если предложение сайта применимо к определенному региону)
    • Тематика (вполне может быть несколько)
    • Коммерческое или бесплатное предложение (при классификации услуг
    • Public / Private (при классификации компаний)
  • Файлы можно классифицировать по:
    • Типу документа (КП, ТЗ, Бриф, Макет, Отчет)
    • Подразделению (Маркетинг, Производство, Финансы, Управление)
    • Году/кварталу/месяцу (полезно для регулярных документов, например, отчетов)
    • Статусу (черновик/утвержден, внутренний/внешний)

Список, разумеется, неполный. Развивайте идею, изучая собственные потребности.

Наличие подобной системы позволяет на 100% использовать преимущества аккумулятивной фильтрации, при которой при поиске выбирается сразу несколько тегов.

Примеры:

  • Показать все статьи об эффективности, где упоминается Сергей Соловьев
  • Нужны все фотографии с форума Internet World 2008 года со стендом компании LinkedIn
  • Выбрать все ссылки, помеченные “русский”, “софт”, “бесплатный”, “управление проектами”

Если расстановка тегов была осмысленной, можно быть уверенным, что в выборку действительно попадет весь контент, который относится к запросу. Это особенно важно, когда контент не дублируется в системе. Например, при поиске квартальных отчетов: каждый из них обычно - в одном экземпляре.

Изюминка

Хорошая идея, приносящая пользу - это прекрасно. Но любую идею можно испоганить технической реализацией. Поэтому, чтобы действительно решить проблему, и не создать новые, при проектировании модуля тегирования в системе обратите внимание на следующие инструменты:

  • Переименование тегов (система должна эволюционировать)
  • Слияние тегов (для ликвидации похожих тегов)
  • Автоподсказки при назначении тегов (подсказки из числа существущих тегов во время набора)
  • Генерация RSS по тегу и комбинации тегов (дает потрясающие возможности интеграции)
  • Исключающая фильтрация (позволяет выбрать контент с тегами “форум”, “2009”, но исключить контент с тегом “без галстука”)
  • Создание групп тегов (да, это уже создает иерархию, но часто бывает очень удобно)