Метаданные что это
Метаданные что это
Метаданные
Метаданные, в общем случае, это:
Содержание
Иерархии метаданных
Структурированные в виде иерархии метаданные более правильно называть онтологией или схемой метаданных (например, XML-схема).
Различие между данными и метаданными
Обычно невозможно провести однозначное разделение на данные и метаданные в документе, поскольку:
Эти рассуждения применимы независимо от выбора определения метаданных (из приведённых выше и не только).
Использование
Метаданные используются для повышения качества поиска. Поисковые запросы, использующие метаданные, могут спасти пользователя от лишней ручной работы по фильтрации. Информируя компьютер о том, какие элементы данных связаны и как эти связи учитывать, становится возможным осуществлять достаточно сложные операции по фильтрации и поиску. Например, если поисковая система «знает» о том, что «Ван Гог» является «голландским художником», то она может выдать в ответ на запрос о голландских художниках веб-страницу о Ван Гоге, даже если слова «голландский художник» не встречаются на этой странице. Такой подход, называемый представлением знаний, находится в сфере интересов Семантической паутины и искусственного интеллекта.
В частности, метаданные создаются для оптимизации алгоритмов сжатия с потерей качества. Например, если к видео прилагаются метаданные, позволяющие компьютеру разделить изображение на основную часть и фоновую, то последняя может быть сжата сильнее, что позволит достичь большего коэффициента сжатия.
Некоторые виды метаданных предназначены для обеспечения возможности различных видов представления некоторых данных. Например, если к изображению прилагаются метаданные, содержащие информацию о том, какая часть изображения наиболее важная (допустим, изображение человека), то программа для просмотра изображений на маленьком экране (таком, как на мобильном телефоне), может отобразить только эту наиболее важную часть изображения. Аналогично используются метаданные, позволяющие сделать доступными для слепых диаграммы и изображения, путём их преобразования для вывода на специальные устройства, либо чтения их описания с использованием программного обеспечения, преобразующего текст в речь.
Другие описательные метаданные могут использоваться автоматизированными рабочими потоками. Например, если некоторая «умная» программа «знает» содержимое и структуру данных, то данные могут быть автоматически преобразованы и переданы другой «умной» программе как входные данные. В результате, пользователи будут спасены от необходимости выполнения множества рутинных операций, если данные предоставлены для работы такими «немногословным» программам.
Метаданные становятся важны в World Wide Web по причине необходимости обеспечения поиска полезной информации среди огромного количества доступной. Метаданные, созданные вручную, имеют большую ценность, поскольку это гарантирует осмысленность. Если веб-страница на какую-то определённую тему содержит слово или фразу, то все другие веб-страницы на эту тему могут содержать такое же слово или фразу. Метаданные также обладают разнообразием, поэтому если с какой-то темой связаны два значения, то каждое из них может быть использовано. Например, статья про Живой Журнал может быть обозначена с помощью нескольких значений: «Живой Журнал», «ЖЖ», «LiveJournal».
Метаданные используются для хранения информации о записях audio CD. Аналогично MP3 файлы хранят метаданные в формате ID3.
Редактировать метаданные графических файлов можно в специальных программах для работы с метаданными.
Классификация метаданных
Метаданные можно классифицировать по:
Формат метаданных
Метаданными на практике обычно называют данные, представленные в соответствии с одним из форматов метаданных.
Формат метаданных — представляет собой стандарт, предназначенный для формального описания некоторой категории ресурсов (объектов, сущностей и т. п.). Такой стандарт обычно включает в себя набор полей (атрибутов, свойств, элементов метаданных), позволяющих характеризовать рассматриваемый объект. Например, формат MARC позволяет описывать книги (и не только книги), содержит поля для описания названия, автора, тематики и огромного множества других характеристик (формат MARC позволяет описать сотни характеристик).
Форматы можно классифицировать, во-первых, по охвату и подробности типов описываемых ресурсов. Во-вторых, по ширине и подробности области описания ресурсов и мощности структуры элементов метаданных. Кроме этого, можно классифицировать по предметным областям, или целям разработки и использования формата метаданных.
Форматы метаданных часто разрабатываются международными организациями или консорциумами, включающими в себя заинтересованные в появлении стандарта государственные организации и частные компании. Разработанный формат часто закрепляется как стандарт в одной или нескольких организациях, занимающихся разработкой и принятием стандартов (например W3C, ISO, ANSI и т. п.)
Классификация форматов метаданных по описываемой предметной области:
Что такое метаданные. Объясняем простыми словами
Метаданные — это средство классификации, упорядочивания и характеристики данных.
Проще говоря, метаданные — это данные о данных (об их составе, содержании, статусе, происхождении, местонахождении, качестве, форматах, объёме, условиях доступа, авторских правах и т. п.).
Ежедневно мы отправляем электронные сообщения или файлы. У каждого такого послания есть не только содержание, но и дата и время отправки, указание отправителя и получателя, тип вложения, его объём и прочие характеристики. Это и есть метаданные.
Пример употребления на «Секрете»
«ProPublica обвинила корпорацию в сборе метаданных пользователей WhatsАpp — картинок, номеров телефонов, часовых поясов и даже IP-адресов. Куда они потом передавались? Журналисты ProPublica утверждают, что прямиком к американским силовикам».
(Из материала об уязвимостях проектов Facebook.)
Нюансы
Изначально этот термин означал средство каталогизации архивной информации: карточки библиотечного каталога включают систематизированные данные о каждой книге, в том числе название книги, его автора, жанр, аннотацию и т. д. Идея метаданных с тех пор не изменилась, хоть поле деятельности перешло в цифровой мир. По сути, вы генерируете метаданные прямо сейчас.
У любого файла, телефонного разговора, публикации в Facebook, видеофильма или перевода денег через банковское приложение есть метаданные. Мы часто не замечаем их, поскольку наше внимание закономерно сфокусировано на содержании. Но метаданные неотделимы от самих данных — трудно представить себе документ, у которого нет даты создания или редактирования.
Наличие возможности фильтровать метаданные значительно облегчает поиск определённого документа, файла или контента, ведь они содержат больше ценной информации, чем может показаться на первый взгляд. По метаданным можно выследить человека или получить на него компромат, полностью изменив его жизнь.
Доступ к вашим метаданным, которые передаются через интернет, есть у самых разных людей и организаций. Это могут быть как маркетологи, так и хакеры с госорганами. Например, заголовки писем могут быть доступны не только отправителю и адресату, но и почтовым провайдерам и даже спецслужбам. Владелец сайта, на который вы заходите, может узнать не только ваш IP-адрес, но и версии браузера и операционной системы. Это объясняется тем, что зачастую метаданные общедоступны и никак не защищены.
Правительства разных стран требуют от телекоммуникационных компаний хранить метаданные определённое количество времени для нужд правоохранительных органов и спецслужб. В России за эту процедуру отвечает «пакет Яровой», который предписывает сотовым операторам и интернет-компаниям хранить до шести месяцев весь пользовательский трафик — переписку в мессенджерах, социальных сетях и электронной почте, аудиозаписи звонков. При этом метаданные — то есть информацию о том, кому и когда звонил или пересылал файлы пользователь, — нужно хранить ещё дольше, а именно в течение трёх лет. Правоохранительные органы могут получить эту информацию по запросу.
Виды метаданных
Национальная организация по информационным стандартам (NISO) предлагает классифицировать метаданные таким образом:
Примеры
Метаданные используются при организации разных видов цифровой информации. Вот несколько примеров:
Существуют и признанные стандарты метаданных для определённых форматов данных. Например, таковым можно назвать общеевропейский исследовательский информационный формат (CERIF). Этот стандарт ЕС рекомендует своим государствам-членам для регистрации информации об исследовательской деятельности.
Как метаданные меняют жизнь людей
В апреле 2017 года московского математика Дмитрия Богатова обвинили в том, что он якобы призывал в Сети к массовым беспорядкам и терроризму на акции протеста. По версии следствия, Богатов под псевдонимом Айрат Баширов публиковал на интернет-форуме провокационные материалы о подготовке к вооружённому восстанию. Правоохранительные органы утверждали, что вычислили математика по IP-адресу. Сам Богатов объяснял, что не имеет к Айрату Баширову никакого отношения, поскольку в его квартире функционировал выходной узел сети Tor, с помощью которой с его IP-адреса публиковать сообщения мог фактически кто угодно. Поэтому трафик злоумышленника, предположительно, прошёл через компьютер математика.
Таким образом, метаданные (IP-адрес) послужили поводом для уголовного преследования. После того как Богатов провёл несколько месяцев в СИЗО, уголовное дело против него прекратили. Затем математик вместе с женой покинул Россию. Впоследствии по этому делу задержали Владислава Кулешова из Ставрополя, который признал вину и получил полтора года ограничения свободы.
Невидимая угроза: что нужно знать о метаданных
Мы регулярно делимся фотографиями в соцсетях, создаем плейлисты, оформляем покупки онлайн или отвечаем на email. Однако не все знают, что с каждым новым сообщением или постом, с каждым заказом в интернет-магазине мы оставляем всё больше цифровых следов. Этому способствуют метаданные.
Метаданные — это невидимая информация, или «данные о данных», важная составляющая любого документа, музыкального файла, видеозаписи или фотографии. Они присваиваются автоматически и включают в себя описание самого файла, заголовки и подзаголовки, автора и редактора, дату и время создания, версию и технические характеристики программы, в которой был создан файл, местоположение и т.п.
Метаданные помогают установить лицензионные ограничения на распространение информации, указывая на автора контента.
Провайдеры интернет-услуг и правительственные организации могут использовать метаданные с веб-страниц, электронных писем, телефонных звонков для мониторинга активности в интернете (вспоминаем закон Яровой).
Встроенные в веб-сайты метаданные включают описание ресурса, ключевые слова, метатеги и т.д. Они позволяют систематизировать информацию для поиска, а также идентифицировать контент.
Сайты интернет-магазинов активно используют метаданные для отслеживания привычек, потребностей, изменений вкусов пользователей. Сохраняя такую информацию, как тип устройства, геолокацию и т.д., маркетологи могут формировать актуальные для вас предложения (ну, или пугать излишней осведомлённостью, здесь как посмотреть).
Однако не всегда метаданные используются в благих целях. Эксперты Digital Security изучили вопрос и рассказали о потенциальной опасности от метаданных, попавших в руки к злоумышленникам.
Примечательно, что многие помнят о важности скрытия IP-адреса, знают способы его замены, но при этом даже не слышали о метаданных, которые могут предоставить больше личной информации, чем тот же IP-адрес.
Пользователи отправляют по Сети миллиарды файлов: документов, фото и видео. Только через один WhatsApp — около миллиарда фотографий ежедневно.
Специалисты Digital Security проанализировали популярные мессенджеры, почтовые сервисы, фотостоки и облачные хранилища, чтобы выяснить, как эти сервисы ведут себя с метаданными. Передают ли они файлы с существующими метаданными и личной информацией пользователей или изменяют и удаляют их?
Нам понадобились фотографии, видео и текстовые документы форматов DOCX, JPG, MP4, выборка из 16 популярных сервисов и ресурс Jeffrey’s Image Metadata Viewer. Вы можете ознакомиться с исследованием подробнее. Далее же приводим краткие выводы.
Вот что удалось выяснить:
При отправке любых файлов, будь то фото, видео или текстовый документ по Gmail, Mail или Яндекс.Почте метаданные остаются в целости и сохранности и содержат всю информацию о файле;
При загрузке файлов в облачные хранилища Яндекс.Диск, Google Drive и Mega.nz метаданные также остаются на месте;
В случае пересылки фото через функцию “Камера” (или из “Галереи”) данные убираются полностью, но при этом снижается качество отправляемого материала;
При передаче видеофайла таким же образом Viber оставляет данные нетронутыми; WhatsApp убирает геометку, а Telegram частично удаляет данные;
Метаданные обычно игнорируются как угроза цифровой безопасности, поскольку мы фокусируемся на содержании файла. Но иногда они могут оказаться полезнее, чем сам файл, и послужить источником информации о потенциальной жертве на первом этапе работы социального инженера. (Подробнее о социальной инженерии можете прочитать здесь).
По метаданным фотографий, опубликованных вами в соцсетях, можно вычислить основные маршруты передвижения по городу: место проживания и работы, любимые кафе и магазины. Если вы передаёте фотографии через мессенджеры вложенным файлом, то с ними передаётся и “дополнительная информация” — технические характеристики и модель устройства, на которое было сделано фото, дата съёмки и геолокация. Таким образом, имея ряд изображений одного и того же автора, можно судить о наличии определённых гаджетов, о распорядке дня, маршрутах передвижений и других деталях частной жизни.
Полученную информацию злоумышленник может использовать для подготовки сценария действий и необходимых средств атаки социальной инженерии (фишинговые ресурсы, вредоносные вложения и др.), а также для завоевания доверия пользователя.
Метаданные могут использоваться и при атаках на организации. Например, злоумышленник может подготовить эксплойт, узнав версию ПО. Более того, как мы уже выяснили (стр.8 исследования), в метаданных документов MS Office можно увидеть автора файла, обычно это ФИО или текущий логин операционной системы. Соответственно, неосторожно опубликованные документы компании могут послужить источником для словарей логинов. Мошенники охотно используют их в процессе перебора учетных данных на доступных ресурсах компании.
С точки зрения злоумышленника метаданные полезнее, чем сам файл. Особенно велика вероятность их использования при атаках социальной инженерии. Аналитики Digital Security советуют избавляться от метаданных, это можно сделать через раздел «Свойства». Для этого необходимо кликнуть на вкладку «Подробно» и отредактировать или удалить метаданные, нажав на ссылку «Удаление свойств и личной информации» и выбрав нужные пункты.
В мессенджерах и по почте пользователи отправляют несчетное количество документов и фотографий, и лишь немногие помнят о том, что отправляемые файлы содержат автоматически присвоенные данные о них: дату и время создания, имя автора, версию и технические характеристики программы или устройства и, конечно, отметку местоположения, которая заслуживает отдельного внимания.
Эти цифровые следы способны сыграть злую шутку. Поэтому если вы не хотите делиться личной информацией с третьими лицами — удаляйте метаданные. А чтобы скрыть свое местоположение, стоит отключить геолокацию в настройках камеры.
Наличие у каждого файла метаданных – это лишь еще одно напоминание о том, что сами пользователи могут становиться виновниками утечки своей же личной информации или чувствительной информации своей компании.
Следите за информацией, которой делитесь в Сети и сделайте свое цифровое пространство более безопасным!
Содержание, метаданные и контекст открытых данных
Результат публикации данных в свободном и бесплатном доступе напрямую зависит от их состава и качества. Чем более полными и корректными окажутся публичные данные, тем выше будет эффективность их использования и тем больше пользователей предпочтет поработать с ними.
В отношении любых передаваемых данных, особенно публичных, необходимо всегда оценивать три их ключевых аспекта: состав (содержание), описание (метаданные) и окружение (контекст).
Настоящая публикация продолжает тему открытых, разделяемых и делегируемых данных и относится ко всем этим трем указанным категориям.
Организация данных
Первый важный аспект публичных данных связан с их содержимым и с их внутренней организацией.
Смысл
Всякие хорошие данные обладают некоторым полезным смыслом. Бессмысленная информацию в любом виде непригодна для последующей обработки и анализа в любом виде деятельности с помощью любых инструментов.
Цифровые данные, о которых идет речь в данной публикации, являясь первичными или даже вторичными, в той или иной мере отображают результат определенного сбора информации. Осуществляемый сбор информации позволяет записывать некоторые качественные и количественные значения свойств объектов, процессов, явлений, событий и т.п. Структурно-организованные регистрируемые сведения сохраняются как цифровые данные на соответствующих носителях. Очевидно, что таким образом полученные данные прямо (первичные) или косвенно (вторичные) определяют некий предметный смысл.
Учитывая тот факт, что на данные прямое и неотделимое влияние оказывает человеческий фактор, всегда можно говорить о том, что они описывают не объективную реальность, а некоторое понимание человеком той объективной реальности, о которой он целевым образом собирает сведения. Иными словами, данные всегда содержат некую долю субъективности в своем содержимом или в структуре и описывают воспринимаемую модель из заданной предметной области.
Именно тот факт, что данные в той или иной степени описывают некоторый смысл целевой модели, возможен последующий их анализ и выявление важных атрибутов такой модели.
Смысл, который содержат данные определяет необходимость и важность их публикации. Например, особый социальный и экономический смысл имеют государственные статистические данные – отсюда, очевидная задача их издания как в виде цифровых датасетов, так и в виде специальных переработанных сборников. Если данные не несут какой-то важный смысл для пользователей или вообще представляют собой бессмысленную регистрацию потока явлений и событий, то они не будут востребованы. Это утверждение наводит на определенную мысль о том, что публиковать стоит цифровые наборы с хорошо формализованным смыслом.
На то, какой смысл имеют данные влияет их уровень передела.
Наиболее ценными с этой точки зрения и обладающие неискаженным смыслом являются собранные первичные данные. Чем больше обработок было произведено с данными, тем больше смысл искажается и видоизменяется. Отсюда необходимость явно указывать количество и качество переделов данных.
Смысл содержащийся в данных накладывает свой отпечаток на их структуру.
Структура
В данных всегда можно выделить некие неделимые минимальные целостные единицы.
Причем такие неделимые целостные единицы всегда обладают смыслом большим, чем прямым. Например, символ (в простейшем виде) не несет никакое дополнительное значение, кроме того, что он представляет собой некую букву алфавита, цифру или специальное обозначение в тексте. С другой стороны, слово, кроме того, что представляет некий набор тех же символов, имеет смысловое понятийное значение и определяет некий объект (существительное), атрибут (прилагательное), действие (глагол) и т.д. Поэтому деление слова на символы – деление минимальной целостной единицы – приводит к потере его понятийного значения.
Выбор минимальной целостной и неделимой единицы является субъективным понятием в рамках заданной тематики и целей пользователя.
Например, для каких-то целей, может быть установлено, что неделимой единицей признается не отдельное слово, а целое предложение. В то же время даже некоторые форматы могут задавать особенности построения минимальных единиц данных. Например, в рамках электронных таблиц достаточно просто и удобно принимать за минимальную единицу данных содержимое отдельной ячейки. Однако во многом, выбор целостной единицы данных обусловлен совокупностью критериев предметной области данных и способом их записи.
После того, как задано понятие минимальной неделимой единицы данных, возникает и понятие структуры всей совокупности целевых данных. Так для электронной таблицы, единицы данных формируют наборы данных в виде строк или столбцов, а в последующем группируются в таблицы (листы) и наборы таблиц (книги).
Удобно выделять два уровня группировки целостных единиц данных:
Структуру данных необходимо иметь для возможности производить какую-либо осмысленную их обработку.
Операции с данными производятся непосредственно с неделимыми целостными единицами или с их группами. Причем даже есть возможность обрабатывать неделимые целостные единицы тем или иным образом создавая из них новые. Например, это позволяет делать функционал электронных таблицы: обрабатывать содержимое отдельной ячейки и разделять её на некие составные элементы, но при этом основной акцент в подобном приложении всё-таки сделан на обработке ячеек как на простейших обрабатываемых элементарных единицах.
Второй ключевой особенностью выделения в цифровых данных отдельных целостных единиц и последующей их группировки – это возможность идентификации.
Назначение уникального абсолютного или относительного имени как для неделимой части данных, так и для упорядоченного набора данных значительно расширяет функционал обработки. Адресация, реферирование, рекурсия, классификация и множество дополнительных простых или сложнейших операций применимы к именованным или идентифицированным элементам данных с последующим возвратам к первоисточнику (история ссылок).
Ещё одна полезная и важная особенность структуры данных, как производная от идентификации заключается в связывании отдельных элементов данных по тем или иным критериям или задачам. Связывание фактически приводит к появлению такого функционала как вторичное структурирование, нелинейное упорядочивание, гиперссылки, альтернативные пути обхода и т.п. Если сопроводить связь некоторыми дополнительными атрибутами, то можно выделить даже особый класс объектов-описателей и выстроить сложные зависимые структуры доселе невообразимых форм и сочетаний. Именно за счет связывания появляется некая динамика в данных.
Структурирование данных привносит значительный вклад в возможности их не только цифровой обработки, но и смысловой аналитики.
Моделирование правильных и эффективных структур цифровых данных достаточно сложная и ответственная компетенция которая может давать хороший результат только при совмещении знаний информационных технологий и предметной области. Удачно заданная структура позволяет удобно и результативно работать с данными как человеку, так и машине. Иными словами, правильный выбор структуры позволяет быстро распознавать упорядоченные данные непосредственно человеком или созданными алгоритмами.
Структура данных, как уже упоминалось, может зависеть от формата записи и хранения данных, но это ещё не сам формат. А значит она может трансформироваться. И значит в рамках одного и того же формата могут задаваться разные структуры. В подавляющих случаях на практике, для значительного упрощения и для большей эффективности, структура тесно взаимосвязана с форматом.
Формат
В контексте данной публикации «формат» – это способ сохранения данных в физической обособленной единице (файл, запись, таблица, поток) на заданном носителе.
Формат определяет возможности прочитать и принять данные в обработку как человеком, так и алгоритмом. Если структура задает содержательную организацию данных, то формат представляет собой техническую сторону их записи и хранения.
С учетом того, что цифровые данные неотъемлемы от машинных носителей, формат реализуется на трех машино-зависимых слоях, выбором соответствующего способа форматирования на каждом из слоев:
Кодировка символов – это достаточно понятная и урегулирования часть, которая в целом пришла к относительной теоретической и практической стабильности. Тем не менее даже в этом вопросе практика применения оставляет желать лучшего. Что уж говорить о нотации и схеме данных, особенно в применении к публичным данным. Множество факторов и противоречивых интересов, замешанных на свободных стандартах и платных мощных инструментах.
Ключевой фактор выбора нотации данных, как одного из уровней форматирования, состоит непосредственно в структуре данных.
Например, если структурирование данных сведено к таблице, то очевидно, что удобно будет её отформатировать, скорее, как CSV, чем как HTML. С другой стороны, задача может быть поставлена так, что выбор будет сделан в пользу XML. Кажется, совсем уж экзотическим, но вполне возможно нотировать таблицу данных и как последовательность команд INSERT (SQL) для каждой из строк.
Для публичных данных наиболее предпочтительным являются простые, свободные и распространенные форматы. Приоритетной, например, для открытых государственных данных выглядит связка: [Unicode + CSV|XML + custom_scheme]. Причем custom-схема данных часто описывается в «паспорте открытых данных».
Конечно же можно и нужно развивать форматы передаваемых и публикуемых данных. Но в большей степени новинки из этой области будут восприняты на частном уровне или при защищенном трансфере данных. Для публичных данных пока останутся более понятными и актуальными те форматы, которые получили массовое распространение и для работы, с которыми существует множество как платных, так и бесплатных инструментов, которыми привыкли пользоваться аналитики.
Вопрос повторного использования данных может быть неверно отнесен к особенностям их форматирования, но это скорее вопрос правильного их структурирования. Именно на уровне структуры цифровых данных появляется возможность связывания и организации ссылок. Формат лишь только определяет фактические правила записи и разрешения ссылок. В том числе формат может задавать или поддерживать «межформатные» правила ссылок, чтобы у пользователя появилась возможность сослаться в одном наборе или элементе данных на другой.
Описание данных
Второй аспект публичных данных – это их эффективное описание, которое в конечном итоге превращается в метаданные. Если для внутренних или защищаемых при передаче данных этот аспект может быть на какое-то время упущен из виду, то для данных, которые размещаются в сети открыто и бесплатно – это очень важно для их последующего эффективного использования.
Для целостной передачи публичных данных, самый лучший способ – это сохранять метаданные «внутри» самих данных. То есть таким образом записывать оригинальные цифровые данные, чтобы они параллельно сопровождались некоторыми атрибутами, а структура записи позволяла алгоритмам извлекать заложенные в неё метаданные.
Что достаточно хорошо можно делать, например, в рамках XML-нотации: где разметка уже определяет тип элемента (узел, атрибут, документ), а применение атрибутов и имен пространств открывает возможности для внедрения метаданных. Однако чтение данных совмещенных с их описанием, как минимум, требует овладения более сложными компетенциями и инструментами. Гораздо понятней и очевидней для большинства пользователей получать чистые данные с наименованием и заголовками. Но это в свою очередь вызывает свои проблемы в чтении и понимании данных. До выработки единых и понятных стандартов в этом направлении пока далеко.
Метаданные должны включать:
Как минимум, пользователю надо обозначить состав и назначение данных, а также дать указание на машинный формат их записи и хранения. Кроме того, хорошо, если метаданные включают оценку качества данных.
Для понимания того, что следует включать в метаданные, можно рассмотреть операции, в которых они фактически применяется или требуются к применению. Вот наиболее важные семь из них с точки зрения двух непосредственно взаимодействующих ролей в рамках public-схемы трансфера данных:
1. Идентификация данных
Качество публичных данных начинается с качества их метаданных.
Окружение данных
Особую роль в отдельных ситуациях начинает играть третий аспект публичных данных – окружение.
Это наиболее сложный из трех рассматриваемых (другие два – содержание и метаданные) – но он наиболее ценный для стратегического и тематического развития аналитики и поиска знаний, особенно с подключением смежной проблематики.
В пространстве публичных данных – контекстом для заданного набора будут являются все иные данные с которыми их смогут корректно связать аналитики по тем или иным основаниям.
Правильно указать контекст можно только если для основных данных правильно задана предметная область и их назначение.
Контекстные связываются с основными данные несколькими способами:
Постоянное разукрупнение анализируемого массива данных путем поиска и подключения к нему дополнительного окружения не может считаться нормой, если является самоцелью. Поэтому рациональным подходом можно назвать обстоятельную работу по тщательному планированию исследования данных в рамках которого обозначают и придерживаются ограниченного набора. Вопрос «а какие данные ещё нужны?» должен задаваться на ключевых этапах анализа в случаях, когда действительно требуется расширить смысловой фронт исследований.
Контекст редко принимается во внимание при публикации данных или при их использовании, либо воспринимается как некое само собой разумеющееся действие по увеличение массива данных. Однако именно неограниченная возможность расширения основы контекстом и многочисленные варианты комбинирования данных позволяют получить преимущество публичного использования данных перед закрытым. В этой связи приоритетным является развитие хранилищ общедоступных и общезначимых цифровых данных, которые составляют контекст для любых данных в заданной предметной области. Например, при работе с экономическими данными может оказаться крайне полезным иметь в свободном доступе общеприменимые справочники, классификаторы, каталоги (например ОКВЭД, КЛАДР, БИК, ЕГРЮЛ и т.п.)
В этих же целях крайне полезны создаваемые и развиваемые тематические «порталы» и «хабы» открытых данных.
Метаданные: цифровые следы, которые мы (почти) не замечаем
Метаданные. Данные о содержании. Иногда мы не уделяем им должного внимания. Но метаданные могут иметь большое значение и даже изменить жизнь человека.
Каждый день мы отправляем электронные письма, некоторые с файлами-вложениями. У всякого письма есть не только содержание, но и дата, и время отправки, заголовок, адрес отправителя, адрес получателя, тип вложения, его объем и прочие характеристики.
Это метаданные – информация, которая сопутствует содержанию. У любого файла, телефонного разговора, публикации в Facebook, книги, водительских прав, медицинской карты или видеофильма есть метаданные. Мы часто не замечаем их. Наше внимание сфокусировано на содержании. Но метаданные содержат больше ценной информации, чем мы привыкли думать. Иногда по метаданным можно выследить человека, получить на него компромат, полностью изменить его жизнь.
Как метаданные меняют жизнь людей
С конца 70-х в штате Канзас орудовал жестокий убийца. Полицейские прозвали его BTK (bind, torture, kill – «связывать, пытать, убивать»). Жертвами маньяка становились одинокие женщины и семьи. Жажда славы подталкивала BTK отправлять сообщения в полицию, газеты, радиостанции. Убийца рассказывал о деталях своих жутких преступлений, прилагал доказательства-фотографии, писал безумные стихи. В 2005 году BTK подбросил коробку со своими сочинениями на автостоянку, и тут его машину зафиксировала дорожная камера. Увы, расстояние было слишком велико. Черный внедорожник Jeep Grand Cherokee – вот и все, что удалось установить следователям. Вскоре психопат сделал попытку перейти с бумажных сочинений в электронный формат. Он отправил в полицию файл.
Следователи принялись изучать диск с файлом. Помимо послания маньяка, они обнаружили удаленный файл Microsoft Word и восстановили его. Содержание файла ничего не дало. Но в информации о документе значилась местная лютеранская церковь, а последняя редакция принадлежала некоему Деннису. Следователи быстро вышли на Денниса Рейдера, председателя церковного совета. Когда полиция подъехала к его дому, то увидела припаркованный черный Grand Cherokee. Анализ ДНК сделал возможным арест преступника. Сейчас Деннис Линн Рейдер, он же BTK, отбывает 10 пожизненных сроков в тюрьме строгого режима Эль Дорадо в Канзасе.
Так метаданные помогли найти убийцу.
Летом 2014 года 24-летний российский сержант Андрей Соткин опубликовал серию простеньких селфи с места службы. Издание Buzzfeed опубликовало мини-расследование: Соткин отправил свои фотографии в Instagram, но позабыл о метках геолокации. Buzzfeed сообщила, что координаты, где были сделаны фото, находились на территории Украины. (Официальная Москва отрицала нахождение российских военнослужащих в Украине.) Одни блогеры подхватили эту информацию как доказательство военного присутствия. Другие утверждали, что погрешность велика, фотографии сняты в России, и вообще вся история – фейк. Так метаданные легли в основу эпизода информационной войны.
В апреле 2017 года московского математика Дмитрия Богатова обвинили в призывах к терроризму и попытках организации массовых беспорядков. По версии следствия, Богатов под псевдонимом «Айрат Баширов» публиковал на форуме sysadmins.ru провокационные материалы о подготовке к вооруженному восстанию. Правоохранительные органы «вычислили» Богатова по IP-адресу. Впоследствии оказалось, что молодой математик держал на своем компьютере так называемый выходной узел сети Tor, международного проекта, нацеленного на обеспечение анонимности гражданских активистов и защиту их от преследований. Трафик злоумышленника прошел через компьютер Богатова. Это дало следователям повод прийти к математику с обыском. Богатов на несколько месяцев попал в СИЗО, полгода провел под домашним арестом. В мае 2018 года уголовное дело против него прекратили. Вскоре после этого Богатов и его жена подобру-поздорову уехали за границу. За то, что произошло, никто не понес никакого наказания. Таким образом, метаданные (IP-адрес) послужили поводом для того, чтобы государственная машина проехалась катком по невиновному человеку.
Даже если у правительства или корпораций нет доступа к содержанию переписки или разговоров, метаданные способны сказать очень многое. Так считают эксперты американской организации Electronic Frontier Foundation. Представьте, что человек: а) получил электронное письмо от службы диагностики кожных заболеваний; б) позвонил дерматологу; в) провел час на сайте с медицинскими советами; г) присоединился к закрытой группе, объединяющей людей, больных псориазом. Кажется, мы уже знаем главное, и это информация самого деликатного характера. А ведь мы не читали письмо, не слышали советов доктора, не заглядывали в закрытую группу.
Данные фотографии (EXIF). Можно узнать, в частности, модель камеры, параметры объектива, выдержку, диафрагму, фокусное расстояние, размеры снимка и его разрешение, дату, время и точные координаты съемки. Скриншот с сайта www.pic2map.com
Какие бывают метаданные
В 2011 году молодой немецкий политик Мальте Шпитц (Malte Spitz) добился от телекоммуникационного гиганта «Deutsche Telecom» передачи ему всех данных… о самом себе. Информации, которую провайдер собирал не для правоохранительных органов, а просто как часть своей рутинной работы. Метаданные показали, где находился г-н Шпитц в разное время дня на протяжении полугода, сколько раз звонил и отправлял сообщения. Интерактивная карта позволит вам немножко ощутить себя «Большим Братом». История Мальте Шпитца, помимо прочего, показывает, что технически можно собирать сразу несколько типов метаданных.
Исследователи и эксперты часто делят метаданные на три категории.
Метаданные хранятся в самых разных местах. Например, в музыкальных файлах популярного формата MP3 метаданные (здесь их называют ID3-теги) в специальных «фреймах» внутри самого файла. Когда вы открываете MP3-файл в своем плеере, то можете видеть имя исполнителя, название композиции, а то и жанр. Эту информацию плеер узнал из метаданных. У электронного письма метаданные находятся в заголовке. Обычно отправитель и получатель видят лишь часть метаданных в своих почтовых программах. Хотите взглянуть на заголовок? Если вы, скажем, пользователь GMail, откройте какое-нибудь из писем, нажмите на кнопку с тремя точками в правом верхнем углу (рядом со стрелочкой «Ответить») и выберите в меню «Показать оригинал».
Доступ к вашим метаданным могут иметь самые разные люди и организации. Например, заголовки писем доступны не только отправителю и адресату, но и почтовым провайдерам, а в рамках СОРМ – и спецслужбам. Владелец сайта, на который вы заходите, может узнать не только ваш IP-адрес, но и версии вашего браузера и операционной системы. Очень часто метаданные доступны широкой публике и никак не защищены – по своей природе или по человеческой небрежности.
Метаданные можно централизованно обрабатывать. Бывает, что типы метаданных «смешиваются». Одна и та же информация может в этих условиях считаться метаданными, в других – собственно данными (контентом). Возьмите, к примеру, тот же заголовок электронного письма: он может оказаться весьма содержательным. Для решения профессиональных задач эксперты в разных областях нередко разрабатывают свои, более узкие категории метаданных. Вы можете найти уйму информации о метаданных в Интернете. Вот, например, целый сайт, посвященный метаданным в фотографии.
Едва ли не в каждом детективном сериале встречается сцена, когда полицейский говорит охранникам (отеля, аэропорта, больницы или торгового центра):
– Покажите мне камеру в восточном конце коридора на третьем этаже. Вчерашнюю запись в промежуток с 8:40 до 8:50, пожалуйста.
Детективу не нужно просматривать все имеющиеся записи со всех камер. Он использует метаданные (местоположение камеры и время происшествия), чтобы ускорить поиск.
Государство и метаданные
Как правило, объем метаданных гораздо меньше объема самих данных. Поиск по метаданным существенно проще, чем поиск по содержанию (просмотр всех видеозаписей в надежде рано или поздно увидеть злодея с пистолетом и в темных очках).
С другой стороны, люди часто воспринимают метаданные как «вторичный элемент». Особенно это касается приверженцев идеи «Мне нечего скрывать». Защитой метаданных попросту пренебрегают.
Правительства разных стран учитывают эти факторы, когда требуют от телекоммуникационных компаний хранить метаданные определенное (нередко весьма долгое!) время для нужд правоохранительных органов и спецслужб. Эта проблема является частью обширной темы хранения данных о пользователях (data retention).
Так, швейцарское законодательство предписывает операторам связи хранить метаданные в течение полугода. Для сотовой связи это номера абонентов, идентифицирующие номера SIM-карт и телефонов, местонахождение звонящего, дата, время и продолжительность разговора. Европейские правозащитники ведут мониторинг ситуации с хранением метаданных в разных странах мира. Нажим со стороны правительств и правоохранительных органов, ратующих за хранение метаданных, не ослабевает. Правозащитники не остаются в долгу, иногда выигрывая по-крупному, как это, например, удалось ирландской организации «DIgital Rights Ireland», в 2014 году добившейся (через обращение в верховный суд своей страны) отмены Европейской директивы о хранении данных 2006 года. Активисты утверждали, что безосновательный сбор данных о людях, ни в чем не подозреваемых, нарушает их гражданские права.
В России в 2016 году был принят, а с 1 июля 2018 года вступил в силу печально известный «пакет Яровой». Он предписывает компаниям хранить данные пользователей в пределах полугода. Конкретные сроки устанавливает правительство. Оно и установило: шесть месяцев для звонков и сообщений, 30 дней для интернет-трафика с постепенным наращиванием объема хранения. А вот метаданные хранить нужно целых три года. Аргументы правозащитников, представителей IT-индустрии, юристов-международников и экономистов о том, что подобная практика чрезмерна, посягает на права граждан и вызывает необоснованную и непропорциональную нагрузку на операторов связи, не оказали должного влияния на власти.
Классический пример использования метаданных для идентификации пользователей – привязка различных сервисов и аккаунтов к номеру мобильного телефона. Который, в свою очередь, на территории России можно законно получить лишь при предъявлении паспорта. Даже если вы придумали для нового аккаунта «ВКонтакте» классный псевдоним и не поддались искушению разместить свое лицо на аватарке, останутся метаданные – номер мобильного телефона.
«Метаданные – это данные слежки. Собирать метаданные о людях означает следить за ними». Брюс Шнайер, американский специалист по цифровой безопасности (из личного блога).
Что с этим делать
Очень часто метаданные бывают полезны, например, для поиска информации. Многие метаданные неотделимы от самих данных (трудно представить документ, у которого нет даты создания или редактирования). Но можно попробовать не упрощать жизнь тому, кто решил составить досье на вас. Вот лишь несколько советов.
Автор благодарит Олега Ткачева, директора Центра поддержки НКО г. Кирова, за ценные замечания при подготовке статьи.
Что такое метаданные и как они используются?
Если у вас есть веб-сайт или вы работаете в таких областях, как написание или управление онлайн-контентом, вы, вероятно, слышали о метаданных. Это то, от чего вы не можете избавиться (и не следует делать это, если вы хотите занимать место в поисковых системах).
Вопрос, который вы, возможно, задаете: «что такое метаданные — и что более важно, как они используются?» Давайте посмотрим, что такое метаданные и какие преимущества они предлагают.
Что такое метаданные?
Проще говоря, метаданные — это «данные, описывающие другие данные». Мы знаем, что это ничего не проясняет.
Просто подумай об этом так. Метаданные предлагают более подробную информацию и информацию о других формах данных. Например, если вы проводите кампанию в социальных сетях, то каждый пост — это данные. Метаданные предоставляют информацию о публикации, например, когда и где она была опубликована, а также о том, сколько людей просматривали ее или взаимодействовали с ней.
Другими словами, он говорит вам, кто, что, когда, где, почему, что и как. Метаданные бывают разных форм (в зависимости от данных). Например, он может содержать такие сведения, как заголовок, описание, ключевые слова, ссылки, создатель, участник и т. Д.
Не все данные используют одинаковые типы метаданных. Вот посмотрите на некоторые из различных форм:
Распространенные примеры метаданных
Вот краткое изложение различных типов метаданных, которые вы найдете вокруг себя.
Фотографии — мы делаем их все время, и вы найдете все виды данных на жестком диске. Это включает в себя информацию, такую как:
Сообщения в блоге
Если у вас есть блог, вы сможете контролировать некоторые метаданные, которые появляются в ваших сообщениях. Например, вы найдете мета-описание в результатах поиска.
Метаданные показывают информацию, такую как:
Вы несете ответственность за создание большей части метаданных в электронных письмах, таких как тема, получатели и отправитель. Затем собираются другие данные, такие как:
Это пригодится, если вы когда-нибудь будете искать файл на своем компьютере. Вы можете ввести имя файла в поиск на рабочем столе.
Вот взгляд на различные метаданные, собранные из компьютерных файлов:
Веб-страницы имеют метаданные, аналогичные компьютерным файлам и другим цифровым ресурсам. Например, он содержит информацию о:
Как используются метаданные?
Надеюсь, у вас есть лучшее представление о том, что такое метаданные и где их найти. Теперь пришло время посмотреть, как используются эти данные.
Рейтинг веб-страниц выше
Google и другие поисковые системы используют данные и метаданные с ваших веб-страниц для определения своего рейтинга. Чем лучше оптимизированы ваши данные, тем легче будет их ранжировать (при условии, что конкуренция за ключевые слова, на которые вы ориентируетесь, невелика).
Например, вам нужно оптимизировать мета-заголовок и мета-описание, которое отображается в результатах поиска. Это помогает поисковым системам понять, о чем ваша страница и как она будет полезна для людей, ищущих.
Отслеживание потребителей через Интернет
Вы когда-нибудь замечали, как реклама следит за вами везде, где вы ходите в Интернете? Он показывает элементы, которые вы могли искать на веб-сайте ранее в тот же день или даже несколько дней назад.
Это прекрасный пример того, как бренды и компании используют метаданные для отслеживания потребителей. Электронная коммерция широко использует этот метод, потому что он помогает им изучать своих клиентов и разрабатывать профили покупателей по данным.
Ваш смартфон — еще один инструмент, используемый для отслеживания вашего местоположения и устройства. Если ваше местоположение включено, вы можете увидеть купоны и предложения, появляющиеся при совершении покупок.
Отслеживание почтовых кампаний
Обычный человек может не заботиться о сборе метаданных из электронной почты (если у вас нет судебного дела). Так что те, кто считает это достойным, обычно являются маркетологами, рекламодателями и владельцами бизнеса.
Те, кто проводит почтовые кампании, должны будут изучить такие вещи, как:
Улучшение алгоритмов социальных сетей
Google не единственный, кто отслеживает ваши привычки просмотра, как и социальные сети, такие как Pinterest, Facebook и Instagram.
Каждый раз, когда вы любите, комментируете или подписываетесь, это записывается платформой. Затем он сообщает алгоритму, что и кому вам нравится, чтобы он мог показать вам более релевантный контент.
Это все о предложении отличного пользовательского опыта. Кроме того, это может быть полезно для маркетологов, проводящих кампании в социальных сетях.
Улучшение управления базой данных с помощью метаданных
Существует много метаданных для сбора и организации, особенно когда вы компания (или владелец малого бизнеса). Таким образом, чтобы помочь понять все это, есть инструменты, известные как программное обеспечение для управления данными, которые вы можете использовать.
Это поможет определить, что представляет собой каждый набор данных. Например, если вы собираете список электронных писем из кампании, инструмент данных определит их уникальность. В этом случае это могут быть электронные письма, которые пришли в норму и должны быть удалены из кампании.
Метаданные в картах для вас?
Вы постоянно слышите о метаданных и больших данных. С вашим новым пониманием метаданных и того, для чего они используются, как все изменится для вас? Собираетесь ли вы начать обращать внимание на мета-заголовок, теги и описание на панели инструментов WordPress? Или, возможно, вы найдете более эффективные способы организации файлов вашего компьютера в зависимости от типа данных.
Когда вы углубляетесь в метаданные, вы обнаружите, что вы можете многому научиться и с этим справиться.
Что такое метаданные и как их удалить?
В контексте конфиденциальности мы часто говорим о метаданных как о слабом звене. Несмотря на то, что данные можно легко скрыть и зашифровать, с метаданными зачастую это сделать гораздо сложнее.
Метаданные — это данные о данных. Например, если эта статья представляет собой данные, ее метаданные будут включать информацию о количестве слов, на каком языке она написана, когда была впервые опубликована и связана ли она с изображением. Если вы будете запрашивать эту статью с какого-либо сервера, метаданные этой передачи будут включать время запроса и ваш IP адрес (или IP адрес вашей VPN службы).
Метаданные очень полезны, поскольку они сокращают объем информации, необходимой для обработки файла, и могут упростить управление большими файлами. Но также они могут представлять угрозу для вашей конфиденциальности, потому что во многих случаях метаданные включают в себя всю информацию, необходимую для вашей идентификации. Например, если метаданные показывают, что вам позвонили из полицейского участка, за которым следует ваш звонок на мобильный телефон вашего ребенка, за которым следует звонок адвокату, — большая часть истории уже раскрыта.
Типы метаданных
Существует два основных типа метаданных:
К телефонному разговору также будет приложено множество описательных метаданных, например, кто звонил, кому звонил и откуда был звонок.
Для изображения описательные метаданные могут быть очень подробными. Они включают в себя производителя камеры, любое используемое программное обеспечение для редактирования, время диафрагмы объектива, время экспозиции, ориентацию, цветовое пространство, яркость, владельца камеры и даже местоположение изображения по GPS.
Примеры метаданных
Метаданные можно применять для организации всех видов цифровой информации самыми разными способами. Вот несколько примеров того, как они используются службами, с которыми вы, вероятно, взаимодействуете каждый день.
Как удалить или уменьшить количество метаданных?
Сократить количество метаданных может быть сложно. Как правило, чем больше о вас знает служба, тем больше метаданных создается с каждым вашим шагом.
Создать шум
Самый продвинутый и эффективный способ сделать метаданные бесполезными — это вызвать шум, то есть создать дополнительные данные для создания неточных метаданных. Если ваш компьютер каждую секунду отправляет различные зашифрованные запросы к веб-страницам, будет сложно определить, какие сайты вы на самом деле читали и посещали. Но сделать это очень сложно, поскольку все же остается вероятность отфильтровать ваши действия от автоматических действий.
Остерегайтесь метаданных
Раскрывая информацию о себе, помните, что эти данные часто могут использоваться для вашей идентификации. Даже когда содержимое ваших сообщений зашифровано, может оставаться достаточно информации, чтобы узнать больше о том, кто вы и чем занимаетесь.
Элементы управления метаданными
Метаданные (от лат. meta — цель, конечный пункт, предел, край и данные) — информация о другой информации, или данные, относящиеся к дополнительной информации о содержимом или объекте. Метаданные раскрывают сведения о признаках и свойствах, характеризующих какие-либо сущности, которые позволяют автоматически искать и управлять ими в больших информационных потоках.
Содержание
Базы данных
Такая информация часто используется в базах данных:
Различие между данными и метаданными
Обычно невозможно провести однозначное разделение на данные и метаданные в документе, поскольку:
Другие описательные метаданные могут использоваться автоматизированными рабочими потоками. Например, если некоторая «умная» программа «знает» содержимое и структуру данных, то данные могут быть автоматически преобразованы и переданы другой «умной» программе как входные данные. В результате, пользователи будут освобождены от необходимости выполнения множества рутинных операций, если данные предоставлены для работы такими «немногословными» программами.
Метаданные становятся важны в World Wide Web по причине необходимости обеспечения поиска полезной информации среди огромного количества доступной. Метаданные, созданные вручную, имеют большую ценность, поскольку это гарантирует осмысленность. Если веб-страница на какую-то определённую тему содержит слово или фразу, то все другие веб-страницы на эту тему могут содержать такое же слово или фразу. Метаданные также обладают разнообразием, поэтому если с какой-то темой связаны два значения, то каждое из них может быть использовано. Например, статья про Живой Журнал может быть обозначена с помощью нескольких значений: «Живой Журнал», «ЖЖ», «LiveJournal».
Метаданные используются для хранения информации о записях audio CD. Аналогично MP3 файлы хранят метаданные в формате ID3.
Редактировать метаданные графических файлов можно в специальных программах для работы с метаданными.
Классификация метаданных
Метаданные можно классифицировать по
Тремя наиболее используемыми классами метаданных являются:
Управление метаданными
Элементы управления метаданными
Источники метаданных
Примеры стандартов мета-моделей
Группировка метаданных
Практическое применение в Сбербанке
Основной целью создания единой базы метаданных является автоматизация и повышение качества бизнес-процессов [2] :
Единая база метаданных, объединяет результаты анализа и архитектуры проектных решений с метаданными реальных сред.
Аналитическое пространство, является высокоуровневым описанием тракта данных от систем источников до витрин. Разрабатывается на этапе анализа и проектирования решения.
Каталог информационных компонент, обеспечивает пользователя полной, оперативной и систематизированной информацией об используемых в комплексе ЦХД – объектах, связях между объектами, компонентах, метриках, размещении.
Мета-данные. На пути к идеалам управления моделями данных
О чём этот пост
Определения и ограничения
Предполагается, что читатель является (или когда-нибудь станет) разработчиком Enterprise Application, которому часто нужно писать быстро и качественно, но не боящегося лезть в дебри JPA/JTA/RMI чтобы «подкрутить напильником» особо тонкие места.
Данные — то, что хранится в базе данных приложения. Данные о клиентах, пользователях, заказах и т.п.
Метаданные — описание структуры данных. Описание того, какие типы объектов хранятся в базе данных, какие у них есть поля (аттрибуты, элементы), описание зависимостей между объектами. В общем случает типы могут наследовать атрибуты родительского типа, а один атрибут в общем случае может присутствовать у двух и более типов, несвязанных отношением наследования.
Enterprise Application работает с использованием (чаще всего) Application Server’а (WebLogic, JBOSS) и некоторой РСУБД (Oracle, Informix, MySQL). Хотя автор не видит ничего зазорного в самостоятельной сборке AS на основе Tomcat/Hibernate/JOTM/DBCP/etc, это очень и очень интересно, но за рамками данного топика.
В качестве РСУБД предполагается одна из тех стандартных, которая поддерживается Hibernate/OpenJPA.
В топике используются термины из XML Schema: пространство имён, тип, атрибут. Последним двум в некоторой степени соответствуют понятия Java класс (объект класса, бин) и свойство (property, aka get+set, также иногда просто поле, field).
Введение. Простейший случай
Большие приложения — чаще всего это не только приложения с большим объёмом данных. Чаще всего это приложения работающие с большим количеством разнородных данных, имеющих разную структуру с точки зрения бизнес-логики. (Кстати, последнее важно — структура данных может быть различной на уровне СУБД, на уровне приложения и даже внутри него)
Заметьте в последнем предложении важное уточнение — «бизнес-логики». Речь идёт об описании процессов взаимодействия структур данных, их изменении и пр. — то есть кода, который должен знать и знает о структуре данных. Но если, например, мы говорим про редактирование бинов через WEB-интерфейс (или любым другим способом), то для написания редактора, который может редактировать 80% объектов, не зная заранее их структуры (т.н. generalized), нам придётся разбираться с Reflection/Beans/etc и другими, в принципе, не очень страшными словами. (Страшные — в конце топика).
Современные средства проектирования позволяют автоматизировать часть процессов связанных с обновлением, например, структуры базы данных по коду, либо наоборот — сгенерировать или обновить код по описанию структуры данных. Не уверен, но, думаю, существуют средства создания одновременно и кода, и структуры базы данных на основе некой абстрактной схемы данных, записанной, например, в виде XML Schema. (Код так точно можно сгенерировать — см. XML Beans и пр.). Однако все эти средства работают в «offline» и не затрагивают работающее приложение (если вы, конечно, не сделаете обновление прямо по «живому», но ничего хорошего из этого не бывает).
Кстати, некоторые из вспомогательных утилит можно заставить и формочки для каждого типа объектов нарисовать.
Гибкие структуры данных
Самой гибкой можно считать структуру, в которой каждый объект хранится как запись в базе данных в виде, ну, например, XML. То есть большая-большая таблица, в которой две колонки — ID объекта и его содержание в виде XML. Как вы правильно догадываетесь, основной недостаток подобной структуры — очень низкая производительность базы данных в тот момент, когда нам нужно будет вычислить, ну например, всех клиентов из города «Москва». Для этого придётся базе данных распарсить каждое значение.
Чтобы структура осталось гибкой, но поменьше нагружать базу данных, объект разбивают на кусочки и выносят в отдельные таблицы. Например,
— Объекты: ID, обязательное поле 1, обязательное поле 2
— Значения: ID объекта, идентификатор аттрибута, значение
Можно пойти дальше и, без ограничения гибкости, разделить атрибуты разных типов по разным таблицам или колонкам. Подобная схема успешно применяется в приложении (вырезано) для обработки данных в несколько терабайт.
Ещё недостатки:
За гибкость нужно платить. Во-первых, слой работы с данными придётся писать самостоятельно. Во-вторых, возникает большое желание сэкономить и оставить для бизнес-логики API, который бы отражал структуру базы данных:
— дай объект ID такой-то
— дай аттрибут ID такой-то
— обнови значение
— запиши аттрибут ID такой-то объекта такой-то
— обнови версию объекта (+1)
Конечно, с точки зрения программиста generalized редактора данных очень удобно иметь методы вроде getAllAttributes(). Однако с точки зрения бизнес-логики это неудобно, особенно если нужно помнить все ID нужных атрибутов (они могут быть и числовыми).
Нужно отметить, однако, что API в общем случае не обязан совпадать со структурой базы данных. Главное — чтобы 80% действий выполнялись самым простым и очевидным способом. То есть если у нас в базе хранятся клиенты, получение имени клиента или его адреса должна быть одна строка кода вроде client.getAddress(). Однако для гибких структур написание таких оболочек может сильно подорвать производительность, во-вторых, структуры имеют обыкновение меняться…
Однако если такие оболочки не пишет тот, кто отвечает за написание процедур доступа к данным, будьте готовы, что через пару лет у вас будет столько оболочек «упрощённого» доступа к данным, сколько инициативных программистов работают со «стандартным» API.
Структуры с ограниченными возможностями
В этом разделе хочется рассказать ещё об одном подходе, которая используется в одной малоизвестной CMS.
С точки зрения кода доступ к атрибутам объекта осуществляется таким же образом, как и у гибких структур — через методы вроде getAttribute / getAllAttributes / etc. Однако для CMS, основная задача которой редактировать объекты по отдельности (без relations между объектами), а также просто вывести объект в XML для дальнейшей обработки — данного API вполне хватает.
Интересно то, что список типов данных хранится в некотором конфигурационном файле. Также в этом файле для каждого типа хранится список аттрибутов и их тип. На основании конфигурационного файла при запуске создаётся или обновляется структура таблиц. В дальнейшем «на лету» при изменении структуры данных таблицы обновляются.
Плюсы:
— очевидная модель данных для СУБД
— гибкость «на лету»
Минусы
— с точки бизнес-логики API слишком гибкий (см. предыдущий раздел)
— нужно писать свою систему доступа к данным, которая в настоящий момент, к сожалению, в отличии от системных объектов (пользователи, группы, etc) игнорирует транзакции, кеши и прочие прелести
Классификация… попытка
Хочу… идеальная для автора
Из предыдущего пункта легко выводятся требования к идеальной (с точки зрения автора) системе описания и оперирования моделями данных:
— описание структуры данных должно быть в базе данных, что позволит оперативно изменять описание модели, возможно — через само приложение
— сами данные при этом должны хранится в нормализованной (вплоть до 3-4 формы) базе данных, где каждому типу соответствует своя таблица данных. Система управления должна сама заботится о поддержании схемы базы данных в соответствии с мета-данными.
— доступ к данным должен осуществляться через стандартные интерфейсы JPA / EntityManager.
— с точки зрения бизнес-логики основные поля основных объектых типов должны быть доступны через простой API без дополнительного resolving / casting / narrowing (т.е. сразу после загрузки из EntityManager)
— но система должна также обеспечивать доступ к мета-данным. В том числе для конкретного объекта — получения списка всех полей.
В настоящее время автор занимается написанием подобной системы, используя:
— Hibernate — как драйвер доступа к данным
— CGLIB / ASM — для динамического конструирования классов на основе их описания, включая аннотации для Hibernate
— XML Schema — для описания типов данных и их атрибутов
Метаданные
Метаданные, в общем случае
Содержание
Иерархии метаданных
Структурированные в виде иерархии метаданные более правильно называть онтологией или схемой метаданных (например, XML-схема).
Различие между данными и метаданными
Обычно невозможно провести однозначное разделение на данные и метаданные в документе, поскольку:
Эти рассуждения применимы независимо от выбора определения метаданных (из приведённых выше и не только).
Использование
Метаданные используются для повышения качества поиска. Поисковые запросы, использующие метаданные могут спасти пользователя от лишней ручной работы по фильтрации. Информируя компьютер о том, какие элементы данных связаны и как эти связи учитывать, становится возможным осуществлять достаточно сложные операции по фильтрации и поиску. Например, если поисковая система «знает» о том, что «Ван Гог» является «голландским художником», то она может выдать в ответ на запрос о голландских художниках веб-страницу о Ван Гоге, даже если слова «голландский художник» не встречаются на этой странице. Такой подход, называемый представлением знаний, находится в сфере интересов Семантической паутины и искусственного интеллекта.
В частности, метаданные создаются для оптимизации алгоритмов сжатия с потерей качества. Например, если к видео прилагаются метаданные, позволяющие компьютеру разделить изображение на основную часть и фоновую, то последняя может быть сжата сильнее, что позволит достичь большего коэффициента сжатия.
Некоторые виды метаданных предназначены для обеспечения возможности различных видов представления некоторых данных. Например, если к изображению прилагаются метаданные, содержащие информацию о том, какая часть изображения наиболее важная (допустим, изображение человека), то программа для просмотра изображений на маленьком экране (таком, как на мобильном телефоне), может отобразить только эту наиболее важную часть изображения. Аналогично используются метаданные, позволяющие сделать доступными для слепых диаграммы и изображения, путём их преобразования для вывода на специальные устройства, либо чтения их описания с использованием программного обеспечения, преобразующего текст в речь.
Другие описательные метаданные могут использоваться автоматизированными рабочими потоками. Например, если некоторая «умная» программа «знает» содержимое и структуру данных, то данные могут быть автоматически преобразованы и переданы другой «умной» программе как входные данные. В результате, пользователи будут спасены от необходимости выполнения множества рутинных операций, если данные предоставлены для работы такими «немногословным» программам.
Метаданные становятся важны в World Wide Web по причине необходимости обеспечения поиска полезной информации среди огромного количества доступной. Метаданные, созданные вручную имеют большую ценность, поскольку это гарантирует осмысленность. Если веб-страница на какую-то определённую тему содержит слово или фразу, то все другие веб-страницы на эту тему могут содержать такое же слово или фразу. Метаданные также обладают разнообразием, поэтому если с какой-то темой связаны два значения, то каждое из них может быть использовано. Например, статья про Живой Журнал может быть обозначена с помощью нескольких значений: «Живой Журнал», «ЖЖ», «LiveJournal».
Метаданные используются для хранения информации о записях audio CD. Аналогично MP3 файлы хранят метаданные в формате ID3.
Классификация метаданных
Метаданные можно классифицировать по:
Формат метаданных
Метаданными на практике обычно называют данные, представленные в соответствии с одним из форматов метаданных.
Формат метаданных — представляет собой стандарт, предназначенный для формального описания некоторой категории ресурсов (объектов, сущностей и т. п.). Такой стандарт обычно включает в себя набор полей (атрибутов, свойств, элементов метаданных), позволяющих характеризовать рассматриваемый объект. Например, формат MARC позволяет описывать книги (и не только книги), содержит поля для описания названия, автора, тематики и огромного множества других характеристик (формат MARC позволяет описать сотни характеристик).
Форматы можно классифицировать, во-первых, по охвату и подробности типов описываемых ресурсов. Во-вторых, по ширине и подробности области описания ресурсов и мощности структуры элементов метаданных. Кроме этого, можно классифицировать по предметным областям, или целям разработки и использования формата метаданных.
Форматы метаданных часто разрабатываются международными организациями или консорциумами, включающими в себя заинтересованные в появлении стандарта государственные организации и частные компании. Разработанный формат часто закрепляется как стандарт в одной или нескольких организациях, занимающихся разработкой и принятием стандартов (например W3C, ISO, ANSI и т. п.)
Классификация форматов метаданных по описываемой предметной области:
Метаинформация, возможности файловых систем и децентрализованные сети будущего
Дополнительные возможности
Жесткие и символьные ссылки
Начнем с жестких и символьных ссылок, известных пользователям Linux. На самом деле они есть и в Windows (NTFS), но практически нет инструментов для работы с ними.
Расширенные атрибуты и файловые потоки
Метаинформация
Теперь перейдем к собственно метаинформации как таковой.
В широком смысле, все файлы по способу их использования делятся на следующие категории
текст (включая гипертекст)
программы (то, что компьютер способен выполнить)
прочие двоичные данные (трехмерные модели, базы данных любого вида, геоданные, телеметрия, биомедицинские данные и т.д.)
контейнеры общего вида (архивы, образы, сложные документы, содержащие все перечисленные типы)
Отдельно следует отметить деление метаинформации на машинную, общую и пользовательскую.
Неотъемлемые машинноориентированные свойства файла: размер, ширина и высота изображения, количество цветов, количество страниц в документе, длительность аудио или видео, кодек и т.п. Изменение этих параметров возможно только с глубоким изменением самого контента (таким как перекодирование в другой формат или редактирование)
Общие человекоориентированные свойства. Это например название, имя автора, издательство, год издания, аннотация, картинка-превью. Эти свойства хотя и можно изменить без изменения самого контента, но никакого смысла в этом нет (кроме, возможно, исправления опечаток).
Локальные пользовательские свойства: сюда можно отнести личный рейтинг, комментарии и теги, выставляемые конкретным пользователем файла. Предполагается, что пользователи могут свободно менять эти свойства для личных целей.
Поддержка подобной классификации на уровне ФС была бы чрезвычайно полезной для самых разных целей.
Примеры метаинформации
Примеры тегов, встроенных в различные форматы
Vorbis Comments (audio)
Метаинформация в файле данных: медиаконтент
В качестве примера можно привести структуру IDv1 формата mp3;
Номер трека в альбоме или 0
Жанр (индекс, строка)
Скорость (стиль, тип) музыки (чем больше число, тем «активней» музыка)
Метаинформация в базе данных: Libgen
MD5 ключ (хеш электронной книги)
Название периодического издания (с номером и годом)
Число страниц, указанное в книге
Фактическое число страниц в файле
Код тематического классификатора
Первоисточник файла (название интернет-библиотеки или коллекции)
Выпуск в рамках первоисточника
Dewey Decimal Classification
Идентификатор библиотеки Конгресса
Идентификатор цифрового объекта DOI
Идентификатор в GoogleBooks
DPI, число точек на дюйм с скане
Произведена разрезка отсканированного разворота на страницы
Имеется электронное оглавление
Книга с OCR (текстовым) слоем
Размер файла в байтах
Версия книги более высокого качества (MD5 ключ)
Видимость при поиске через сайт
Первоначальное имя файла с локальным путем (при добавлении из существующей коллекции)
Книга присутствует в локальном хранилище пользователя
Время добавления записи
Время последней модификации записи Обложка (имя файла-картинки)
Отдельные файлы метаинформации: торренты
Торрент формата v1 состоит из элементов
announce-list — список трекеров, если их несколько
creation date — дата создания
comment — текстовый комментарий к торренту
В версии 1 хеши (SHA1) соответсвуют не файлам, а «фрагментам», все файлы торрента «склеиваются» в один битовый поток (отсюда и название), который разбивается на фрагменты одинакового размера. Для каждого фрагмента считается SHA1, и эти хеши сохраняются в torrent файле. В версии 2 этот недостаток исправили, и стало возможным сохранять хеши уже для каждого файла, что позволяет искать в DHT конкретные файлы, а не торренты в целом; использовать одинаковые файлы из разных торрентов и т.д.
Бинарные хеши
Возможно, в будущем Сообщество придет к некоему консенсусу относительно единого хеша. Пока же их много. Например, в базе Libgen хранятся следующие хеши:
Advanced Intelligent Corruption Handler
SHA1 (используется в сетях Gnutella, Gnutella2, а также для создания торрент магнет-ссылки)
Tiger Tree Hash (используется в сетях Direct Connect и Gnutella)
Торрент файл, закодированный в base64
BitTorrent Info Hash (используется в сетях BitTorrent v1)
IPFS Content ID (идентификатор в сети IPFS)
Перцептивные хеши
Актуальность хешей
Теговые файловые системы
Общая идея
Каждый файл в такой системе будет ассоциироваться с одним или несколькими тегами. Чтобы найти то или иное множество файлов, нужно ввести или выбрать в файловом менеждере нужные теги (возможно, объединив их логическим выражением: И, ИЛИ, НЕ и т.д.)
Представьте, что у вас есть огромная коллекция фотографий, сделанных в разных странах, в разных местах (город, деревня, пляж, парк, музей. ), в разное время суток (рассвет, день, закат, ночь), с разными сюжетами (селфи, родственники, коллеги, природа, достопримечательности. ), в разные годы, и т.п. Теперь представьте, что вы хотите получить список фотографий, которые сделаны утром в центре Нью-Йорка, кроме тех, которые были сделаны до 2020 года.
Общая идея теговой ФС в том, что у файла есть облако тегов, которое может состоять из любого числа тегов, в том числе вложенных. Набирая или выбирая в некотором интерфейсе теги, вы получаете список файлов, удовлетворяющий этим тегам.
Как видно, теговая ФС гораздо ближе к реляционной БД, чем иерархическая. Неудивительно, что идеи реализации теговых ФС тесно переплетаются с идеями интеграции ФС и БД.
Краткий обзор реализаций
Папки или теги?
Иногда классическую иерархическую организацию противопоставляют теговой. Я считаю, что противопоставление этих двух систем не нужно. Иерархия и теги прекрасно дополняют друг друга. Файловая иерархия удобна именно тем, что она однозначна и выделяет главное. В 99% случаев главное можно определить. Для 1% нестандартных случаев остаются хардлинки и симлинки. Теги удобны для поиска. Когда мы набираем запрос в Гугле, мы по сути вводим именно теги. Разумеется, можно организовать и полнотекстовый поиск на компьютере, и наверное это было бы неплохо
Файл должен иметь уникальное имя в рамках своей папки, но несколько файлов в папке вполне могут иметь одинаковые теги и даже полностью совпадающий набор тегов. Папка это тоже в некотором роде тег. Можно рассматривать имя папки как «главный» тег, определяющий место файла в иерархической системе.
Собираем все вместе
Унифицированное хранение всех видов метаданных в расширенных атрибутах
Полноценная поддержка расширенных атрибутов файловыми менеджерами
СУБД, интегрированная в файловую систему, для индексации метаданных
Унифицированный формат файла представления метаданных
Хранение метаинформации в расширенных атрибутах
Итак, у нас есть расширенные атрибуты, и есть множество метаинформации о файлах. Во всех решениях метаинформация хранится или в имени, или в отдельной БД. А что если хранить метаинформацию в расширенных атрибутах? Преимущества:
Унификация доступа: информация привязана к файлу на уровне файловой системы, а не на уровне конкретной программы. Другие программы могут не иметь понятия о формате файла, но при этом корректно работать с его метаинформацией. Ровно это происходит с существующим минимумом метаинформации в современных ОС: размер и время создания файла никак не зависят от формата.
Возможность добавления метаинформации, не предусмотренной форматом файла.
Что для этого нужно? Поддержка атрибутов со стороны операционных систем (уже есть) и файловых менеджеров. Удобные средства занесения и редактирования атрибутов. Удобные средства поиска.
Хранение метаинформации в специальных файлах («метафайлах»)
Это новая абстракция: специальный файл, содержащий метаинформацию о другом файле или каталоге («метафайл»). Это одновременно и торрент, и библиотечная карточка, и обложка альбома или диска. Там есть все что нужно: и различные хеши файла, и картинка-превью, и оглавление, и краткая аннотация, и список тегов/ключевых слов, и информация об авторах/издателях, и дата создания, и ссылка на источник в интернете, откуда файл был скачан.
Это готовый объект для публикации в файлообменных сетях любого вида; теперь не нужно заполнять унылые формы на торрент-трекере, вся информация уже присутствует в «метафайле» и просто извлекается из него в БД трекера.
Он получается простым кликом по файлу и выбором пункта в контекстном меню любого файлового менеджера.
Такой файл, в отличие от торрента, содержит человекоориентированную информацию, и потому понятен: его всегда можно открыть и посмотреть, на что же он ссылается; его можно загуглить, просто выбрав соответствующую команду в контекстном меню файла.
Хранение метаинформации вместе с файлами контента («метаобертки»)
Децентрализованные социальные сети
Итого
Что такое метаданные и как они облегчают работу с файлами в цифровом архиве
Чем больше объём вашего медиаархива, тем сложнее в нём ориентироваться. Как быстро найти нужную фотографию среди тысяч похожих? Как выбрать из общего объёма контента только работы конкретного сотрудника? Как найти фотографии ветерана, Петрова А. И., на снимках позапрошлого года, когда общий штат предприятия больше 50 000 человек?
Все эти задачи поиска решает DAM-система, и основа для этого решения – метаданные. Сегодня подробно поговорим о том, какую информацию несут в себе ваши изображения и как ей пользоваться.
Что такое метаданные? Какие форматы метаданных существуют?
Метаданные в широком смысле – это «данные, которые предоставляют информацию о других данных» (Википедия). То есть, они представляют собой набор сведений, который содержат в себе сами медиаактивы (изображения, видео или др. файлы).
Изображения без метаданных не имеют практической ценности: сложно быстро найти нужный файл в большом архиве, не понятен контекст (что, где, когда происходит), а также нет информации, можно ли легально использовать контент и т. д.
Когда пользователи понимают, что поля метаданных каждого файла должны содержать разнообразную инфу, возникает страх «утонуть» в этих процессах: работы по описанию, тегированию, заполнению полей данных игнорируют – в итоге вместо полноценной цифровой библиотеки получаем хаос из файлов и папок.
Тем не менее, если придерживаться профессионального подхода и использовать соответствующие инструменты, задача обогащения изображений метаданными решается заметно проще, чем можно было предположить. Сейчас же давайте посмотрим на то, какие вообще бывают метаданных.
Часть работ по описанию файлов за нас делает электроника. Например, фотокамера автоматически прописывает метаданные стандарта EXIF.
EXIF – Exchangeable Image File Format – это стандарт, который по умолчанию используется большинством цифровых фотоаппаратов и поддерживается повсеместно. Предназначен он для графических файлов JPEG, RAW и TIFF. Первая версия EXIF была введена Японской ассоциацией электронной и ИТ-индустрии JEIDA (Japan Electronic Industry Development Association) в 1995 году. Стандарт, который был разработан JEIDA, и в последствии был принят повсеместно.
Чтобы посмотреть данные EXIF, вам достаточно открыть свойства любой фотографии на своём компьютере под управлением ОС от Microsoft:
Одно из самых важных полей метаданных EXIF – «Дата создания» :
Параметры съемки в метаданных EXIF:
Поля, которые входят в состав метаданных EXIF (с примерами):
Наиболее важными для практического применения являются следующие метаданные:
Пример использования: редактор фотоагентства, в которое ежедневно поступает миллионы изображений, фильтром по полю «Дата создания» выбирает все материалы, загруженные за последние 12 часов.
А с помощью поля геолокации безликий снимок обретает привязку к конкретному месту.
По геолокации было определено, что на фотографии кладбище недалеко от хутора Пономарев в Кашарском районе Ростовской области.
IPTC\XMP
Для полноценного использования изображения технических данных, которые содержатся в метаданных EXIF, вам будет недостаточно. Необходима более полная и содержательная информация— ключевые слова, описание, сведения от фотографа, авторских правах и т. д.. Поэтому был создан новый стандарт — IPTC или XMP.
IPTC — стандарт метаданных фотографий, который назван в честь своих разработчиков — Международного совета прессы и телекоммуникаций (с англ. International Press Telecommunications Council). С конца 1970-х годов деятельность IPTC была сосредоточена на разработке и продвижении отраслевых стандартов для обмена новостными данными всех распространенных типов СМИ. Подробнее о деятельности совета и обновлениях стандарта можно узнать по ссылке.
Как именно форматы метаданных фотографий хранятся внутри файлов изображений, определяется стандартами форматов файлов, отличными от IPTC – такими как JPEG / JFIF, TIFF, PNG и другими.
На основании IPTC компания Adobe разработала свой стандарт обмена данным — XMP, в дальнейшем разработка стандарта велась совместно. Стандарт предусматривает множество полей данных «на все случаи жизни», 15 наиболее значимых из них в практическом смысле объединили в «Dublin Core». Впоследствии состав ядра был расширен и дополнен, сейчас он выглядит следующим образом (курсивом выделены изначальные 15 полей):
Формат IPTC имеет несколько содержащих информацию блоков:
Разберем подробнее содержание полей IPTC / XMP (с примерами):
Очевидно, что с такой информацией изображение имеет большую ценность – гораздо легче найти файл в системе и понять, можно ли его использовать в рекламе или СМИ.
Сложно ли добавить метаданные формата IPTC/XMP к фотографии?
Совсем нет, достаточно использовать профессиональные инструменты для работы с изображениями — например, DAM-систему, Adobe Bridge или другую подобную программу. Такое ПО позволяет внести изменения в метаданные ко множеству фотографий разом или создать необходимые шаблоны.
Например, если фотограф знает, что завтра у него съемка матча ЦСКА – Интер, он может заранее подготовить шаблон:
Благодаря использованию такого шаблона, после матча фотограф опишет сотни изображений в течении нескольких секунд.
Конечно, детальное описание кадра может занять больше времени, однако основные сведения для профессионального использования и поиска будет доступны сразу после загрузки изображений. Могут возникнуть сложности при описании фотографий со множеством людей, но эту задачу можно автоматизировать с помощью искусственного интеллекта. Сегодня обогащение метаданных с помощью технологий искусственного интеллекта — модный тренд. Эти технологии могут распознавать лица, объекты, номера на изображении, локации и т.д., переводить текстовые описания на другие языки.
Описание метаданных при отлаженных процессах и использовании профессиональных инструментов не займет много времени.
В чём разница между метаданными и тегами?
Сотрудники компаний, которые незнакомы со стандартами описаний изображений, часто считают, что для организации работы с фотографиями достаточно их протегировать. Очевидно, что это заблуждение пришло к нам из ежедневного опыта обращения с соцсетями. На практике же теги (или ключевые слова) — это всего лишь инструмент поиска, они важны, но не заменяют собой остальные данные.
Для полноценного использования изображения вам, возможно, понадобятся:
Таким образом, программы, предназначенные исключительно для тегирования изображений, помогают найти нужное изображение, но этого может оказаться недостаточно. Никаких возможностей для управления медиаактивами они не создают.
В некоторых случаях использование тегов или ключевых слов является самодостаточным: например, если архив изображений — это стоковая коллекция (*стоковое изображение — это изображение, которое носит общий характер и может применяться для иллюстрации типичных ситуаций). Если же мы делаем корпоративные снимки событий, то контекст имеет бОльшее значение, чем в случае со стоковыми картинками.
Пример:
Возьмем стоковую картинку на общеизвестном банке фотографий Shutterstock – газопровод неизвестно где, компания-владелец тоже неизвестна, никаких исходных данных. Просто строительная площадка, о чем нам сообщает «Описание».
И второе изображение со строительства «Северного потока» в фотобанке Global look press, который работает для СМИ.
Использование метаданных в изображениях зависит от целей коммуникации. В приведённых примерах эти цели разные – первую фотографию можно использовать в любых материалах про трубы, тогда как вторая предназначена прежде всего для освещения конкретного события со строительства Nord Stream.
Мы в Picvario уделили максимальное внимание чтению и настройке полей метаданных. DAM-система поддерживает все вышеописанные стандарты – и мы можем настроить поля так, чтобы в поиске использовались только те из них, которые сейчас необходимы.
Вот так выглядит цифровой актив в Picvario:
Заголовок, чёткое описание, авторская информация, актуальные теги – всё, что необходимо. При этом уровень доступа к просмотру разных метаданных гибко настраивается для разных групп сотрудников и для отдельных пользователей. В результате имеем готовый цифровой актив, с которым сразу можно начинать работать, без какой-то дополнительной подготовки или поисков дополнительной информации.
Проблемы работы с метаданными в РФ и других мультиязычных странах
Изначально IPTC создавался для английского языка и не был адаптирован к использованию других кодировок/языков. Игнорирование национальных языков в стандартах распространилось на многие программные продукты, несмотря на то, что современная версия стандарта XMP позволяет поддерживать поля данных с указанием языковой метки.
Проблемы кодировок
В результате нередко случается так, что информация, заполненная на одном компьютере на русском языке, не может быть прочитана на другом.
При разработке DAM Picvario мы эту проблему решили: наша система считывает мультиязычные метки, сохраняет всю информацию. Эти задачи решаются специально разработанным приложением Uploader, доступным для скачивания бесплатно. Программа корректно работает с описаниями на русском (и любом другом языке).
Как DAM-системы работают с метаданными?
В результате получаете чётко структурированный и правильно организованный цифровой архив.
Настройка импорта и экспорта метаданных
Для просмотра или присвоения таких метаданных DAM-система не обязательна, но именно она гарантирует, что вся перечисленная информация (либо её часть, зависит от настроек экспорта) сохранится при пересылке цифровых активов. К примеру, если вы просто перешлёте фотографию коллеге через WhatsApp – без использования DAM – данные будут утрачены.
Получение метаданных при загрузке контента из других источников – в том числе устаревших программ и БД – важная задача. В Picvario мы перед установкой системы определяем, какие метаданные и в каком формате хранятся у вас в компании, и готовим DAM к их чтению: получим все поля из любых источников.
Что касается экспорта, здесь тоже важна тонкая настройка: не всегда нужно отдавать все хранимые в базе метаданные. К примеру, необходимо удалять персональные данные пациента, если вы делаете выгрузку томограммы для публикации. Другая ситуация: фотография отправляется в зарубежное издание – можно удалить русские метаданные, которые не нужны.
Заключение
На то, чтобы обучить сотрудников правильному использованию метаданных, уходит всего несколько часов. Эти несколько часов в будущем сэкономят вам десятки и сотни дней, которые были бы потрачены на поиск по неструктурированным папкам, а также помогут защитить компанию от дополнительных трат: расходов на реструктуризацию архива, судебные разбирательства по поводу авторских прав и т. д.
Вам нужна консультация по работе с метаданными в Picvario? Пишите, всегда рады помочь!
Как невидимые данные электронных документов приводят к реальным проблемам
Самые опасные утечки конфиденциальных данных — это те, о которых люди даже не подозревают.
Минутка риторики. IT-угрозы какого типа опасны для корпораций и небольших компаний, правительств стран и отдельных людей? Утечки конфиденциальных данных. Какие утечки сложнее всего предотвратить? Те, о возможности которых жертвы даже не подозревают.
Не подозревают они, кроме всего прочего, о метаданных, легко превращающих обыкновенный электронный документ в ценный компрометирующий материал.
Метаданные в документах: какие они бывают
Начнем с теории. По классификации, используемой американской Фемидой, выделяют три категории метаданных:
1. Метаданные приложений. Они добавляются в файл приложением, в котором он создается, и хранят внесенные пользователем в документ изменения: журнал сделанных правок, комментарии.
2. Системные метаданные. Включают имя автора, название и размер файла, даты создания, изменения и так далее.
3. Внедренные метаданные. Сюда относятся формулы в ячейках электронных таблиц, гиперссылки, связанные файлы. К этой же категории причисляют и EXIF-метаданные графических файлов — о них мы уже рассказывали подробно.
Как написала по следам скандала BBC, в итоге правительство Великобритании для публикации документов вместо формата DOC предпочло использовать PDF, несущий меньше метаданных.
Любопытную историю разоблачения с помощью метаданных рассказали в 2015 году сотрудники американской юридической компании Venable. К ним обратилась некая компания, из которой уволился вице-президент. Вскоре у этой компании сорвался госконтракт — его с помощью уволившегося сотрудника получила конкурирующая организация.
Бывший работодатель заподозрил перебежчика в краже коммерческих секретов, которые и помогли конкуренту получить контракт с американским правительством. В защиту носитель тайны и его новая компания представили документ, содержащий аналогичное коммерческое предложение, но уже в адрес иностранного государства. По их утверждению, оно было подготовлено раньше, чем был объявлен конкурс в США, предназначалось для другого заказчика и потому не угрожало интересам «кинутой» компании.
Вывести злоумышленников на чистую воду позволила обнаруженная в предоставленном файле «временная аномалия». Согласно системным метаданным документа, последнее сохранение файла произошло раньше, чем последняя печать, чего, как признали эксперты с обеих сторон, не могло быть. (Дело в том, что дата последней печати относится к категории метаданных приложения и сохраняется в документе только при сохранении самого файла. Если документ напечатать, а файл после этого не сохранить, новая дата печати в него не запишется.)
Второе доказательство подделки файла заключалось в дате его создания на корпоративном сервере: он был создан уже после начала разбирательства. Кроме того, ответчиков уличили в манипуляции с датами последней модификации файлов формата OLM (файл почтовой базы Microsoft Outlook для Mac).
Скрытные файлы
Богатый выбор средств сбора конфиденциальной информации предоставляют приложения Microsoft Office. Например, в примечаниях к тексту могут быть записаны дополнительные сведения, не предназначенные для публикации. Встроенный в Word механизм учета изменений, который отмечает на полях вносимые в документ правки, тоже может быть полезен «шпиону». Если выбрать опцию «Показать измененный документ», то примечания и список изменений с экрана пропадут, но останутся в файле ждать наблюдательного читателя.
А еще есть заметки к слайдам презентаций, скрытые столбцы в электронных таблицах…
Кстати, попытки спрятать информацию без знания матчасти тоже чреваты. В качестве примера можно рассмотреть опубликованный на сайте CBSLocal документ судебной тяжбы между правительством США и бывшим губернатором Иллинойса Родом Благоевичем о вызове в качестве свидетеля Барака Обамы, датированный 2010 годом.
Часть текста скрыта от любопытствующих глаз черными прямоугольниками. Но можно выделить мышкой все строки, скопировать их в буфер обмена и вставить в текстовый редактор. Теперь можно прочитать весь текст.
Черные прямоугольники в PDF помогут спрятать информацию при печати, но в электронном виде обойти их проще простого
Файлы с двойным дном
Отдельная песня — внедренные в документ данные внешних файлов.
Скачиваем файл, отключаем защиту документа от редактирования (пароль не требуется). На странице 41 — обычная с виду диаграмма. В контекстном меню диаграммы выбираем команду «Изменить данные», и перед нами в первозданном виде открывается внедренный файл Microsoft Excel, содержащий исходные данные для диаграммы.
Файл Word с отчетом, а внутри — файл Excel с множеством исходных данных для этой и других диаграмм
Понятно, что в таких внедренных файлах может быть практически все что угодно, ведь тому, кто публиковал исходный документ, наверняка казалось, что это никто не увидит.
Урожай метаданных
«Выжимка» метаданных из документов интересующей организации может быть автоматизирована — например, с помощью программы FOCA (Fingerprinting Organizations with Collected Archives) компании ElevenPaths.
FOCA может найти и загрузить с исследуемого сайта документы нужных форматов (например, DOCX и PDF), проанализировать их метаданные, а также рассказать многое об организации: используемое серверное ПО, имена пользователей и так далее.
Предостережение: изучение сайтов с помощью подобных инструментов даже в исследовательских целях может не понравиться их владельцам, а то и вовсе сойти за киберпреступление.
Документированные странности
Предлагаем пару особенностей метаданных, о которых, по нашим наблюдениям, знает не каждый IT-специалист. Возьмем для примера файловую систему NTFS, используемую операционными системами Windows.
Первая неочевидная вещь. Если удалить какой-либо файл из папки и сразу сохранить новый файл с тем же именем в эту же папку, то дата создания нового файла останется от старого, удаленного файла. То есть файл мы создали только что, но система уверяет, что он существует уже давно.
Вторая неочевидная вещь. NTFS среди прочего хранит дату последнего доступа к файлу. Однако если открыть файл, а потом посмотреть дату доступа к нему в свойствах, то можно увидеть, что она осталась неизменной.
Может даже показаться, что это баги, но нет: обе странности являются документированными особенностями. В первом случае работает так называемый механизм туннелирования (англ. tunneling), который нужен для совместимости со старыми программами. По умолчанию эффект длится 15 секунд, в течение которых новый файл получает дату создания своего предшественника (настроить этот интервал или вовсе отключить туннелирование можно в реестре). Впрочем, этого хватило, чтобы я сам столкнулся с туннелированием дважды в течение недели при обычной офисной работе.
Второй случай тоже описан в документации: начиная с Windows 7, для повышения производительности Microsoft отключила автоматическую простановку даты последнего доступа к файлу. Включить эту функцию можно в реестре. Впрочем, ее активация не имеет обратной силы — файловая система правильную дату не хранит (проверено низкоуровневым редактором диска).
Надеемся, эксперты по цифровой криминалистике знают все подобные нюансы.
К слову, метаданные файлов могут быть легко изменены как штатными средствами ОС и «родных» приложений, так и с помощью специальных программ. Поэтому использовать их как решающее доказательство в суде вряд ли получится, разве что вместе с сопутствующими свидетельствами вроде журналов почтовых сервисов, файловых серверов и так далее.
Метаданные: защитные меры
В приложения Microsoft Office встроена функция «Инспектор документов» (меню Файл —> Поиск проблем), которая показывает, какие скрытые данные хранятся в файле. Часть из них «Инспектор» может по запросу пользователя удалить, но только не внедренные файлы (как в упомянутом отчете министерства образования США). Вообще же лучше вставлять диаграммы и другие материалы в итоговый документ в виде картинок.
Аналогичные функции удаления метаданных имеет и редактор Adobe Acrobat.
Кроме того, защита от утечек реализуется и в комплексных пакетах информационной безопасности. Так, модуль DLP (Data Loss Prevention) присутствует в Kaspersky Total Security для бизнеса, Kaspersky Security для почтовых серверов и Kaspersky Security для серверов совместной работы. Эти продукты умеют фильтровать такие нежелательные для попадания вовне вещи, как история изменения документа, комментарии и внедренные объекты.
Но идеальный (и, как это и положено идеалам, на все 100% недостижимый) способ побороть любые утечки — это обученные, думающие и ответственные сотрудники.