Винт Серф: Человечеству нужен цифровой Розеттский камень

Винт Серф: Человечеству нужен цифровой Розеттский камень

Человечеству необходим "цифровой пергамент" – надежный и долговечный способ хранения информации и удобного доступа к ней в эпоху компьютерных технологий. Как рассказал корр. ИТАР-ТАСС в вашингтонском представительстве Google один из "отцов-основателей" глобальной компьютерной сети, "главный интернет-евангелист" и вице-президент компании Google Винт Серф, пока такого способа нет, во всяком случае в США, хотя над его созданием здесь давно уже бьются и государство, и частный бизнес.

Винт Серф: Человечеству нужен цифровой Розеттский камень

Из фотоархива ИТАР-ТАСС

  • Винт Серф: Человечеству нужен цифровой Розеттский камень
  • Винт Серф: Человечеству нужен цифровой Розеттский камень
  • Винт Серф: Человечеству нужен цифровой Розеттский камень
  • Винт Серф: Человечеству нужен цифровой Розеттский камень
  • Винт Серф: Человечеству нужен цифровой Розеттский камень

- В чем проблема? Пока просто не знаем, как хранить информацию? Или уже теряем ее?

- Теряем, хотя сохранять биты и файлы уже научились. Просто чтобы не терять способность их читать или воспроизводить, во многих случаях нужна прикладная программа, в которой они создавались...

То есть, по сути, проблема сводится к тому, что даже если я в состоянии сохранить цифровую информацию, это еще не значит, что я ее потом воспроизведу и пойму, что она означает.

Мало того. Возьмем к примеру информацию с датчиков. Скажем, спутники на орбите смотрят на поверхность Земли и ведут спектрографический анализ. Даже если знаешь формат /записи/, с такими данными с ходу не разберешься. Надо знать, как инструменты были откалиброваны... А через 10 лет вообще ничего не поймешь, если в файле нет пояснений.

 

- А раньше как делали?

- Переписывали вручную... Могли к абсолюту сводить – если температуру, то к градусам Цельсия, например...

 

- А что мешает на компьютерах то же делать?

- Зачастую поток информации идет через аналогово-цифровой преобразователь. "Сырая" информация оцифровывается и отправляется на хранение. Но нужно ведь знать, что это такое. Если вы сами ставите эксперимент, то, естественно, знаете. И при обработке данных заводите нужные параметры в свою программу. Но если эти параметры тоже не сохранить, то через 10 лет никто не разберется.

Метаданные – это информация об информации. А по метаданным стандартов нет, точнее - их множество...

Вот, например, библиографические архивные данные для Библиотеки Конгресса печатаются /в США/ прямо в книгах, при издании. Это хорошая модель. Но если кто-то придумал, скажем, международную систему идентификации книг, с соответствующими номерами, то, чтобы ею пользоваться, прежде всего надо сознавать, что такой-то номер относится к этой системе. А во-вторых, надо иметь доступ к ее базам данных. И только тогда можно по номеру узнать автора, название, общее содержание и т.п. А голый номер ничего не дает.

Даже если я могу сохранить цифровую информацию, это еще не значит, что я смогу ее воспроизвести и понять ее смысл

Вообще эта проблема – систематизация информации – очень даже непростая. Нужна стандартизация и кропотливая работа. Иначе потом этими данными никто не сможет воспользоваться.

Какие тут просматриваются проблемы? Во-первых, нужен общий стандарт. Пока их много. Во-вторых, для некоторых видов информации вообще нет общепризнанных способов описания метаданных. Или нет возможности сохранить программу, в которой они изначально создавались.

К тому же, помимо технических препятствий, о которых мы вскользь упомянули, тут есть еще и проблемы авторских прав. Они тоже могут мешать.

В общем, легче всего описать проблему на конкретных примерах...

 

- Приведите самый яркий...

- O-кей. Допустим, некто придумал очень "умную" таблицу, позволяющую точно прогнозировать развитие экономики. Вы сейчас, в 2012 году, составляете ее, скажем, на базе программы MS Excel.

Наступает, к примеру, 2050 год. Обнаруживается какой-то прогноз на базе этой программы, считавшийся утерянным. Вы хотите проверить, правда ли программа давала столь точные результаты, как полагают.

И вот у вас есть MS Excel 2050. Вы заводите старую программу, но компьютер наотрез отказывается ее узнавать

Вы скажете – так не бывает. А я отвечу, что у меня есть доклад 1997 г в формате Power Point, и эта же программа, только сегодняшняя, отказывается с ним работать...

Всему этому есть свои веские причины. У компьютерных программ есть "срок жизни", есть эволюция. Иногда компания-производитель "умирает" – и все. Ни эволюции, ни технической поддержки.

Бывает и так, что для работы с определенным файлом есть прикладная программа, но она работает только в определенной операционной системе. ОС развиваются, нужной у вас нет, компания-производитель их больше не поддерживает. Все, тупик. И таких сценариев сколько угодно.

Вот, кстати, сейчас начинают появляться проблемы с цифровой визуальной информацией. Обычное фото может выцвести от старости, но это фото. А в цифре это просто информационный пакет. И уже есть старые форматы, с которыми многие новые визуальные приложения не работают. Это GIF, это TIFF.

Конечно, есть конвертеры. Но если у вас целый фотоархив в старом формате, которым больше никто не пользуется и от которого отказался его производитель, то у вас вместо картинок черные квадратики. Я это на себе испытал.

 

- Хорошо. Проблему изложили наглядно. В чем решение?

- Ну, если бы у меня было решение, то больше нечего было бы и желать для полного счастья. Лучше я вам расскажу, какие еще есть проблемы на пути к решению.

Вот, допустим, мы осознали проблему. И мы говорим: надо заставить производителей программ сделать их совместимыми с предшествовавшими.

Думаю, у нас ничего не выйдет. Потому что есть веские причины отвечать – нет, мы старые форматы поддерживать не будем. То есть просить мы можем, а настаивать на своем, по-моему, – нет. Это не решение.

Тогда мы говорим: хотим, чтобы старые программы работали на новых операционных системах. Это уже проблема для производителей ОС. Но зачем им подстраиваться под старье?

Допустим, далее мы говорим: ладно, вы не хотите – мы сами будем этим заниматься. Давайте исходный код. Они отвечают – не дадим. Он наполовину использован в наших новых программах и по-прежнему защищен авторским правом.

Мы говорим – давайте бинарный код, исполнимый код. Они мнутся, но в конце концов дают. Мы спрашиваем, на чем он работает. Они отвечают, что писался, скажем, под Linux-11 или Mac OS-10.

Если это действующие на данный момент системы, все хорошо. Но вот опять 2050 год. И тот же бинарный код на новых системах не работает, а старой у вас нет.

Тут вы начинаете материться: код есть, но запустить не на чем.

Справедливости ради, в некоторых случаях решение может найтись. Например, поставщик согласится переделать программу под другие ОС. Или даст исходный код. Или, может, это вообще программа из открытого источника, просто вам ее надо подстраивать, чтобы работала на новых платформах.

Но со временем она перестанет на них работать. И потом: если вы просто потребитель, то вы сами программу ни под что не переделаете. А значит – не будете иметь доступа к информации, которая прежде была доступной.

В общем, при любом сценарии вам скорее всего рано или поздно понадобится помощь. И вот представьте себе: приходите вы в Смитсониевский институт и спрашиваете: а нет ли, дескать, у вас случайно старенького "Мака" или "Эппла"? А они отвечают: есть-то он есть, только он уже не работает.

Помните старые гибкие дискеты? Или нынешние всевозможные компакт-диски. Так вот устройства и для записи их, и для чтения рано или поздно исчезают. Так что даже если мы умеем переформатировать биты, как это часто бывает, все равно платформ нужных уже нет. 

 

- И что делать?

- В принципе, на мой взгляд, это проблема решаемая. Это опять же к вопросу – как заставить старые программы работать. "Облачные" системы, возможно, отчасти отвечают на этот вопрос.

Код есть, но запустить его не на чем

Вот пример. Скажем, у меня есть дистанционный доступ к "облачной" системе, к виртуальным машинам. Тогда, может быть, я могу сконструировать себе виртуальную машину наподобие той, под которую создавалась в свое время данная операционная система. И тогда запустить на ней нужную программу.

Правда, вам-то важен конечный результат, а его вы не получите без взаимодействия с этой самой виртуальной машиной. Для этого кто-то должен придумать клавиатуру, "мышку" и т.д. То есть, это решение тоже еще требует доработки...

Но искать такие решения надо уже сейчас. И с учетом важности проблемы можно представить себе бизнес-режим, при котором компаниям будут говорить: если выходите из бизнеса – предоставляйте исходные коды. Или отдавайте под лицензию бинарные коды. Или еще что-то вроде этого.

Конечно, вводить это придется принудительно. Скажем, в контракты включать, чтобы исходные коды хранились у третьего лица и передавались пользователю в случае выхода компании-производителя из бизнеса. Если поставщик отказывается от этого условия, клиент может контракт и не заключить.

Это просто как пример контрактной защиты. Кстати, продукция, создаваемая с помощью прикладных программ, о которых мы говорим, может быть совершенно простой, но может – и очень сложной и дорогостоящей. И если вы в нее вложились, а доступ к ней утрачен, это серьезный риск. Мы должны это признавать, даже хотя бы в чисто юридическом смысле...

 

- Мне кажется, недавно такое дело в суде рассматривалось. Человек судился с компанией из-за того, что потерял доступ к своим файлам...

- Я знаю это дело. Это была компания Megaupload. Она, между прочим, не выходила из бизнеса. У нее власти наложили на все серверы арест по подозрению в "пиратстве".

 

- Возвращаясь к основной теме. Вы в свое время сказали, что нам необходим "цифровой пергамент". Что это такое, в вашем понимании?

- Ну, известна попытка компании Adobe Systems. У них в PDF /Portable Document Format/ есть так называемый "формат А", от слова "архив". И они обещают, что этот формат будет оставаться неизменным, что они не станут постоянно к нему что-то добавлять. И будут хранить подробную информацию о том, как его считывать. Чтобы при необходимости программу можно было написать заново. Похвальная попытка, надо сказать.

 

- Но ее мало?

- Она предназначена только для тех материалов, которые можно распечатать. А я готов утверждать, что сейчас все больше становится информации, которой и воспользоваться-то невозможно без помощи компьютера. Мультимедийные, интерактивные произведения. Вот к примеру видеоигры. Они создаются под конкретные приставки – проигрывающие устройства. Специально конструируемые таким образом, чтобы максимально быстро реагировать на все ваши манипуляции.

Сохранить такую игру без физического наличия приставки очень сложно. Нужен огромный объем описательной информации. Не только по самой игре, но и по приставке, и по интерфейсу с играющим. Со всеми этими бесчисленными кнопками и примочками.

Я не к тому, что наша цивилизация держится на видеоиграх, а к тому, что создаваемые нами произведения для правильной презентации требуют все более сложной обработки.

 

- Ну и что, научился кто-нибудь все это хранить? Госучреждения как это делают?

- Не идеально. И проблемы, с которыми они сталкиваются, все время усложняются.

Тут прежде всего стоит вспомнить о человеке по имени Брюстер Кейл /Brewster Kahle/. Он возглавляет организацию под названием Archive.org. Занимается она тем, что фиксирует и сохраняет весь интернет.

 

- Ничего себе!

- Ну, не весь. На весь никакой памяти не хватит. Но частично. И на этой основе предоставляет услугу под названием Wayback Machine. Это доступ к архиву интернета. Там можно посмотреть, скажем, веб-страницы 20-летней давности.

Я и сам этим пользовался. Можно проверять факты, да и просто из любопытства покопаться. Посмотреть, что тогда рекламировали, скажем...

Сегодня все больше информации, которой невозможно воспользоваться без компьютера

Среди госучреждений основные – Национальный архив и Библиотека конгресса США. Я, кстати, только что провел два часа с представителем Нацархива в Национальном научном фонде США /один из основных источников госфинансирования для научно-исследовательских программ - прим. ИТАР-ТАСС/. Для архива это актуальнейшая проблема. Им каждые 4-8 лет /при смене вашингтонских администраций - прим. ИТАР-ТАСС/ сгружают все, что угодно, - от бумаг до жестких дисков.

 

- И что они со всем этим делают?

- Пока пытаются просто сохранить физические носители. И составляют каталоги информации, которая в них содержится.

Часто им предоставляют просто жесткий диск от компьютера. И они должны, во-первых, определить, на какой операционной системе тот работал. Это само по себе нелегко. Во-вторых, - разобраться, что на нем записано. Составить каталог, чтобы в будущем можно было что-то найти.

И в дополнение ко всему этому надо позаботиться, чтобы в будущем при обращении к этой информации можно было быть уверенным, что она не видоизменялась и остается в первозданном виде. То есть надо уметь не только извлекать файлы с этого диска, но еще и ставить на эти файлы цифровую подпись, чтобы через сто лет по ней можно было проверить аутентичность содержимого.

 

- Кошмар какой-то...

- Действительно кошмар. А у них там целые мешки с жесткими дисками. И каталоги: мол, мешок такой-то поступил из офиса вице-президента в 2012 году…

 

- ...и содержит электронную переписку за период с такого-то по такой-то год...

- Ну да, вроде того. Хотя обычно там ведь не только переписка, а целая куча всевозможного содержимого. И ведь диски становятся все больше. Теперь там уже терабиты, на каждый компьютер! И многое дублируется. Ведь та же электронная записка была разослана, скажем, пятидесяти адресатам, и у каждого теперь сохранилось по копии.

Так что масштаб проблемы колоссален – как в техническом отношении, с точки зрения физического объема, так и с точки зрения политики. Сейчас как раз идут споры о том, какую политику нам принять в индустрии программирования, чтобы максимально повысить вероятность сохранения программного кода и доступности информации.

 

- Кто, на ваш взгляд, в состоянии решить эту проблему? Сама отрасль? Государство? Оба вместе?

- Как раз об этом мы в Национальном научном фонде и говорили. Не могу сказать, что пришли к каким-то выводам, но наблюдения высказали.

Во-первых, – что это сложная проблема. Во-вторых, – что она включает в себя целый ряд различных вопросов, и не все они технические.

Но если обратиться прежде всего к техническим вопросам, то это можно разложить на несколько составных частей. Первая - сохранение битов информации при гарантии того, что они не менялись. Это отдельный вопрос сравнительно с вопросом о том, какая собственно информация заложена в этих битах.

 

- И что, это решаемо?

- Ответ – возможно. Зависит от того, насколько удачно мы сумеем фиксировать, как изначально были записаны эти биты. Вы, возможно, знаете, что в "Маках" при сохранении файла машина записывает определенные фрагменты информации и о том, какая программа создала эти биты. Поэтому потом, когда вызываешь в "Макинтоше" этот файл, она смотрит, к какой программе обратиться и где теперь находится эта программа. Насколько мне известно – вплоть до версии.

В мире Microsoft это заложено в расширения – скажем, .doc, как в документах MS Word.

 

- Хорошо. Значит, биты мы сохранили. Что дальше?

- Мы сохранили биты и данные о том, откуда они взялись. Дальше лично я, если бы мне поручили решать эту проблему, обратился бы к исследовательскому сообществу, изложил бы им проблему и поставил бы перед ними вопрос: какие метаданные нам следует стараться вычленять и сохранять? И это может послужить ориентиром для производителей прикладных программ относительно того, какую информацию им следует выделять.

Затем я бы спросил исследователей: какое описание содержимого было бы достаточным для того, чтобы можно было верно определить, какая программа его создала? А может быть, если уж я настроен особенно амбициозно, - и как мне расширить сохраняемое содержимое, чтобы при необходимости можно было воссоздать программу, способную правильно интерпретировать эти биты.

 

- Получается "метаданные о метаданных о метаданных"...

- Совершенно верно. Несколько уровней информации. Что относится к конкретному устройству? Что к операционной системе? Что к конкретной версии прикладной программы? Все это надо знать.

Концепция метаданных расширяется. И важно, как вы только что сказали, построить иерархию: метаданные о метаданных о метаданных... Чтобы каждая из разных проблем решалась на своем уровне абстракции. Мне ведь не нужно все знать о таблицах, чтобы решить, какая операционная система необходима для работы с одной из них.

Это вот понятие абстракции – очень важное. Надо избегать ненужной детализации. Но при этом при сохранении тех же таблиц не забывать, скажем, и о "меню функций", чтобы потом уметь правильно работать с этими таблицами.

 

- А как Google хранит свою информацию? Чтобы она была доступна через тысячу лет?

- Мы знаем, что она будет для нас доступна, поскольку мы сами изобрели механизмы хранения. Мы берем данные, в основном из интернета, и сохраняем их способом, который сами же создали. То есть наши программы знают, как интерпретировать эту информацию.

 

- То есть, вы хотите сказать, если мы через тысячу лет будем существовать, информация будет доступна. Не будем – так какая нам разница.

- На самом деле разница есть. И я хочу это подчеркнуть. У нас в компании есть философия, которая гласит, что если вы разместили свою информацию в Google, то должны иметь возможность получить ее обратно. Причем в стандартной форме, точнее – в одном из нескольких стандартных форматов.

Важно построить иерархию: метаданные о метаданных о метаданных

Например, если вы создали в Google.doc какой-то текстовый документ или таблицу, то по идее мы должны быть в состоянии его преобразовать в нужный вам формат. Скажем, в Word, Excel или еще что-то.

Наша философия – вы должны быть в состоянии использовать то, что создали у нас, с помощью тех программ, которые вам доступны. Нам это не безразлично.

Мы не обязательно можем решить проблему в целом. Но можем – для данных, которые мы сами собрали или которые были созданы с использованием наших инструментов.

На то, что создано с использованием чужих инструментов, это распространяется лишь в тех случаях, когда мы этим специально озаботились. Мы к этой проблеме подходим прагматично, не обязательно с универсальных позиций. А реальная проблема – универсальная.

 

- Теоретически можно рассуждать о ней сколько угодно. Но практически ее уже сейчас надо решать. Например, после терактов 11 сентября власти прежде всего озаботились тем, чтобы разведывательная информация была в полном объеме доступна для всех, кому положено.

- Верно. Поэтому и пост директора национальной разведки создали.

 

- Да, и они решают поставленную задачу уже сейчас, пусть универсального решения пока и нет. Вот я и спрашиваю: известны ли вам локальные – ведомственные или коммерческие – примеры успешного решения?

- Да нет. Я не думаю, что хоть кто-то решил эту проблему. На самом деле в каждом конкретном случае изыскиваются конкретные решения, наиболее отвечающие поставленной задаче.

Наша философия: если вы разместили информацию в Google, то должны иметь возможность получить ее обратно

И по-прежнему сохраняются проблемы из-за того, что в одной системе информация хранится в одной форме, в другой – в иной, и так далее.

 

- А ведь есть еще и проблема международной совместимости. На ваш взгляд, задача, о которой мы говорим, разрешима в пределах одной страны? Или необходим согласованный международный подход?

- Необходимо серьезное взаимодействие. По целому ряду причин, не последняя из которых – это то, что в разных частях света могут использоваться совершенно различные системы, а между тем в конечном счете вся эта информация нуждается в сохранении.

Конечно, это не означает, что сохранять необходимо все подряд. Но почти в любом целом есть компоненты, которые стоило бы сберечь. И это повсюду, где живут и трудятся люди. Надо если и не сохранять информацию, то хотя бы иметь для этого возможность.

 

- Если решение удастся найти, то оно, на ваш взгляд, должно принадлежать создателю или быть открыто для всех?

- Это должен быть открытый инструмент. Вне всякого сомнения. Если уж надо беречь информацию всего мирового сообщества. К тому же такое решение будет и более долговечным.

 

- Но при этом любое правительство скажет: у нас есть секреты, делиться которыми мы ни с кем не желаем. Если нам и нужен доступ к секретам, то только к чужим...

- Это разные вещи – информация как таковая и способы ее хранения. Метаданные и структура – это форма, а не содержание.

 

- Правильно, но если я хочу держать в секрете содержание, то и форму подбираю такую, чтобы никто не докопался...

- Тут есть такая концепция – безопасность через безвестность. В нашем сообществе все, кто профессионально занимаются вопросами безопасности, знают, что этот подход просто не срабатывает. Если действительно хочешь хранить информацию в тайне от других, без криптографии не обойтись. Разумной альтернативы этому нет.

 

- Ладно, криптография – отдельная тема. А для открытых сведений, как мне кажется, общий вывод из сказанного в том, что традиционный пергамент – и поныне один из лучших способов для сохранения информации в веках...

- Да, это и теперь один из лучших носителей, доступных для человечества. Например, можно себе представить такой вариант исторического развития, при котором наша цивилизация будет уничтожена. Мир без электричества, без компьютеров и всего остального. И тогда для надежного хранения информации понадобится если и не выделанная овечья кожа, то хотя бы качественная бумага.

Пергамент – один из лучших носителей, доступных человечеству

Есть другие, видимо, более оптимистичные варианты будущего. Скажем, гигантские компьютерные системы в космосе: даже если Землю постигнет коллапс, информация не исчезнет. Конечно, если только пришельцы разберутся, как извлекать ее из памяти машин...

 

- О чем еще существенном я вас не спросил?

- Знаете, мне сейчас пришло в голову, что помимо "цифрового пергамента" человечеству не помешал бы новый цифровой Розеттский камень.

Помните, да? На нем была нанесена одна и та же информация на трех разных языках. И поскольку один язык был известен, удалось расшифровать и другие /в том числе древние египетские иероглифы - прим. ИТАР-ТАСС/.

И вот можно себе представить разные варианты одной и той же сегодняшней информации, записанные в разных форматах. Чтобы потом можно было индуктивно – а может, и дедуктивно – определить смысл того или иного более не известного нам формата. Чтобы хотя бы сохранить такую возможность…

 

Андрей Шитов, корр. ИТАР-ТАСС в Вашингтоне


Источник: http://tasstelecom.ru/interview/one/3034

Читать комменты и комментировать

Добавить комментарий / отзыв



Защитный код
Обновить

Винт Серф: Человечеству нужен цифровой Розеттский камень | | 2012-11-08 17:22:00 | | Связь и телекоммуникации | | Человечеству необходим цифровой пергамент – надежный и долговечный способ хранения информации и удобного доступа к ней в эпоху компьютерных технологий. Как рассказал корр. ИТАР-ТАСС в вашингтонском | РэдЛайн, создание сайта, заказать сайт, разработка сайтов, реклама в Интернете, продвижение, маркетинговые исследования, дизайн студия, веб дизайн, раскрутка сайта, создать сайт компании, сделать сайт, создание сайтов, изготовление сайта, обслуживание сайтов, изготовление сайтов, заказать интернет сайт, создать сайт, изготовить сайт, разработка сайта, web студия, создание веб сайта, поддержка сайта, сайт на заказ, сопровождение сайта, дизайн сайта, сайт под ключ, заказ сайта, реклама сайта, хостинг, регистрация доменов, хабаровск, краснодар, москва, комсомольск |
 
Поделиться с друзьями: