Big data of the Babylonian library
Table of contents
Share
Metrics
Big data of the Babylonian library
Annotation
PII
S258770110007559-6-1
DOI
10.18254/S258770110007559-6
Publication type
Article
Status
Published
Authors
Natalya Derzhavina 
Occupation: Bachelor of Philosophy, Laboratory Assistant
Affiliation: State Academic University of Humanities (GAUGN)
Address: Moscow, 119049, Maronovsky lane, 26
Edition
Abstract

The main goal of this article is to raise the question of the concept of Big data itself and the impact of this concept on various aspects of human cognition. The article is an attempt to comprehend the approaches to data processing and their relationship with each other. An assumption is made that the idea of Big data is embodied, in particular, in the image of the Babylonian library from the story of the same name by Jorge Luis Borges.

Keywords
Big data, cognition, information, Babylonian library, artificial intelligence, philosophy of science, philosophy of knowledge, cognitive science
Received
27.08.2019
Date of publication
18.11.2019
Number of characters
20242
Number of purchasers
1
Views
36
Readers community rating
0.0 (0 votes)
Cite Download pdf

To download PDF you should sign in

1 Человек, как и все живое, нуждается в информации для жизнедеятельности. Эта информация, присваиваемая субъектом, носит уникальный характер, насколько уникальной является ситуация каждого конкретного индивида, и чаще всего используется для личного употребления. Она поступает, например, от органов чувств, или формируется в результате несложной интеллектуальной обработки таких первичных чувственных данных. И поскольку эти данные чаще всего необходимы для принятия решений здесь и сейчас, постольку они утрачиваются, как только выполняют свою функцию.
2 Человечество, в то же время, накапливает информацию и на внешних носителях. И, несмотря на то, что и она может быть утрачена, как, например, в случае с Александрийской библиотекой, количество накапливаемой в таком виде информации в исторической перспективе увеличивается. Экспоненциальный же рост количества информации становится реальностью тогда, когда доминантой становится не ее сохранение (в том числе в веках), а ее обработка и генерация новой информации.
3 Вместе с тем, как объемы информации на носителях, переводимые в доступную форму (символьную, образную и проч.), растут, человеку все сложнее усваивать их, во-первых, из-за того, что с объемами растет необходимая скорость потребления информации, и, во-вторых, из-за их нередко противоречивого характера. Результатом этого, в конечном счете, становится синдром информационной усталости. Он выражается в том, что человек утрачивает способность самостоятельно справиться с теми объемами поступающей и генерируемой информации, которые требуются ему для принятия решений. Британский психолог и нейрофизиолог Дэвид Льюис предложил этот термин для обозначения такого психического состояния человека, при котором повышается вероятность принятия ошибочных решений, возникающих на почве стресса, вызванного переизбытком поступающей информации. Он отмечает: «Суть информационной перегрузки состоит в том, что количество поступающей полезной информации превосходит объективные возможности ее восприятия человеком. Полезной мы называем ту информацию, которая необходима для решения задач, обеспечивающих жизнедеятельность личности или социальной организации»1. Возможность принятия решения и его правильность – критерии, разделяющие достаточность, избыток и недостаток информации, которой располагает индивид.
1. Еляков А.Д. Информационная перегрузка людей // Социологические исследования. 2005. № 5. C. 114.
4 Недостаток информации, как отмечает доктор философских наук А.Д, Еляков, во многом так же неблагоприятен, как и ее избыток, и оба эти состояния оказываются тесно связанными друг с другом. В частности, потому, что в больших объемах информации сложнее отыскать то, что необходимо: «Нет универсального навигатора в бездонном и бескрайнем океане информации. Библиотеки, базы данных, иные хранилища в силу супер-масштабов превращаются в колоссальные кладбища информации»2.
2. Еляков А.Д. Дефицит и избыток информации в современном социуме // Социологические исследования. 2010. № 12. С. 109.
5 И здесь становится важным понять, как мы расцениваем доступный нам внешний инструментарий, помогающий накапливать информацию безлично, т.е. бессубъектно. Если принять, что такое внешнее накопление – это продолжение и расширение возможностей субъективной абсорбции знания за счет переноса части информации за пределы непосредственно сознания, то человек имеет неплохой потенциал, чтобы справиться с вызовами, которые скрывает в себе информационное общество. Если задача предполагает многоступенчатое решение или содержит множество элементов, ее можно решить с помощью «вынесения» данных условия на внешний носитель.
6 Нельзя не отметить также и то обстоятельство, что субъект в то же время стремится потреблять информацию в возможно больших количествах (отсюда растущие показатели медиазависимости населения, например, согласно исследованию Т.С. Спиркиной3, изложенному в статье «Исследование динамики Интернет-зависимости», интернет-аддикцияя формируется так же, как и прочие формы зависимостей, хотя, конечно, имеет свою специфику) и в принципе, будучи социальным животным, имеет потребность в общении, т.е. в обмене информацией. Однако человеческий мозг не способен с приемлемой скоростью эффективно обрабатывать большие объемы данных. Это связано с тем, что в оперативных процессах человеческий мозг может удерживать весьма ограниченное количество объектов. Профессор психологии Принстонского университета Джордж Миллер в статье «Магическое число семь плюс-минус два» замечал, что объем непосредственной памяти накладывает серьезные ограничения на количество информации, которое мы можем получать, обрабатывать и запоминать («…the span of immediate memory impose severe limitations on the amount of information that we are able to receive, process, and remember») 4.
3. Спиркина Т.С. Исследование динамики Интернет-зависимости // Вестн. Том. гос. ун-та. 2008. №311. С. 159-161.

4. George A. Miller.  The Magical Number Seven, Plus or Minus Two . // The Psychological Review, 1956, vol. 63, pp. 81-97. [Эл. доступ] URL: >>>> [Дата обращения: 01.10.2019].
7 Более того, не все выводы, к которым приходит человек, в принципе задерживаются в его мозге, поскольку там происходит фильтрация практически всего объема входящей информации, если эта информация «повисает в воздухе», то есть не сопрягается с уже имеющейся. Забывание, кроме того, может происходить и для сопряженной информации при определенных условиях. Вынесение мыслимого за пределы мозга и обличение его, например, в символьную (письменную), образную и т.д. форму до определенного времени значительно расширяло потенциал хранения информации, но не ее обработки. Кроме того, результат обработки – это новые данные, которые также нуждаются в том, чтобы быть зафиксированными. Чем более связанной получается цепочка, тем более надежно сохранится в памяти то, что было получено в результате изысканий, однако обработка все также происходит в мозге, а значит, количество учитываемых параметров (операторов) в среднем не превышает семи. Это большая сложность, которая налагает серьезные ограничения на эффективность мозга как вычислительного инструмента.
8 Увеличение числа каналов, через которые к человеку поступает разнородная информация сегодня, приводит к увеличению данных, которые не соотносятся друг с другом напрямую, и их соотнесение требует специальной работы. Однако такая работа производится преимущественно в тех областях, где новое знание может коррелировать с уже имеющимися у субъекта структурами знания, и в тех случаях, когда такая работа считается субъектом полезной, т.е. когда принимается решение (сознательно или нет) о ее полезности. Информация важна не столько своим наличием, сколько потенциалом для производства новой информации. В таком случае, переизбыток информации должен быть делегирован системам, которые существенно реже делают ошибки, поскольку именно ошибки являются критерием переизбытка информации. Согласно замечанию А.Д. Елякова, «следует учитывать и изменения в современной информационной среде, которая становится все более насыщенной сообщениями. К сожалению, лишь малая их часть представлена ценной информацией. Подавляющая часть – это ненужные данные, проще говоря – информационный хлам, мусор, отходы»5.
5. Еляков А.Д. Дефицит и избыток информации в современном социуме // Социологические исследования. 2010. № 12. С. 111.
9 Идея об избыточном, бесконечно сохраняющемся знании воплотилась, в частности, в образе так называемой Вавилонской библиотеке. Этот термин возник благодаря одноименному литературному произведению, опубликованному в середине ХХ века. Первоначально это философский полумистический рассказ аргентинского писателя и мыслителя Хорхе Луиса Борхеса, рисующий перед нами образ библиотеки с бесконечным числом книг в ней. Нас в этом рассказе интересует, прежде всего, сама концепция Библиотеки. Примечательность книг Вавилонской библиотеки (далее в тексте может сокращаться до ВБ), согласно Борхесу, заключается в том, что внутри них обнаруживается набор символов, чаще всего не несущий никакой смысловой нагрузки. Это связано с принципом, по которому заполнены книги: «… все книги, как бы различны они ни были, состоят из одних и тех же элементов: расстояния между строками и буквами, точки, запятой, двадцати двух букв алфавита «…» во всей огромной Библиотеке нет двух одинаковых книг»6. Все возможные сочетания знаков, как считал Борхес, образуют бесконечное разнообразие содержания книг библиотеки.
6. Борхес Х.Л. Коллекция (Сборник рассказов) / СПб. "Северо-Запад". 1992. [Эл. доступ] URL: >>>> [Дата обращения: 01.10.2019].
10 Стоит отметить, что впоследствии в рассказе была выявлена неточность: число комбинаций оказалось конечным. Этому способствовали некоторые ограничения, налагаемые на построение самой библиотеки и содержание книг: например, там не может быть двух одинаковых книг, из чего вытекает естественное ограничение на «длину слова», а также отсутствуют цифры и прочие служебные знаки. Из этого следует, что подсчитать общее число шкафов, полок, книг, страниц и, в конечном счете, комбинаций знаков, вполне реально, оно будет конечным, несмотря на колоссальную величину.
11 Хотя в этом случае приходится говорить о величинах, превышающих размеры фиксируемой вселенной, мы все же имеем дело не с бесконечностью, а с неорганизованной, хаотической и бессистемной, но все-таки ограниченной заданностью. Тем не менее, несмотря на конечность, такие объемы информации ни с чем не соизмеримы. Вавилонская библиотека в этом случае представляет собой некоторый массив данных, причем константный уже в силу того, что он исчерпывает весь лимит наших знаковых возможностей, ограниченных правилами, введенными Борхесом. Это вкратце то, что необходимо знать о Библиотеке. Однако такая модель порождает ряд трудностей. Уже было указано, что информации в Библиотеке настолько много, что Библиотека едва ли реализуема практически. Помимо этого, она содержит в себе такие комбинации символов, которые не несут смысловой нагрузки и их полезность в связи с этим крайне сомнительна.
12 Впрочем, есть и другая модель, появившаяся позднее и уже нашедшая себе применение в реальности – модель Big data. Следует отметить, что большая часть исследований в области Big data, так или иначе, практикоориентированы, практически все из них посвящены именно прикладному аспекту (построению алгоритмов, созданию математических моделей, внутренней логике вычислительных операций и т.д.). В данном исследовании предпринята попытка рассмотреть, что представляет собой Big data концептуально и в связи с этим технический вопрос по большей части останется в стороне.
13 Следует особо отметить то обстоятельство, что, как и в случае с понятием информации, на сегодняшний день не существует общепринятого определения Big data. Это в значительной степени усложняет поиск решения поставленной проблемы, но все же это не является непреодолимым препятствием. Например, о БД пишут так: «Big Data – технологическая культура киберпространства, направленная на формирование динамически развивающейся инфраструктуры киберфизической экосистемы планеты путем семантической структуризации больших потоков (объемов) гетерогенных данных на основе использования интеллектуальных быстродействующих специализированных облачных фильтров параллельного мониторинга и метрического анализа извлекаемой информации для online управления физическими и виртуальными процессами»7. С другой стороны, БД можно определить как «информационные возможности, характеризующиеся большим объемом, скоростью и гетерогенностью и требующие специфических технологий и аналитических методов для их трансформации в ценность»8.
7. Хаханов В.И., Обризан В.И., Мищенко А.С., Tamer Bani Amer Метрика для анализа big data // Радиоэлектроника и информатика. 2014. №2 (65). C. 26.

8. Карчагин Е.В. Эпистемология и эвристические возможности Big Data // Концепт. 2015. №12. С. 2. [Эл. доступ] URL: >>>> [Дата обращения: 01.10.2019].
14 Наиболее расхожее определение, которое можно собрать на основе того, что о Big data пишут специалисты (data scientists), выглядит примерно следующим образом: это поток информации в структурированной или неструктурированной форме, возрастающий по экспоненте в течение времени и требующий обработки. «Популярное определение Big Data включает в себя несколько V-концептов. Сначала авторы указывали на три такие V-характеристики: volume, velocity, variety, где volume – большой объем данных, который нецелесообразно или неудобно обрабатывать на одной машине, velocity – скорость поступления данных, а variety – гетерогенность данных»9. Для уточнения иногда добавляют объемы этого потока, однако это не столь важно само по себе, хотя и проясняет особенность Big data, а именно, что человек не в состоянии справляться с такими массивами данных с той же или хотя бы сопоставимой скоростью и эффективностью, с которой справляются с ними вычислительные машины, «скорость трактуется не только как скорость прироста, но и как скорость обновления ранее полученных значений, что неизбежно влечёт за собой необходимость высокоскоростной обработки и получения результатов. В пределе – в реальном времени»10.
9. Карчагин Е.В. Эпистемология и эвристические возможности Big Data // Концепт. 2015. №12. С. 2. [Эл. доступ] URL: >>>> [Дата обращения: 01.10.2019].

10. Сухобоков А.А., Лахвич Д.С. Влияние инструментария Big Data на развитие научных дисциплин, связанных с моделированием // Наука и Образование. МГТУ им. Н.Э. Баумана. Электрон. журн. 2015. № 03. С. 208. [Дата обращения: 01.10.2019].
15 В случае с Big data, если не указано иное, здесь подразумевается как прямое значение термина – большие данные, так и специфические способы, и инструменты их обработки: те самые технические и прикладные знания с одной стороны, и технологии и физический инструментарий – с другой. Таким образом, приняв за отправную точку тезис о том, что Big data – это поток определенным образом закодированной информации, т.е. в конечном счете, это некоторый набор символов/знаков, записанных в установленном порядке, то модель Big data представляется ближайшим аналогом Вавилонской библиотеки.
16 Однако между концептами Вавилонской библиотеки и Big data существуют значительные различия. Последняя нестатична, она подразумевает приращение данных, тогда как для Вавилонской библиотеки это исключено. Обе эти системы можно условно сравнить с концепциями Гераклита и Парменида – непрерывный поток и изменение против неподвижного вечного бытия. Другое существенное различие – это обработка данных, точнее, возможность обрабатывать их таким образом, чтобы получать «знание» или «прибавочное знание». Поскольку Вавилонская библиотека уже содержит в себе все возможное знание, сам факт ее существования сводит обработку данных к перебору всех книг в надежде отыскать нечто полезное для конкретного субъекта.
17 Таковы в общих чертах точки сближения и расхождения концептов Big data и ВБ. Здесь важно отметить, что общность этих концептов восходит к их фундаментальным основаниям. Big data и ВБ – это разные подходы к информации, которые, однако, отвечают на один и тот же вызов: как нам извлечь пользу из массива данных настолько огромного, что человек не в силах обработать его традиционными методами в обозримом времени.
18 Что же касается модели ВБ, она, несмотря на свой отвлеченный характер, дает нам представление о том, что есть в своем пределе Big data, если понимать ее только как возрастающий набор данных без инструментов их обработки. Предел этот недостижим, и достижение его, в общем-то, не требуется по ряду причин. Поэтому уже сейчас накопление данных должно быть сопряжено с их структуризацией и обработкой. Инструменты в данном случае – оправданное усложнение: если отсекать заведомо незначимые данные еще на стадии накопления, мы сможем значительно сэкономить ресурсы накопителей, с одной стороны, и сократить время на обработку, с другой. Big data делает возможным постепенное извлечение значимой информации из общего массива поступающих разрозненных данных, и это один из вызовов, с которыми мы сталкиваемся при обращении к этой технологии. Здесь стоит пояснить, что под словом значимость подразумевается, во-первых, осмысленность, или лучше сказать «небессмысленность», и, во-вторых, истинность извлекаемой информации. Отсюда и две проблемы, которые необходимо решать как Big data, так и ВБ: проблема смысла и проблема истины. Таким образом, вполне техническая и прикладная область оказывается основательно включенной в сферу сугубо философских изысканий и уже с этой точки зрения может быть рассмотрена в дальнейшем уже в большей степени как теоретический, а не как практический объект. Тогда как осмысленность требует включенности в контекст, истинность по-прежнему требует от нас ответа на вопрос о том, что же будет считаться ее критерием. В конечном счете, все эти вопросы сводятся к вопросу о том, каково целеполагание/назначение Big data? И, что не менее важно, кто задает это целеполагание? «Одна из основных трудностей заключается в выявлении нужной субъекту информации. Если у пользователя нет критериев в ее выборе, ему не поможет никакой компьютер»11. Это вопрос о концептуальной природе Big data, и от выбранного ответа зависит весь характер дальнейшего его применения. С одной стороны, Big data является набором данных и инструментом работы с ними. Тогда целеполагание, постановка задачи, ложится на плечи человека. Но в этом случае возникает проблема, о которой подробнее будет написано далее. Сейчас достаточно сказать о том, что человек может ошибаться в целеполагании, что регулярно и демонстрирует. С другой стороны, если мы хотим исключить негативный человеческий фактор, нам остается возложить целеполагание на ЭВМ. Но и здесь есть трудности, самая очевидная из которых – превращение Big data из своеобразной «вещи для нас» в недоступную нам, а значит и бесполезную «вещь в себе».
11. Еляков А.Д. Информационная перегрузка людей // Социологические исследования. 2005. № 5. С. 117.
19 И с этим связана третья проблема, о которой нельзя не сказать, хотя она относится, скорее, к области антропологии, нежели к области технологий. Это интерпретация получаемого знания, и, к сожалению, проблема эта настолько велика, что в настоящем исследовании не представляется возможным в полной мере отразить все возможные аспекты, в связи с чем в данной статье придется пройтись лишь по самым ее верхам и парой штрихов наметить только некоторые черты.
20 Один из аспектов, в частности, – проблема многозначности. Она в равной степени стоит и перед ВБ, и перед Big data, потому что любая закодированная информация, а символьная информация – это, безусловно, код, может быть по-разному интерпретирована субъектом. Если в некоторых случаях это не критично, то в некоторых – может стать большой проблемой, связанной в немалой степени с возможностями субъекта в интерпретации. Иными словами, насколько человек интеллектуально готов принять полученный результат вычислений, при условии, что перепроверка самого хода вычислений в глобальных масштабах невозможна.
21 Трудности, сопряженные с извлечением информации из Big data, связаны с тем, что, если незначимые данные будут отсеяны в результате обработки общего массива данных, мы можем потерять среди них значимые, например, при неправильной постановке задачи. Иными словами, можно сформулировать эту проблему как необходимость наличия неких инструментов, способных отделить «зёрна» от «плевел» что неминуемо ставит нас перед следующей более фундаментальной задачей – определить, что есть «зерна» а что есть «плевела». Ясно, что нас интересует не столько количественный рост объема данных, сколько качественный прирост полезной и значимой информации, и в конечном счете – истинного знания. Трудность в том, что даже новейшие способы обработки данных, типа Big data, не способны приблизить нас к ответу на вопрос о сущности истины. Это, прежде всего, сопряжено с проблемой неконстантности субъекта. ВБ, как избыточное хранилище, содержит в себе истинное знание с неизбежностью, вне зависимости от того, воспринимаем мы его как истинное или нет. С другой стороны, машинная обработка не исключает ошибок, «большие массивы данных могут оказаться недостоверными из-за отсутствия связи между информационными элементами»12, и потому требует проверяющей инстанции – человека. Сложность не в том, что машина, хоть и обладающая куда большей, чем человеческая, точностью, может допускать ошибки, а в том, что для полного их исключения человеку необходимо проверять результаты, а значит, брать на себя роль арбитра. Из этого следует, что мы должны уже знать необходимый результат, или у нас должен быть некоторый критерий, который позволит нам определить истинность полученного знания.
12. Феномен big data // Век качества. 2014. №4. С. 56. [Эл. доступ] URL: >>>> [Дата обращения: 01.10.2019].
22 Опираясь на небезосновательное представление Хорхе Луиса Борхеса о существовании Вавилонской библиотеки «ab aeterno», мы должны принять, что уже во времена Птолемея в ВБ хранилась информация о гелиоцентрических механизмах движения внутри Солнечной системы. Однако если бы во времена Птолемея кто-либо добрался до этого знания, оно само по себе среди массы бессмысленных символов не было бы распознано как истинное. Копернику, если будет позволено использовать такую метафору, удалось отыскать книгу, где помимо прочего гелиоцентризму было дано основание. Ему не просто довелось встретить объяснение этому, но и он сам был готов принять это объяснение. В то же время, в ВБ много «мусора», потому что явно не все, что там есть, может быть и будет распознано в дальнейшем как истинное, даже если предположить, что в отношении многих знаний мы сейчас столь же не готовы к их открытию, как Птолемей к гелиоцентризму. Это само собой вытекает из того обстоятельства, что в ВБ, помимо бессмысленных комбинаций знаков, которым может быть однажды придано некоторое значение, делающее их осмысленными и даже истинными, мы тем не менее всегда будем иметь там и нечто полностью противоречащее истинному знанию, то есть знание заведомо ложное.

References

1. George A. Miller. The Magical Number Seven, Plus or Minus Two. // The

2. Psychological Review, 1956, vol. 63, pp. 81-97. [El. dostup] URL:

3. http://psychclassics.yorku.ca/Miller [Data obrashcheniya: 01.10.2019].

4. Borhes H.L. Kollekciya (Sbornik rasskazov) / SPb. "Severo-Zapad". 1992. [El.

5. dostup] URL: http://lib.ru/BORHES/kniga.txt_with-big-pictures.html [Data obrashcheniya: 01.10.2019].

6. Elyakov A.D. Deficit i izbytok informacii v sovremennom sociume //

7. Sociologicheskie issledovaniya. 2010. ¹ 12. S. 107-114.

8. Elyakov A.D. Informacionnaya peregruzka lyudej // Sociologicheskie issledovaniya. 2005. ¹ 5. S. 114-121.

9. Karchagin E.V. Epistemologiya i evristicheskie vozmozhnosti Big Data // Koncept. 2015. ¹12. [El. dostup] URL: https://cyberleninka.ru/article/n/epistemologiya-i-

10. evristicheskie-vozmozhnosti-big-data [Data obrashcheniya: 01.10.2019].

11. Spirkina T.S. Issledovanie dinamiki Internet-zavisimosti // Vestn. Tom. gos.

12. un-ta. 2008. ¹ 311. S. 159-161.

13. Suhobokov A.A., Lahvich D.S. Vliyanie instrumentariya Big Data na razvitie

14. nauchnyh disciplin, svyazannyh s modelirovaniem // Nauka i Obrazovanie. MGTU im. N.E.

15. Baumana. Elektron. zhurn. 2015. ¹ 03. S. 207–240. [Data obrashcheniya: 01.10.2019].

16. Fenomen big data // Vek kachestva. 2014. ¹4. [El. dostup] URL:

17. https://cyberleninka.ru/article/n/fenomen-big-data [Data obrashcheniya: 01.10.2019].

18. Hahanov V.I., Obrizan V.I., Mishchenko A.S., Tamer Bani Amer Metrika dlya analiza big data // Radioelektronika i informatika. 2014. ¹2 (65). C 26-29.