home | login | register | DMCA | contacts | help | donate |      

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
А Б В Г Д Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я


my bookshelf | genres | recommend | rating of books | rating of authors | reviews | new | форум | collections | читалки | авторам | add



Расследование, база данных и механизмы ошибок

Как я стал исследовать сомнительное происхождение знаменитых цитат? Всё началось с того, что в начале девяностых я увлёкся электронными книгами. Уже тогда я понимал, что они способны дёшево и эффективно обеспечить быстрый доступ к мировым знаниям. Появятся огромные цифровые библиотеки, любое произведение станет общественным достоянием, а книги можно будет распространять по интернету по низкой цене — представив всё это, я загорелся желанием больше узнать о возможном применении таких технологий.

Между тем в 1993 году пионер в области электронного книгоиздания Брэд Темплтон выпустил принципиально новый компакт-диск, а именно антологию произведений, номинированных на премии «Хьюго» и «Небьюла», высшие награды в области научной фантастики. Сборник включал пять романов и множество рассказов. На тот момент это была первая электронная книга с текстами современных авторов. Кстати, стоил тот диск почти 30 долларов — на эти деньги сегодня можно купить книгу в твёрдом переплёте. Новинка была рассчитана в первую очередь на продвинутых поклонников научной фантастики. Будучи одним из них, я не устоял перед соблазном и купил заветный диск в преддверии цифровой эпохи. Тем не менее проект Темплтона далеко опередил своё время, и поэтому, к сожалению, так и не нашёл отклика в обществе.

В начале 2000-х я открыл для себя сайт TeleRead, посвящённый электронной литературе. Сначала я просто читал и комментировал записи, а затем по просьбе основателя Дэвида Ротмана стал сам писать статьи. Ротман одним из первых предложил идею создания «национальной цифровой библиотеки с большой базой данных» и более десяти лет продвигал её в журнале Computerworld и других периодических изданиях. Я был рад наконец встретить человека, разделяющего моё мнение о колоссальном потенциале электронных книг.

Вскоре оказалось, что ту же самую цель преследовал Ларри Пейдж, выпускник Стэнфордского университета и сооснователь Google. Он, как и Дэвид, грезил о появлении цифровой библиотеки, где хранились бы все книги на свете, с функцией поиска нужного произведения. Со временем у него появилась возможность воплотить эту мечту. В Google разработали устройства, способные сканировать целые тома с помощью нескольких камер и датчиков. В 2002 году аппараты заработали на полную мощность. Пейдж начал с Мичиганского университета, где получал высшее образование, а затем взялся за крупнейшие исследовательские библиотеки в США и Великобритании. Сегодня в базе данных Google Books насчитывается более 30 миллионов книг.

Очень скоро фантазия стала реальностью. Несмотря на то, что базу данных угрожали заблокировать за нарушение авторских прав, библиотека будущего всё-таки увидела свет. Я стал размышлять над тем, как доказать людям ценность этого изобретения и показать его возможности. С чего начать, если перед вами — вся языковая история? Например, искать слова и фразы, которые помогли бы установить связь между цитатами. Но что можно узнать?

С целью проверить эффективность системы поиска, я решил изучить историю происхождения проклятия, которое лишь звучит как благословение:

Чтоб ты жил в интересные времена!

Как раз в тему, не правда ли? В 1966 году Роберт Кеннеди употребил, как он сам выразился, «китайское проклятие» во время публичного выступления в Кейптаунском университете. Другие просто называли высказывание «древним». Недавно оно появилось в автобиографии Хиллари Клинтон «Живая история» (Living History).

Приступив к исследованию в 2007 году, я понял, что многие уже пытались узнать происхождение этой фразы до меня. Редакторы «Википедии» создали обсуждение, где датировали источник 1950 годом. Я подумал: если мне удастся доказать, что высказывание появилось раньше 1930 года, я напишу статью для TeleRead о потенциале и эффективности поисковой системы Google Books. Потребовалась всего пара кликов. Выяснилось, фраза упоминалась в литературном сборнике «Удивительная научная фантастика» (Astounding Science Fiction) ещё в 1930 году. Неужели «Википедия» в подмётки не годится? Конечно же, нет. Мой тернистый путь только начался. Процесс поиска в огромных текстовых базах данных наподобие Google Books гораздо сложнее. Оказалось, что рассказ Данкана Монро «Разворот» (U-Turn), в котором система обнаружила совпадение, был на самом деле опубликован в 1950 году. Это меня серьёзно озадачило. Почему в Google Books указана неверная дата? Дело в строгих ограничениях, наложенных на цифровую библиотеку в связи с законом об авторском праве: он по-прежнему распространялся на интересующий меня выпуск, поэтому отображался не весь текст, а лишь фрагменты в виде фотокопии. В конце концов я узнал, что серию «Удивительная научная фантастика» стали выпускать в 1930-м, поэтому база данных ошибочно присвоила этот год многим выпускам, не учитывая реальную дату публикации (подобного рода ошибки часто встречались в Google Books в 2007 году, однако со временем ситуация заметно улучшилась).

Я отбросил неподходящие варианты и отобрал несколько источников, в том числе произведение «Американский персонаж» (The American Character) Дениса Уильяма Брогана, опубликованное в 1944 году. На этот раз я столкнулся с другим типом ошибок: Google Books заметила совпадение на странице 169, однако в книге, согласно метаданным, было всего 168 страниц. Я сходил в ближайшую библиотеку и взял печатное издание 1956 года, но в нём выражения не было вовсе! Тогда я отправился в другую библиотеку за оригинальным изданием 1944 года. На странице 169 была напечатана та самая фраза:

Как мне сказали, одно из самых страшных китайских проклятий — пожелать врагу «жить в интересные времена». Мы живём в очень интересное время, и нет никакой простой формулы, которая позволила бы сделать его ещё лучше.

Объединив результаты исследования, я с гордостью опубликовал статью в TeleRead под названием «Правда ли, что знаменитое „древнее китайское проклятие“ на самом деле появилось в 1950-м году? Расследование с помощью поисковой системы Google Books».

В ходе работы я усвоил четыре важных урока:

1. База данных Google Books — чрезвычайно мощный и полезный инструмент для исследователей.

2. Иногда в Google Books указаны неверные даты и другие элементы метаданных.

3. В ходе исправлений и дополнений книги при перевыпуске может измениться дата публикации. Достоверные сведения о каждом издании нужно собирать самостоятельно.

4. Если в Google Books отображается не весь текст, а только фрагмент, необходимо проверить полноту и точность представленной цитаты в печатной версии книги.

Я наивно полагал, что публикацией цитаты 1944-го года положил начало движению по сбору общедоступных знаний. В целом я был доволен первыми плодами работы. Именно уверенный старт отчасти послужил тому, что я стал ИЦ — «Исследователем цитат» (The Quote Investigator). Другим толчком стало совершенно неожиданное событие.

Мою статью в блоге прочитал и прокомментировал Фред Шапиро, редактор «Йельской книги цитат» (The Yale Book of Quotations) — пожалуй, самого авторитетного на сегодняшний день сборника знаменитых высказываний. Фред одним из первых стал использовать крупные базы текстовых данных, где хранятся книги, журналы, газеты и брошюры, чтобы исследовать происхождение цитат. Он отметил, что в «Книге» есть то самое проклятие, причём самое раннее упоминание датируется 1939 годом. Неловко вышло: мне казалось, что хоть один из редакторов статьи на «Википедии» обращался к таким источникам, как «Известные цитаты Бартлетта» (Bartlett’s Familiar Quotations) или «Словарь цитат Оксфордского университета» (Oxford Dictionary of Quotations), но до этого никто не додумался.

Я приобрёл «Книгу цитат Йельского университета» и принялся штудировать статьи. База данных Google Books по-прежнему была полезна, однако я решил опираться не только на неё, но и на лучшие выпущенные в бумажном виде справочники. Следующую статью для TeleRead я назвал «Поиск в Google Books — мощный инструмент для исследования происхождения высказываний». В базе данных я нашёл совпадения по крылатым фразам «Нельзя сделать омлет, не разбив яиц» и «Операция прошла успешно, но пациент умер» — нужно же было добиться хоть какого-нибудь результата.

Система поиска Google Books предложила мне книгу 1856 года — второй том «Дневников британской армии» (Journal of Adventures with the British Army). Её автор Джордж Кавендиш Тейлор обсуждает различные боевые стратегии и говорит об одной из них, довольно кровавой:

Конечно, наши потери могли бы быть куда более серьёзными, но и наш успех был бы тогда более полным. Как заметил Пелиссье, «нельзя сделать омлет, не разбив яиц».

В «Британской энциклопедии» написано, что Пелиссье был французским генералом, отличившимся в ходе завоевания Алжира. Кроме того, он был последним французским полководцем во время Крымской войны.

Что касается второй цитаты (об операции), я нашёл похожее высказывание в «Руководстве по оперативной хирургии» 1887 года:

Если обнаружено повреждение, которое само по себе угрожает жизни пациента, необходимо отложить операцию. В этом случае сатирическое выражение «Операция прошла успешно, но пациент скончался» останется всего лишь шуткой.

Я стал учиться ходить по следам. Расширил свой арсенал с помощью таких газетных баз данных, как GenealogyBank и Newspaper Archive. Первоначально они были созданы для историков и генеалогов, но оказались бесценным подспорьем и для меня. Затем я подписался на почтовые рассылки для лингвистов и библиотекарей. Начал пользоваться межбиблиотечным абонементом, чтобы расстояние больше не было помехой, а также уговорил родных, друзей и коллег завести читательские билеты в крупнейших научных библиотеках США.

Мои изыскания превращались понемногу в захватившее меня хобби.

Наконец, в 2010 году я запустил сайт «Исследователь цитат» (Quote Investigator) и стал уделять исследованию по нескольку часов в день. Использование поисковых систем в интернете для изучения цитат может не только приносить радость открытия, но и подчас вызывать раздражение. Поисковые системы содержат битые ссылки, повторяющиеся тексты и неполные данные. Среднестатистический пользователь вряд ли преодолеет эти препятствия, поэтому неудивительно, что подобные ошибки распространяются так быстро. Многие из тех, кто пытался докопаться до истины, сталкивались с какофонией в Сети. Чаще всего точные данные попросту тонут в море искажений. Плюс моего сайта в том, что он помогает отделить зёрна от плевел. В этой книге собраны многочисленные исследования, однако я хотел рассказать не только о них, но и о том, почему возникает путаница при указании автора цитаты. Я называю эти причины «механизмами ошибок». Ниже привожу краткое описание каждого механизма (обратите внимание на то, что зачастую история цитаты включает в себя сразу несколько механизмов).


* * * | Они этого не говорили. Изречения знаменитостей: правда и вымысел | Синтез и упрощение