Исходный размер 1140x1600

Анализ персонажей франшизы «Гарри Поттер» по данным из фильмов

Для анализа я выбрала датасет Harry Potter Movies Dataset, содержащий информацию, собранную со всех 8ми фильмов саги. Помимо довольно ожидаемых разделов данных, таких как базовая информация о персонажах и транскрипция всех диалогов, в датасет входят также любопытные списки заклинаний и локаций, встретившихся в фильмах.

С помощью датасета я хотела проанализировать личности трех главных героев — Гарри, Рона и Гермионы и выяснить, насколько явно можно проследить особенности и различия их характеров, основываясь на их репликах, использованных заклинаниях и часто посещаемых локациях.

Подготовка

Импортируем необходимы библиотеки, предоставляем доступ к файлам гугл-диска, куда был загружен датасет, загружаем цветовую схему.

big
Исходный размер 1869x268
big
Исходный размер 876x771
big
Исходный размер 730x156

Наиболее часто используемые героями слова

Манера речи и любимые темы для разговора, несомненно, очень хорошо характеризуют персонажа. Начнем с Гарри.

Прочитаем CSV-файлы со списком персонажей и таблицей всех диалогов и выделим все его реплики в единую строку. Чтобы оставить только важные для анализа персонажа слова, с помощью NLTK убираем стоп-слова английского языка, а также знаки препинания и имена персонажей, к которым Гарри часто обращается по имени.

Получаем словарь и визуализируем его как облако слов. Такая визуализация была выбрана как наиболее наглядная в случае анализа именно речи — здесь не так интересны точные цифры применения каждого слова, ведь диалогов за все экранное время было действительно много.

Исходный размер 1484x134
Исходный размер 1481x736
Исходный размер 1477x201
Исходный размер 1175x1175

В первую очередь бросающиеся в глаза слова «think» и «know» — часть часто используемых в английском вводных конструкций речи «я думаю», «я знаю».

«Sir» постоянно использовалось Гарри по отношению ко многим взрослым, в Хогвартсе при обращении к профессорам, дома в приемной семье, и в целом к любым малознакомым мужчинам.

На облаке слов Гарри выделяется имя Волан-де-Морта: его друзья далеко не так часто осмеливались его произносить.

Можно заметить несколько часто используемых Гарри заклинаний: Люмос, Экспеллиармус, Экспекто Патронум, а также упоминание крестражей («Horcrux»).

В целом, лексика, используемая Гарри, довольно нейтральная, с малым количеством эмоционально окрашенных слов.

Теперь очередь Рона.

Для Рона и Гермионы код будет аналогичный, нужно только заменить имя «Harry Potter» на имена каждого из них для получения соответствующих данных их реплик.

Исходный размер 1175x1175

В речи Рона мы видим гораздо больше эмоциональных выражений, а также сленга: «bloody», «brilliant», «blimey», «mate», «wicked», «stupid», «mad», «disgusting».

Выделяется имя домашней крысы Рона — «Scabbers», а также «mum», «dad» и «brother» — он часто упоминает членов семьи и общается с ними.

О своей фобии — пауках («spiders») Рон тоже говорил немало.

Исходный размер 1175x1175

Использование Гермионой таких слов, как «horrible», «wrong», «dangerous» напоминает нам о ее порой проявляющейся критичности, а также о частом беспокойстве за исход всяческих ситуаций.

Имя Волан-де-Морта Гермиона тоже произносила не раз, пусть и меньше, чем Гарри.

Она достаточно часто упоминает своих родителей («parents»), оборотное зелье, приготовлением которого она занималась несколько раз на протяжении фильмов («polyjuice potion»), исключение из школы Хогвартс, которого ужасно опасалась («expelled»). Также выделяется в ее облаке полное имя Рона, по которому она единственная к нему обращается («Ronald»).

Заклинания

Прочитаем CSV-файл, содержащий информацию о заклинаниях. Как можно увидеть ниже, файл содержит помимо прочего информацию о цвете света, который создают некоторые заклинания — можно пометить каждое его собственным цветом на итоговом графике.

Для визуализации была выбрана круговая диаграмма, поскольку на ней хорошо просматривается соотношение долей, и цветовой круг для отображения цветов заклинаний попросту смотрится интересно.

Исходный размер 904x332

Затем из списка слов, произнесенных персонажем, отберем заклинания и посчитаем их частоты.

Исходный размер 896x205

Теперь сопоставляем заклинания с цветами (бесцветные заклинания останутся просто черными). Большинство цветов соответствуют стандартным CSS наименованиям, но для цветов Fiery orange и Scarlet соответственный RGB код оттенков вводился вручную.

Исходный размер 917x370

Выводим круговую диаграмму:

Исходный размер 1347x369
Исходный размер 1222x648
Исходный размер 1120x652
Исходный размер 1124x637

Несколько любопытных выводов:

  1. Рон в фильмах действительно маловато колдовал на глазах зрителей.
  2. Рон и Гарри как минимум единожды использовали одно из запрещенных заклинаний.
  3. Наиболее часто использованное заклинание у Гермионы и Гарри — Люмос.
  4. Самый разнообразный набор заклинаний — у Гарри, и он же колдовал больше всех.
  5. Заклинание, использованное каждым из троих главных героев — Алохомора.

Локации

Было бы интересно узнать, в каких местах (за исключением Хогвартса, где происходит основная масса событий всех фильмов, а потому он будет исключен) чаще всего можно застать каждого из троицы.

Для визуализации была выбрана линейчатая диаграмма, поскольку локаций слишком много, чтобы наглядно отобразить их на круговой диаграмме, и соотношение многочисленных посещений локаций относительно всех вариантов удобнее просматривается именно на линейчатой диаграмме.

Исходный размер 852x349
Исходный размер 973x111
Исходный размер 1046x470
Исходный размер 1304x602
Исходный размер 1317x625
Исходный размер 1318x525

Несколько любопытных выводов:

  1. Все трое провели много времени в штаб-квартире Ордена Феникса, Министерстве Магии и лесу Дин (хотя этот лес посетили лишь в одном из фильмов).
  2. Среди прочих локаций у Гарри выделяется Нора, платформа Девять и Три Четверти, его дом на Тисовой улице.
  3. У Рона — Нора и Министерство Магии.
  4. У Гермионы — Годрикова Впадина и трактир Кабанья голова.
Анализ персонажей франшизы «Гарри Поттер» по данным из фильмов
Проект создан 25.09.2024