Анализ датасета Goodreads на Deziiign

Введение

Я давно пользуюсь Goodreads как обычный читатель: отмечаю прочитанные книги, сохраняю списки «хочу прочитать», смотрю рейтинги и отзывы перед тем, как выбрать следующую книгу. Со временем я заметила, что этот сервис формирует целую экосистему читательских предпочтений и оценок.

В рамках проекта мне стало интересно посмотреть на Goodreads как аналитик: что скрывается за тысячами оценок, отзывов и рейтингов? Какие книги получают самые высокие оценки, зависит ли рейтинг от количества отзывов, какие авторы и издатели представлены чаще всего?

Исходный размер 1280x672

Данные Goodreads особенно интересны тем, что они отражают реальные мнения читателей, а не экспертные или критические оценки. Это делает их живыми, немного субъективными, но при этом очень показательными для анализа массовых вкусов и трендов в литературе.

Для проекта я выбрала открытый датасет с платформы Kaggle, содержащий информацию о книгах Goodreads: рейтинги, количество оценок, авторов, издателей, языки и годы публикации. Эти данные хорошо подходят для исследовательского анализа и визуализации, поскольку позволяют выявлять закономерности, сравнивать категории и анализировать динамику во времени.

Визуализация

Поскольку объектом исследования является платформа Goodreads, было важно, чтобы графики визуально ассоциировались с самим сервисом и воспринимались как единое целое, а не как набор разрозненных диаграмм.

В качестве основы была выбрана фирменная цветовая палитра Goodreads, адаптированная под более яркую и живую подачу.

Для текстового оформления всех визуализаций был выбран антиквенный шрифт с засечками, используемый в дизайне Goodreads; антиква традиционно ассоциируется с печатными книгами и длинным чтением, что делает его особенно уместным в контексте анализа литературной платформы. Использование одного шрифта во всех графиках дополнительно усиливает ощущение стилистической целостности проекта.

Исходный размер 1024x538

Приоритет был отдан тем графикам, которые наилучшим образом соответствуют природе анализируемых данных.

Гистограммы используются для анализа распределений количественных показателей, таких как средний рейтинг книг, поскольку они позволяют наглядно увидеть форму распределения, наличие смещения и концентрацию значений.

Столбчатые диаграммы применяются для сравнения категориальных переменных — авторов, издателей и языков, — так как они обеспечивают хорошую читаемость и позволяют легко сопоставлять группы по количеству наблюдений.

Линейные графики используются для анализа временной динамики, например изменения количества книг и среднего рейтинга по годам, что позволяет выявлять долгосрочные тренды и колебания во времени.

Диаграмма рассеяния с логарифмической шкалой применяется для изучения связи между количеством отзывов и рейтингом, поскольку этот тип графика наиболее информативен для выявления корреляций и работы с сильно скошенными распределениями.

Графики

/ Распределение рейтингов

График показывает распределение средних рейтингов книг в датасете Goodreads. Основная масса значений сосредоточена в диапазоне от примерно 3.5 до 4.5, что указывает на общее преобладание положительных пользовательских оценок. Это типично для платформ с пользовательскими рейтингами, где книги с крайне низкими оценками встречаются реже.

Исходный размер 1184x584

Исходный размер 852x563

/ Топ-10 авторов по количеству книг

На графике представлены авторы, наиболее часто встречающиеся в датасете по количеству опубликованных книг. Показатель отражает число произведений, привязанных к профилю автора, и включает как художественные, так и нехудожественные издания, а также переиздания и сборники. График позволяет сравнить авторов между собой и выявить наиболее продуктивных писателей с точки зрения объёма опубликованных работ

Исходный размер 1184x584

Исходный размер 820x400

/ Связь между количеством отзывов и рейтингом

На графике представлена зависимость между количеством пользовательских отзывов и средним рейтингом книг. По оси количества отзывов используется логарифмическая шкала, что позволяет корректно отобразить данные с большим разбросом значений — от книг с единичными отзывами до крайне популярных изданий с сотнями тысяч оценок.

Основная масса точек формирует плотную горизонтальную полосу в диапазоне рейтингов примерно от 3.5 до 4.2. Это указывает на то, что независимо от уровня популярности книги её средний рейтинг, как правило, остаётся в этом интервале. Явной сильной корреляции между количеством отзывов и рейтингом не наблюдается: книги с большим числом отзывов не обязательно имеют более высокий рейтинг, однако их оценки выглядят более стабильными и менее разбросанными по сравнению с малопопулярными книгами.

Исходный размер 1184x584

Исходный размер 920x403

/ Топ-10 издателей по количеству книг

Данный график демонстрирует издателей, наиболее широко по количеству книг. Лидирующие позиции занимают такие издатели, как Vintage и Penguin Books, что отражает их масштаб и активное присутствие на книжном рынке. Остальные издатели из топ-10 представлены более умеренным количеством книг, при этом разница между ними менее выражена.

Исходный размер 1184x584

Исходный размер 856x400

/ Количество книг по годам (1950–2020)

На графике показана динамика количества книг в датасете по годам публикации начиная с 1950 года. В течение второй половины XX века количество книг остаётся относительно низким и растёт постепенно, без резких колебаний. Начиная с 1990-х годов наблюдается ускорение роста, которое особенно усиливается после 2000 года. Резкий пик в середине 2000-х годов отражает максимальную концентрацию книг в датасете за рассматриваемый период. После этого наблюдается столь же резкое снижение, что, вероятно с особенностями наполнения датасета и ограниченной представленностью более поздних лет. В целом график подчёркивает рост книжного рынка и увеличение объёма данных в эпоху цифровых платформ.

Исходный размер 1184x584

Исходный размер 867x560

/ Средний рейтинг книг по годам

График отражает изменение среднего пользовательского рейтинга книг в зависимости от года публикации. В отличие от количества книг, средний рейтинг остаётся относительно стабильным на протяжении всего рассматриваемого периода и колеблется в узком диапазоне вокруг общего среднего значения. Это указывает на устойчивость пользовательских оценок и отсутствие выраженного временного тренда в восприятии качества книг. Отдельные резкие отклонения от среднего, включая заметное снижение и последующий рост в начале 2010-х годов, могут быть связаны с небольшим количеством наблюдений в отдельных годах. В целом график показывает, что год публикации не оказывает существенного влияния на средний рейтинг книг на платформе Goodreads.

Исходный размер 1184x584

Исходный размер 818x563

/ Распределение книг по языкам

На графике представлено распределение книг по языкам в датасете. Абсолютное доминирование английского языка заметно: количество книг на нём значительно превышает показатели всех остальных языков. Это отражает ориентацию платформы преимущественно на англоязычную аудиторию и издательский рынок. Второе место занимает вариант английского языка en-US, однако его доля существенно меньше по сравнению с общим английским. Остальные языки — испанский (spa), британский английский (en-GB) и французский (fre) — представлены в датасете в значительно меньшем объёме, что указывает на ограниченное языковое разнообразие выборки и возможную смещённость анализа в сторону англоязычных книг.

Исходный размер 1184x584

Исходный размер 819x404

Заключение

В ходе анализа были изучены ключевые характеристики датасета: динамика публикаций по годам, распределение рейтингов, связь между количеством отзывов и средней оценкой, ведущие издатели, а также языковая структура представленных книг. Визуализация данных помогла выявить как ожидаемые закономерности — например, доминирование англоязычных книг и относительную стабильность средних рейтингов, — так и менее очевидные моменты, такие как рост объёма публикаций в определённые периоды. Полученные результаты могут служить основой для более глубокого анализа в будущем — например, изучения жанров, авторов или предпочтений читателей.

Блокнот

Исходный размер 1280x720

Датасет

Основной средой работы стал Google Colab. Обработка и анализ данных выполнялись с помощью библиотеки pandas. Она использовалась для загрузки датасета, очистки данных, агрегаций и вычисления ключевых показателей. Для числовых операций и работы с распределениями применялась библиотека NumPy, которая дополняет pandas и ускоряет вычисления. Визуализация данных была реализована с помощью Matplotlib. Эта библиотека дала полный контроль над внешним видом графиков: цветовой палитрой, шрифтами, фоном, подписями и стилем линий. Благодаря этому удалось выдержать единую визуальную концепцию проекта — антиквенный шрифт, тёплую сепийную палитру и спокойный минималистичный дизайн, который поддерживает восприятие данных и не отвлекает от содержания. Дополнительно использовались стандартные средства Python для работы с файлами и структурой проекта. В совокупности эти инструменты позволили пройти полный цикл анализа данных — от загрузки датасета с Kaggle до интерпретации результатов и подготовки визуально цельной презентации. Нейросеть Gemini применялась для корректировки кода и анализа данных. Изображения в проекте были взяты с платформы Goodreads, обложка является отредактированной вручную иллюстрацией с сайта.