Как самостоятельно выучить Python для анализа данных

Самый лучший путь, это прочитать книгу PYTHON И АНАЛИЗ ДАННЫХ, так как информация там структурирована. Скачать ее можно по ссылкам в статье. Но данная книга не подойдет для совсем новичков в PYTHON.

В пособии рассмотрены основные части языка Python, касающиеся форматирования, изменения и обработки данных. С этой позиции можно сказать, что это своеобразный экскурс в разработку научных приложений на базе Python. Здесь представлена информация о различных библиотеках, которые нужны, чтобы решать все задачи, связанные с анализом данных. Уделяется внимание визуализации полученной информации, решению задач, которые могут возникать в разных сферах (экономике, социальных науках и др.). Автор приводит массу практических примеров, дает иллюстрации, скриншоты, что облегчает понимание информации. Книга подойдет тем, кто только недавно начал заниматься аналитикой и, в частности, изучать Python, а также программистам, которые уже давно с ним знакомы.

Задача анализа данных — собрать, исследовать, очистить и преобразовать данные в наглядные графики. Так человек видит картину происходящего и понимает, какие действия предпринять. Для анализа используются разные инструменты: Excel, Google-таблицы, BI-системы и языки программирования.

Языки программирования предпочтительнее. С их помощью данные обрабатываются быстрее и можно автоматизировать выполнение большинства задач, которые в Excel и Google-таблицах выполняются вручную.

Для анализа данных мы советуем использовать язык программирования Python.

Почему Python

Это популярный язык. Python — распространенный язык программирования. Поэтому нетрудно найти сообщества специалистов, которые используют его в работе. Возьмем для примера сообществоStackoverflow. Там вы найдете обучающие материалы, фрагменты кода и способы исправления распространенных ошибок, а участники сообщества всегда помогут советом.

Python для анализа данных один из самых распространенных языков программирования

Python занимает четвертое место по популярности среди языков программирования. Источник: TIOBE

Легко освоить. Синтаксис Python хорошо продуман, поэтому по сравнению с другими языками требуется меньше кода для написания программы. Для примера, сравните программу «Привет, мир!» на Python и на Java:

PythonJava
print( «Привет, мир!» )public class Main {public static void main(String[] args) {System.out.println(«Привет, мир!»);}}

Есть средства для анализа данных. Этими средствами являются библиотеки Python. О них мы расскажем ниже.

Что не требуется для изучения Python

Ученая степень по информатике. Все, что требуется для анализа данных с помощью Python, — это написать работающий код, чтобы программа правильно делала то, что от нее требуется. Ученая степень по информатике для этого не понадобится.

Полное освоение Python:

Заучивать синтаксис. Нет смысла учить синтаксис наизусть. Он отложится в памяти сам по себе во время изучения справочных материалов и практики. Лучше направить силы на поиск смысла в программировании, например, задаваясь такими вопросами: зачем нужна эта функция? как работают условные операторы? и т.д.Для тех, кто хочет изучить Python и его инструменты под руководством наставника: Онлайн-курс «Python для анализа данных»

Как установить Python

Советуем сделать это с помощью дистрибутива Anaconda, так как в нем содержатся необходимые библиотеки для анализа данных.

Как изучать Python для анализа данных

Мы сторонники обучения на практике: учеба не наскучивает, Python усваивается быстрее и сразу видно, в чем надо подтянуться. Однако сначала необходимо набрать базовые знания, чтобы понимать, с чего начинать, когда приступаешь к практике. Поэтому мы разделили план по изучению Python для анализа данных на три ступени:

  1. Освоение основных принципов программирования.
  2. Изучение библиотек, необходимых для анализа данных.
  3. Закрепление знаний на практике.

Освоение основных принципов программирования

Чтобы использовать Python для анализа данных, необходимо освоить основы программирования

Главное в программировании — не знание синтаксиса, а понимание того, как сделать так, чтобы машина исполняла ваши поручения. И вот что мы советуем:

Начинающим. Прочитать четыре книги:

  1. Automate the Boring Stuff with Python (Автоматизация рутинных задач с помощью Python). Купить бумажную книгу на английском в Озоне илина русском в Лабиринте. Читать на английском и бесплатно на сайте книги.
  2. How to Think Like a Computer Scientist (Научись думать, как программист). Читать на английском и бесплатно на сайте книги.
  3. Изучаем программирование на Python. Купить бумажную книгу в КомБук.
  4. Изучаем Python. Купить бумажную книгу в КомБук.

Тем, кто знает другой язык программирования. Посмотреть видеоLearn Python in One Video. Это видео разъясняет многие вопросы, касающиеся Python и анализа данных:

  • В чем разница между такими типами данных, как целое число, число с плавающей точкой (запятой) и строкой?
  • Как сделать калькулятор на «Python»?
  • Что такое цикл for и когда его использовать?
  • Какую структуру имеет функция?
  • Как использовать условные операторы (if… else…), чтобы привести выражение к логическому типу?
  • Как работают операторы импорта?

Для закрепления пройденного. Использовать эти ресурсы:

Code Fights — предлагаются разные по сложности задачи: одни решаются за пять минут, другие — за несколько часов. Выдалась свободная минутка — решаете легкие задачи, появилось больше свободного времени — задачи посложнее.

Python Challenge — головоломка по программированию. Состоит из 33 ступеней, которые нужно пройти, используя Python. Помогает узнать Python со всех сторон.

PracticePython.org — предлагаются задачи по программированию на Python. К каждой задаче прилагаются ссылки на то, как ее решили другие люди. Можно сравнить свое решение с решениями других и найти сильные и слабые стороны своего подхода. Новые задачи появляются почти каждую неделю.

Изучение библиотек, необходимых для анализа данных

У Python для анализа данных есть библиотеки

Библиотеки — это собрание функций и объектов, которые используются в скриптах. Они экономят время, так как не нужно прописывать функции с нуля.

Что понадобится для изучения. Jupyter Notebook — набор средств для разработки программ. Если вы скачали Python с помощью дистрибутива Anaconda, то используйте Anaconda Navigator, чтобы создать и сохранить Jupyter Notebook. Как это делается, показывается в видео How to create and save a jupyter notebook with anaconda navigator.

Порядок изучения:

  1. Почитать справочную информацию, выделив на это примерно 30 минут.
  2. Открыть Jupyter Notebook и загрузить библиотеку.
  3. Посмотреть, как работает библиотека, используя инструкцию по работе с библиотекой.
  4. Снова выделить минут 30 на изучение справочной информации.

Действуя в таком порядке, вы освоите библиотеку достаточно, чтобы начать использовать ее в работе.

Список библиотек:

  1. NumPy — для числовых расчетов. Является основой для многих библиотек, используемых в анализе данных. Справочная информацияи инструкция по работе с библиотекой.
  2. Pandas — для анализа данных. Содержит структуры данных и операции для обработки числовых таблиц и временных рядов. Работа с этой библиотекой строится поверх NumPy. Справочная информация иинструкция по работе с библиотекой.
  3. Matplotlib — для двумерной или трехмерной визуализации данных. Она мощная, но довольно громоздкая. Справочная информация иинструкция по работе с библиотекой.
  4. Seaborn — для визуализации данных. Изучите ее, если библиотека Matplotlib показалась сложной. Справочная информация и инструкция по работе с библиотекой.

Закрепление знаний на практике

Чтобы начать использовать Python для анализа данных, нужно закрепить знания на практике

К этой ступени вы подходите с необходимыми знаниями для начала аналитической работы с Python. Осталось их закрепить и приумножить на практике. Мы знаем три способа попратиковаться с пользой: участвовать в конкурсах Kaggle, придумать и решить задачу самому, пройти практический курс по анализу данных на Python.

Участвовать в конкурсах. Kaggle часто проводит конкурсы по анализу данных. Советуем сначала участвовать в конкурсах без призов, потому что они самые простые. И со временем перебираться к более сложным.

Вряд ли в реальной работе вам встретятся задачи похожие на те, что вы решали на конкурсах, зато потренируетесь в нахождении верных путей решения.

Если такой способ практики вам подходит, почитайте руководство, как участвовать в конкурсах Kaggle, — The Beginner’s Guide to Kaggle.

Придумать и решить задачу самому. Давайте представим маркетолога, который устал допоздна засиживаться на работе из-за того, что приходится вручную собирать и обрабатывать данные и делать на их основе наглядные отчеты. Чтобы упростить себе работу и возвращаться вовремя домой, он ставит задачу — автоматизировать этот процесс, используя Python, и решает ее.

Подобным образом вы находите то, что затрудняет вам работу, и придумываете, как это устранить.

Оставьте первый комментарий

Отправить ответ

Ваш e-mail не будет опубликован.


*


четыре × четыре =