Самый лучший путь, это прочитать книгу PYTHON И АНАЛИЗ ДАННЫХ, так как информация там структурирована. Скачать ее можно по ссылкам в статье. Но данная книга не подойдет для совсем новичков в PYTHON.
В пособии рассмотрены основные части языка Python, касающиеся форматирования, изменения и обработки данных. С этой позиции можно сказать, что это своеобразный экскурс в разработку научных приложений на базе Python. Здесь представлена информация о различных библиотеках, которые нужны, чтобы решать все задачи, связанные с анализом данных. Уделяется внимание визуализации полученной информации, решению задач, которые могут возникать в разных сферах (экономике, социальных науках и др.). Автор приводит массу практических примеров, дает иллюстрации, скриншоты, что облегчает понимание информации. Книга подойдет тем, кто только недавно начал заниматься аналитикой и, в частности, изучать Python, а также программистам, которые уже давно с ним знакомы.
Задача анализа данных — собрать, исследовать, очистить и преобразовать данные в наглядные графики. Так человек видит картину происходящего и понимает, какие действия предпринять. Для анализа используются разные инструменты: Excel, Google-таблицы, BI-системы и языки программирования.
Языки программирования предпочтительнее. С их помощью данные обрабатываются быстрее и можно автоматизировать выполнение большинства задач, которые в Excel и Google-таблицах выполняются вручную.
Для анализа данных мы советуем использовать язык программирования Python.
Почему Python
Это популярный язык. Python — распространенный язык программирования. Поэтому нетрудно найти сообщества специалистов, которые используют его в работе. Возьмем для примера сообществоStackoverflow. Там вы найдете обучающие материалы, фрагменты кода и способы исправления распространенных ошибок, а участники сообщества всегда помогут советом.
Python занимает четвертое место по популярности среди языков программирования. Источник: TIOBE
Легко освоить. Синтаксис Python хорошо продуман, поэтому по сравнению с другими языками требуется меньше кода для написания программы. Для примера, сравните программу «Привет, мир!» на Python и на Java:
Python | Java |
print( «Привет, мир!» ) | public class Main {public static void main(String[] args) {System.out.println(«Привет, мир!»);}} |
Есть средства для анализа данных. Этими средствами являются библиотеки Python. О них мы расскажем ниже.
Что не требуется для изучения Python
Ученая степень по информатике. Все, что требуется для анализа данных с помощью Python, — это написать работающий код, чтобы программа правильно делала то, что от нее требуется. Ученая степень по информатике для этого не понадобится.
Полное освоение Python:
Заучивать синтаксис. Нет смысла учить синтаксис наизусть. Он отложится в памяти сам по себе во время изучения справочных материалов и практики. Лучше направить силы на поиск смысла в программировании, например, задаваясь такими вопросами: зачем нужна эта функция? как работают условные операторы? и т.д.Для тех, кто хочет изучить Python и его инструменты под руководством наставника: Онлайн-курс «Python для анализа данных»
Как установить Python
Советуем сделать это с помощью дистрибутива Anaconda, так как в нем содержатся необходимые библиотеки для анализа данных.
Как изучать Python для анализа данных
Мы сторонники обучения на практике: учеба не наскучивает, Python усваивается быстрее и сразу видно, в чем надо подтянуться. Однако сначала необходимо набрать базовые знания, чтобы понимать, с чего начинать, когда приступаешь к практике. Поэтому мы разделили план по изучению Python для анализа данных на три ступени:
- Освоение основных принципов программирования.
- Изучение библиотек, необходимых для анализа данных.
- Закрепление знаний на практике.
Освоение основных принципов программирования
Главное в программировании — не знание синтаксиса, а понимание того, как сделать так, чтобы машина исполняла ваши поручения. И вот что мы советуем:
Начинающим. Прочитать четыре книги:
- Automate the Boring Stuff with Python (Автоматизация рутинных задач с помощью Python). Купить бумажную книгу на английском в Озоне илина русском в Лабиринте. Читать на английском и бесплатно на сайте книги.
- How to Think Like a Computer Scientist (Научись думать, как программист). Читать на английском и бесплатно на сайте книги.
- Изучаем программирование на Python. Купить бумажную книгу в КомБук.
- Изучаем Python. Купить бумажную книгу в КомБук.
Тем, кто знает другой язык программирования. Посмотреть видеоLearn Python in One Video. Это видео разъясняет многие вопросы, касающиеся Python и анализа данных:
- В чем разница между такими типами данных, как целое число, число с плавающей точкой (запятой) и строкой?
- Как сделать калькулятор на «Python»?
- Что такое цикл for и когда его использовать?
- Какую структуру имеет функция?
- Как использовать условные операторы (if… else…), чтобы привести выражение к логическому типу?
- Как работают операторы импорта?
Для закрепления пройденного. Использовать эти ресурсы:
Code Fights — предлагаются разные по сложности задачи: одни решаются за пять минут, другие — за несколько часов. Выдалась свободная минутка — решаете легкие задачи, появилось больше свободного времени — задачи посложнее.
Python Challenge — головоломка по программированию. Состоит из 33 ступеней, которые нужно пройти, используя Python. Помогает узнать Python со всех сторон.
PracticePython.org — предлагаются задачи по программированию на Python. К каждой задаче прилагаются ссылки на то, как ее решили другие люди. Можно сравнить свое решение с решениями других и найти сильные и слабые стороны своего подхода. Новые задачи появляются почти каждую неделю.
Изучение библиотек, необходимых для анализа данных
Библиотеки — это собрание функций и объектов, которые используются в скриптах. Они экономят время, так как не нужно прописывать функции с нуля.
Что понадобится для изучения. Jupyter Notebook — набор средств для разработки программ. Если вы скачали Python с помощью дистрибутива Anaconda, то используйте Anaconda Navigator, чтобы создать и сохранить Jupyter Notebook. Как это делается, показывается в видео How to create and save a jupyter notebook with anaconda navigator.
Порядок изучения:
- Почитать справочную информацию, выделив на это примерно 30 минут.
- Открыть Jupyter Notebook и загрузить библиотеку.
- Посмотреть, как работает библиотека, используя инструкцию по работе с библиотекой.
- Снова выделить минут 30 на изучение справочной информации.
Действуя в таком порядке, вы освоите библиотеку достаточно, чтобы начать использовать ее в работе.
Список библиотек:
- NumPy — для числовых расчетов. Является основой для многих библиотек, используемых в анализе данных. Справочная информацияи инструкция по работе с библиотекой.
- Pandas — для анализа данных. Содержит структуры данных и операции для обработки числовых таблиц и временных рядов. Работа с этой библиотекой строится поверх NumPy. Справочная информация иинструкция по работе с библиотекой.
- Matplotlib — для двумерной или трехмерной визуализации данных. Она мощная, но довольно громоздкая. Справочная информация иинструкция по работе с библиотекой.
- Seaborn — для визуализации данных. Изучите ее, если библиотека Matplotlib показалась сложной. Справочная информация и инструкция по работе с библиотекой.
Закрепление знаний на практике
К этой ступени вы подходите с необходимыми знаниями для начала аналитической работы с Python. Осталось их закрепить и приумножить на практике. Мы знаем три способа попратиковаться с пользой: участвовать в конкурсах Kaggle, придумать и решить задачу самому, пройти практический курс по анализу данных на Python.
Участвовать в конкурсах. Kaggle часто проводит конкурсы по анализу данных. Советуем сначала участвовать в конкурсах без призов, потому что они самые простые. И со временем перебираться к более сложным.
Вряд ли в реальной работе вам встретятся задачи похожие на те, что вы решали на конкурсах, зато потренируетесь в нахождении верных путей решения.
Если такой способ практики вам подходит, почитайте руководство, как участвовать в конкурсах Kaggle, — The Beginner’s Guide to Kaggle.
Придумать и решить задачу самому. Давайте представим маркетолога, который устал допоздна засиживаться на работе из-за того, что приходится вручную собирать и обрабатывать данные и делать на их основе наглядные отчеты. Чтобы упростить себе работу и возвращаться вовремя домой, он ставит задачу — автоматизировать этот процесс, используя Python, и решает ее.
Подобным образом вы находите то, что затрудняет вам работу, и придумываете, как это устранить.
Отправить ответ