PS

Чистка данных в Excel: пробелы, регистр, замена символов

В этом модуле вы узнаете, как удалить задублированные или другие лишние пробелы, заменять символы по шаблону и привести в порядок регистр.

Чтобы повторять все действия за преподавателем, скопируйте себе нашу учебную табличку.

Открыть учебную Google-таблицу.

С помощью Excel можно сделать почти все — дашборды, аналитику, регрессии, SQL-запросы и даже нейросети. И его достаточно, чтобы построить систему аналитики, для которой обычно требуется несколько инструментов, Python, какие-то сложные BI-приложения, база данных и т.п. Ведь гораздо проще выгрузить данные в Excel, сделать сводную таблицу, почистить их и найти ответы на все свои вопросы. 

Однако в Excel очень сложно строить глобальную аналитику — мешают ограничения по объемам данных (свежие версии вмещают чуть больше миллиона строк, Google Sheets все сложнее, но ограничений не меньше). 

В Excel, как и в языках программирования, есть базовые арифметические операции: сложение, умножение, деление, вычитание, округление, типы данных, операции, которые мы можем над ними производить. Есть формулы, фильтры, сортировка.

Чистка данных

Когда мы говорим о чистке данных, то чаще всего имеем в виду работу со строками. Например, у нас есть текст: город, название компании, артикул товара. Если текст вводят люди, появляются проблемы: например, в одной колонке может появиться несколько вариантов написания одного и того же города — Санкт-Петербург, Санкт Петербург. Для компьютера это два разных значения, а значит, когда вы начнете агрегировать данные, для этого города получится два фильтра. Чтобы этого не случилось, необходимо предварительно почистить данные.

wp_0094c23b42_image-110_result-1024x532.jpg

Этап 1. Сжатие пробелов

Первым делом уберем лишние пробелы. Делать это будем автоматически — вы ведь не станете просматривать каждую ячейку в файле на 10 тысяч строк и удалять их вручную? В Excel есть функция «сжатие пробелов» по-английски — TRIM. Она убирает повторяющиеся проблемы, а также пробелы перед началом данных и после данных. Эту функцию можно запускать сразу, как только вы получаете данные — чтобы в вашей таблице точно не осталось лишних пробелов.

Если вы не знаете, как работает та или иная функция, посмотрите справку — обычно там достаточно подробно описываются все случаи и примеры применения. 

Однако в слове «Санкт Петербург» пробел не сожмется — ведь функция сжимает только повторные проблемы и пробелы в начале и в конце данных. 

wp_d495f70e2e_image-111_result.jpg

wp_d495f70e2e_image-111_result.jpg

Этап 2. Работа с верхним и нижним регистром

У нас в массиве данных есть Москва — и встречаются ячейки, в которых название города написано со строчной буквы. Для анализа данных это не помеха, а вот если вы хотите сделать таблицу красивой и опрятной (например, использовать ее в отчетах и т.п.), это придется исправить.

Для этого в Excel и Google Spreadsheets есть три функции 

  • LOWER (СТРОЧН) — сделать все буквы строчными;
  • UPPER (ПРОПИСН) — сделать все буквы прописными; 
  • PROPER (ПРОПНАЧ) — сделать первые буквы прописными.

Последовательно применим их ко всем ячейкам — так таблица станет опрятной

На скриншотах — примеры использования функций.

 

wp_53527edf18_image-112_result.jpg

wp_1c6441a141_image-113_result.jpg

wp_a9b7c014aa_image-114_result.jpg

Этап 3. Замена символов

Замену символов удобно использовать, когда, например, есть какая-то типичная опечатка, лишние пробелы (как в слове «Санкт Петербург»), или человек почему-то поставил везде точку с запятой вместо запятой. 

Конечно, можно сделать это с помощью функции «Найти и заменить». Но это не поможет, если вам надо поменять точку с запятой на запятую в одном столбике. Для этого можно использовать функцию SUBSTITE (ПОДСТАВИТЬ). Она принимает три аргумента:

  1. Строку, в которой надо произвести замену (например, «Санкт Петербург»). 
  2. Фрагмент текста, который вы хотите заменить. 
  3. Текст, на который вы замените тот кусочек, который указали во втором аргументе.

wp_3191884bec_image-115_result.jpg

wp_416001fe08_image-116_result-1024x586.jpg

Уроки курса

0/18 завершено
1Под капотом веб-сервиса: бэкенд, фронтенд, база данных, APIБесплатно2Под капотом веб-сервиса: логика, микросервисы, монолит3Под капотом веб-сервиса: Machine Learning4Под капотом веб-сервиса: техзадания, SaaS и коробочные решения5Процессы разработки и тестирования6Как программисты работают над кодом7Распространенные ошибки менеджера продуктов8Риски, ответственность и отношения в команде9Чистка данных в Excel: пробелы, регистр, замена символов10Чистка данных в Excel: условия, дубликаты, разделители11Продвинутый поиск по таблицам в Excel12Сводные таблицы в Excel13Введение в SQL и базовый синтаксис: select, from, where14Простые запросы в SQL на практических примерах15Объединение и группировка таблиц с помощью SQL16Разработка продуктов без кода: Airtable, Notion, Coda, Stacker17Приложения и автоматизация процессов без кода: Glide, Integromat, Bubble18Простое приложение без кода на Glide и Integromat