Импортируйте данные из PDF в Excel с помощью Power Query.

Задача переноса данных из электронной таблицы в файле PDF в лист Microsoft Excel всегда «забавна». Особенно, если у вас нет дорогостоящего программного обеспечения для распознавания, такого как FineReader или что-то в этом роде. Прямое копирование обычно ни к чему хорошему не приводит, т.к. после вставки скопированных данных на лист они, скорее всего, «склеятся» в один столбец. Поэтому их потом придется кропотливо разделять с помощью инструмента. Текст по столбцам на вкладке Данные (Данные — текст в столбцы).

И естественно копирование возможно только для тех PDF файлов, где есть текстовый слой, т.е. с документом, только что отсканированным с бумаги в PDF, это не получится в принципе.

Но это не так уж и печально, правда 🙂

Если у вас Office 2013 или 2016, то за пару минут без дополнительных программ вполне возможно перенести данные из PDF в Microsoft Excel. А помогут нам в этом Word и Power Query.

Для примера возьмем этот PDF-отчет с кучей текста, формул и таблиц с сайта Европейской экономической комиссии:

Импортируйте данные из PDF в Excel с помощью Power Query.

… и попробуйте вытащить из него в Excel, скажем, первую таблицу:

Импортируйте данные из PDF в Excel с помощью Power Query.

Поехали!

Шаг 1. Откройте PDF в Word

Почему-то мало кто знает, но с 2013 года Microsoft Word научился открывать и распознавать PDF-файлы (даже отсканированные, то есть без текстового слоя!). Делается это совершенно стандартным способом: открываем Word, нажимаем Файл – Открыть (Файл — Открыть) и укажите формат PDF в раскрывающемся списке в правом нижнем углу окна.

Затем выбираем нужный нам PDF-файл и нажимаем Откройте (Открыто). Word сообщает нам, что он собирается запустить распознавание текста в этом документе:

Импортируйте данные из PDF в Excel с помощью Power Query.

Соглашаемся и через несколько секунд увидим наш PDF открытый для редактирования уже в Word:

Импортируйте данные из PDF в Excel с помощью Power Query.

Конечно, из документа частично слетит дизайн, стили, шрифты, колонтитулы и т. д., но для нас это не важно — нам нужны только данные из таблиц. В принципе, на этом этапе уже есть соблазн просто скопировать таблицу из распознанного документа в Word и просто вставить в Excel. Иногда это срабатывает, но чаще всего это приводит к разного рода искажениям данных — например, числа могут превратиться в даты или остаться текстом, как в нашем случае, т.к. PDF использует неразделители:

Импортируйте данные из PDF в Excel с помощью Power Query.

Так что давайте не будем срезать углы, а сделаем все немного сложнее, но правильно.

Шаг 2. Сохраните документ как веб-страницу.

Чтобы затем загрузить полученные данные в Excel (через Power Query), наш документ в Word необходимо сохранить в формате веб-страницы — этот формат в данном случае является своего рода общим знаменателем между Word и Excel.

Для этого зайдите в меню Файл — Сохранить как (Файл — Сохранить как) или нажмите клавишу F12 на клавиатуре и в открывшемся окне выберите тип файла Веб-страница в одном файле (Веб-страница — отдельный файл):

Импортируйте данные из PDF в Excel с помощью Power Query.

После сохранения у вас должен получиться файл с расширением mhtml (если вы видите расширения файлов в проводнике).

Этап 3. Загрузка файла в Excel через Power Query.

Открыть созданный MHTML-файл в Excel можно напрямую, но тогда мы получим, во-первых, сразу все содержимое PDF вместе с текстом и кучей ненужных таблиц, а, во-вторых, снова потеряем данные из-за некорректных сепараторы. Поэтому импорт в Excel будем делать через надстройку Power Query. Это совершенно бесплатное дополнение, с помощью которого вы сможете загружать данные в Excel практически из любого источника (файлы, папки, базы данных, ERP-системы), а затем всячески преобразовывать полученные данные, придавая им нужную форму.

Если у вас Excel 2010-2013, то скачать Power Query можно с официального сайта Microsoft – после установки вы увидите вкладку Power Query. Если у вас Excel 2016 или новее, то скачивать ничего не нужно – весь функционал уже встроен в Excel по умолчанию и находится на вкладке Данные (Дата) в группе Скачать и конвертировать (Получить и преобразовать).

Итак, переходим либо на вкладку Данные, или на вкладке Power Query и выбери команду Чтобы получить данные or Создать запрос – Из файла – Из XML. Чтобы сделать видимыми не только XML-файлы, измените фильтры в раскрывающемся списке в правом нижнем углу окна на Все файлы (Все файлы) и указываем наш MHTML-файл:

Импортируйте данные из PDF в Excel с помощью Power Query.

Обратите внимание, что импорт не завершится успешно, т.к. Power Query ожидает от нас XML, но на самом деле у нас есть формат HTML. Поэтому в следующем появившемся окне вам нужно будет щелкнуть правой кнопкой мыши по непонятному Power Query файлу и указать его формат:

Импортируйте данные из PDF в Excel с помощью Power Query.

После этого файл будет правильно распознан и мы увидим список всех таблиц, которые в нем содержатся:

Импортируйте данные из PDF в Excel с помощью Power Query.

Просмотреть содержимое таблиц можно, щелкнув левой кнопкой мыши на белом фоне (не на слове Таблица!) ячеек столбца Данные.

Когда нужная таблица определена, нажмите на зеленое слово Настольные — и вы «проваливаетесь» в его содержимое:

Импортируйте данные из PDF в Excel с помощью Power Query.

Осталось сделать несколько простых действий, чтобы «причесать» его содержимое, а именно:

  1. удалить ненужные столбцы (щелкнуть правой кнопкой мыши по заголовку столбца – Удалить)
  2. заменить точки запятыми (выделить столбцы, нажать правой кнопкой мыши – Замена значений)
  3. убрать знаки равенства в шапке (выделить столбцы, нажать правой кнопкой мыши – Замена значений)
  4. удали верхнюю строку (Главная – Удалить строки – Удалить верхние строки)
  5. удалить пустые строки (Главная – Удалить строки – Удалить пустые строки)
  6. поднять первую строку в заголовок таблицы (Главная – используйте первую строку в качестве заголовков)
  7. отфильтровать ненужные данные с помощью фильтра

Когда таблица приведена в нормальный вид, ее можно выгрузить на лист командой закрыть и скачать (Закрыть и загрузить) on Основной вкладка. И получим вот такую ​​красоту, с которой уже можно работать:

Импортируйте данные из PDF в Excel с помощью Power Query.

  • Преобразование столбца в таблицу с помощью Power Query
  • Разделение прикрепленного текста на столбцы

Оставьте комментарий