Вы читаете полную книгу Автостопом по Python Кеннет Рейтц онлайн (текущая страница 263)

Последние комментарии

Колдун Российской империи. Демон из Пустоши

🔥🔥🔥🔥🔥

Граф Аверин. Колдун Российской империи

вау 🔥🔥🔥

Твое сердце будет разбито. Книга 1

Честно говоря, книга меня разочаровала. Начиналось все довольно неплохо - легкий слог, обещание и...

Дикая война

Очень интересная серия книг

Единственные

Люблю книги Кистяевой за то, что в них все по-настоящему

Колдун Российской империи. Императорский Див

Эта книга хорошо показывает, насколько жестокими мы можем быть, когда чувствуем власть над кем-то...

Возвращение

цикл читаю с самого начала - класс!. Интересный мир у которого уже появились фанфики

Игра в прятки

Гг снова разносит противников пачками, которых автор методично вплетает в сюжет. Возможно, я слиш...

Легенда

Прорисованный антиутопичный мир - просто впечатляет! Книга великолепна, читается на одном дыхании...

Дочь врага

Очень лёгкая и душевная книга, спасибо автору! Читала с удовольствием и будто отдыхала душой ❤❤❤❤❤

Наука и образованиеАвтостопом по Pythonстр 263

Светлый фон

Вы можете установить nltk из командной строки с помощью pip[113]. Он полагается на библиотеку NumPy, поэтому сначала установите ее:

$ pip install numpy

$ pip install nltk

Если вы используете Windows и не можете заставить работать NumPy, установленный с помощью pip, можете попробовать выполнить инструкции, приведенные по адресу http://bit.ly/numpy-install-win, на ресурсе Stack Overflow.

Размер и область видимости библиотеки могут отпугнуть некоторых пользователей, поэтому рассмотрим небольшой пример, иллюстрирующий, насколько просто работать с этим инструментом. Для начала нам понадобится получить набор данных (http://www.nltk.org/data.html) из отдельно загружаемого набора корпусов (http://www.nltk.org/nltk_data/), включая инструменты для тегирования для нескольких языков и набора данных, на которых будут тестироваться алгоритмы. Они имеют лицензию, отличающуюся от лицензии nltk, поэтому убедитесь, что вы проверили лицензию выбранного набора данных. Если знаете название корпуса текста, который нужно загрузить (в нашем случае это Punkt tokenizer[114], который мы можем использовать для разбиения текстовых файлов на предложения или отдельные слова), можете сделать это с помощью командной строки:

$ python3 — m nltk.downloader punkt — dir=/usr/local/share/nltk_data

Или можете загрузить его в рамках интерактивной сессии — stopwords содержит список слов, из-за которых значительно увеличивается общее количество слов текста вроде the, in или and во многих языках:

>>> import nltk

>>> nltk.download('stopwords', download_dir='/usr/local/share/nltk_data')

[nltk_data] Downloading package stopwords to /usr/local/share/nltk_data…

[nltk_data] Unzipping corpora/stopwords.zip.

True

Если вы не знаете название необходимого вам корпуса, можете запустить интерактивный загрузчик из интерпретатора Python, вызвав метод nltk.download() без передачи первого аргумента:

>>> import nltk

>>> nltk.download(download_dir='/usr/local/share/nltk_data')

Далее можно загрузить самую свежую версию набора данных и запустить ее в обработку. В этом фрагменте кода мы загружаем сохраненную копию «Дзена Питона»:

Корпуса загружаются медленно, поэтому нам нужно сделать это для того, чтобы действительно загрузить корпус stopwords.

Токенизатор требует наличия обученной модели — Punkt tokenizer (используемый по умолчанию) поставляется с моделью, обученной для английского языка (также выбран по умолчанию).