Analiza danych tekstowych – instrukcja instalacji
Rekomendowana wersja Pythona: >=3.11
Materiały udostępnione zostaną w plikach .ipynb (Jupyter Notebook) i edytor ten jest rekomendowany podczas szkolenia.
Będą potrzebne również następujące biblioteki:
- requests
- beautifulsoup4
- numpy
- pandas
- matplotlib
- jupyterlab
- scikit-learn
- spacy
- nltk
- pystempel
- wordcloud
- gensim
- presidio-anonymizer
- presidio-analyzer
- openai
Oprócz tego potrzebne będzie pobranie modeli używanych przez powyższe biblioteki.
W terminalu/wierszu poleceń wykonaj:
python -m spacy download pl_core_news_sm
python -m spacy download en_core_web_sm
Rekomendowane jest utworzenie środowiska wirtualnego. Poniżej znajduje się zawartość pliku requirements.txt
uwzględniającego pobranie powyższych modeli.
annotated-types==0.7.0 anyio==4.4.0 argon2-cffi==23.1.0 argon2-cffi-bindings==21.2.0 arrow==1.3.0 asttokens==2.4.1 async-lru==2.0.4 attrs==24.2.0 azure-core==1.30.2 babel==2.16.0 beautifulsoup4==4.12.3 bleach==6.1.0 blis==0.7.11 catalogue==2.0.10 certifi==2024.7.4 cffi==1.17.0 charset-normalizer==3.3.2 click==8.1.7 cloudpathlib==0.18.1 comm==0.2.2 compress-pickle==2.1.0 confection==0.1.5 contourpy==1.2.1 cycler==0.12.1 cymem==2.0.8 debugpy==1.8.5 decorator==5.1.1 defusedxml==0.7.1 distro==1.9.0 en-core-web-lg @ https://github.com/explosion/spacy-models/releases/download/en_core_web_lg-3.7.1/en_core_web_lg-3.7.1-py3-none-any.whl#sha256=ab70aeb6172cde82508f7739f35ebc9918a3d07debeed637403c8f794ba3d3dc en-core-web-sm @ https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl#sha256=86cc141f63942d4b2c5fcee06630fd6f904788d2f0ab005cce45aadb8fb73889 executing==2.0.1 fastjsonschema==2.20.0 filelock==3.15.4 fonttools==4.53.1 fqdn==1.5.1 gensim==4.3.3 h11==0.14.0 httpcore==1.0.5 httpx==0.27.0 idna==3.7 ipykernel==6.29.5 ipython==8.26.0 isoduration==20.11.0 jedi==0.19.1 Jinja2==3.1.4 jiter==0.5.0 joblib==1.4.2 json5==0.9.25 jsonpointer==3.0.0 jsonschema==4.23.0 jsonschema-specifications==2023.12.1 jupyter-events==0.10.0 jupyter-lsp==2.2.5 jupyter_client==8.6.2 jupyter_core==5.7.2 jupyter_server==2.14.2 jupyter_server_terminals==0.5.3 jupyterlab==4.2.4 jupyterlab_pygments==0.3.0 jupyterlab_server==2.27.3 kerncraft==0.8.15 kiwisolver==1.4.5 langcodes==3.4.0 language_data==1.2.0 marisa-trie==1.2.0 markdown-it-py==3.0.0 MarkupSafe==2.1.5 matplotlib==3.9.2 matplotlib-inline==0.1.7 mdurl==0.1.2 mistune==3.0.2 mpmath==1.3.0 murmurhash==1.0.10 nbclient==0.10.0 nbconvert==7.16.4 nbformat==5.10.4 nest-asyncio==1.6.0 networkx==3.3 nltk==3.8.1 notebook_shim==0.2.4 numpy==1.26.4 openai==1.46.0 osaca==0.5.3 overrides==7.7.0 packaging==24.1 pandas==2.2.2 pandocfilters==1.5.1 parso==0.8.4 pexpect==4.9.0 phonenumbers==8.13.43 pillow==10.4.0 pl-core-news-sm @ https://github.com/explosion/spacy-models/releases/download/pl_core_news_sm-3.7.0/pl_core_news_sm-3.7.0-py3-none-any.whl#sha256=94fd294e49f87fccf863f2792a1d89be1a0fd0a3c549790b2c8338ac304bee36 platformdirs==4.2.2 preshed==3.0.9 presidio_analyzer==2.2.355 presidio_anonymizer==2.2.355 prometheus_client==0.20.0 prompt_toolkit==3.0.47 psutil==6.0.0 ptyprocess==0.7.0 pure_eval==0.2.3 pycachesim==0.3.1 pycparser==2.22 pycryptodome==3.20.0 pydantic==2.8.2 pydantic_core==2.20.1 Pygments==2.18.0 pyparsing==3.1.2 pystempel==2.0.0 python-dateutil==2.9.0.post0 python-json-logger==2.0.7 pytz==2024.1 PyYAML==6.0.2 pyzmq==26.1.0 referencing==0.35.1 regex==2024.7.24 requests==2.32.3 requests-file==2.1.0 rfc3339-validator==0.1.4 rfc3986-validator==0.1.1 rich==13.7.1 rpds-py==0.20.0 ruamel.yaml==0.18.6 ruamel.yaml.clib==0.2.8 scikit-learn==1.5.1 scipy==1.13.1 Send2Trash==1.8.3 shellingham==1.5.4 six==1.16.0 smart-open==7.0.4 sniffio==1.3.1 sortedcontainers==2.4.0 soupsieve==2.6 spacy==3.7.5 spacy-legacy==3.0.12 spacy-loggers==1.0.5 srsly==2.4.8 stack-data==0.6.3 sympy==1.13.2 terminado==0.18.1 textdistance==4.6.3 thinc==8.2.5 threadpoolctl==3.5.0 tinycss2==1.3.0 tldextract==5.1.2 tornado==6.4.1 tqdm==4.66.5 traitlets==5.14.3 typer==0.12.3 types-python-dateutil==2.9.0.20240316 typing_extensions==4.12.2 tzdata==2024.1 uri-template==1.3.0 urllib3==2.2.2 wasabi==1.1.3 wcwidth==0.2.13 weasel==0.4.1 webcolors==24.8.0 webencodings==0.5.1 websocket-client==1.8.0 wordcloud==1.9.3 wrapt==1.16.0
Pamiętaj aby zrobić to przy aktywnym środowisku wirtualnym.
Uruchom również poniższy kod. Uwaga - pobieranie modelu będzie czasochłonne!
import gensim.downloader as api
model = api.load('word2vec-google-news-300')
Model ten zajmuje 1.7GB i zostanie zapisany w folderze gensim-data
w katalogu użytkownika.