Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Yandex.Market smartphone reviews #72

Open
kkospit opened this issue Mar 8, 2021 · 4 comments
Open

Yandex.Market smartphone reviews #72

kkospit opened this issue Mar 8, 2021 · 4 comments
Labels

Comments

@kkospit
Copy link

kkospit commented Mar 8, 2021

Здравствуйте!
Посоветовали скинуть Вам мою сборку отзывов на смартфоны с яндекс.маркета. Небольшой json-файл, содержит около 50к отзывов на разные смартфоны.
Структура {"model_1": [ {Рейтинг: "", "Достоинства": "", "Недостатки": "", "Комментарий": ""}, ... ], "model_2: {}" }. Кое-где есть только ключ "Комментарий".
Ссылка: https://disk.yandex.ru/d/8zH4z0DHlUIZIg

@kuk kuk added the review label Mar 9, 2021
@kuk
Copy link
Member

kuk commented Mar 9, 2021

Спасибо! Как планируете использовать? Какую задачу решаете?

@kkospit
Copy link
Author

kkospit commented Mar 9, 2021

Спасибо! Как планируете использовать? Какую задачу решаете?

Да, собственно, пока никакую... Изучал инструменты для парсинга после ознакомления с NLP. Хотел собрать датасет для генерации текста и/или определения оценки по отзыву. Пока знаний мало. Но вдруг эта сборка кому-нибудь ещё пригодится.

@kuk
Copy link
Member

kuk commented Mar 10, 2021

Спасибо! Несколько хороших практик по формату данных:

  • Сериализовать не словарь, а json lines https://jsonlines.org/. В памяти нужно хранить не все данные, а одну строчку
  • В json.dump ставить ensure_ascii=False. Русские буквы не будут кодироваться, удобно смотреть глазами
  • Сжимать файл gzip, зачем гонять по сети лишние байты

@kkospit
Copy link
Author

kkospit commented Mar 11, 2021

Спасибо за советы!
Если что, сделал всё так(кажется) - https://disk.yandex.ru/d/cWu1YDJXwkSt6Q.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

2 participants