Хроники тестирования Data Quality
В современных data-процессах ключевую роль играет обеспечение качества данных. Рассмотрим четыре популярных подхода: DBT, SQL, Python (Pandas/SQLAlchemy) и Great Expectations, оценив их эффективность для различных сценариев проверки данных. Эта статья будет интересна и полезна Data-инженерам, аналитикам данных и специалистам Data Quality для выбора оптимального метода валидации данных в зависимости от стека технологий и сложности бизнес-логики. Материал ориентирован на начинающий уровень подготовки: тем, кто еще не сталкивался системно с инструментами управления качеством данных. Привет, Хабр! Меня зовут Мария, я Data-инженер в SimbirSoft, и предлагаю для начала немного познакомиться с каждым из вышеперечисленных инструментов. Читать далее ⚡
https://habr.com/ru/companies/simbirsoft/articles/978504/
#data_engineering #data_quality #dbt #sql #python #pandas #great_expectations #sqlalchemy #greenplum
Как и зачем мы разработали систему анализа аномальных логов. Кейс MWS
Привет, Хабр! Меня зовут Андрей Басов, я руководитель команды технической поддержки стрима корпоративных продуктов и сервисов в MWS. Вместе со своими коллегами — Тимуром Хабибулиным (data scientist) и Рафисом Ганеевым (senior devops engineer) — занимаюсь технической поддержкой и сопровождением продуктов линейки Partner Experience Platform. Чтобы улучшить качество наших сервисов, через которые МТС взаимодействует с партнерами, мы вынуждены постоянно внедрять новые решения, растить продукты и развивать их архитектуру, при этом нам важно обеспечивать надежность и стабильность работы ИТ-систем. Это не всегда дается легко, ведь объемы данных растут, и их нужно эффективно обрабатывать. Одной из основных проблем становится анализ логов — текстовых записей. В нашем случае они фиксируют события в работе систем, которые созданы за 25+ лет работы компании, а еще у них различные стеки и архитектурные подходы. Объемы данных настолько велики, что проанализировать вручную (например, в OpenSearch/Kibana) даже один продукт практически невозможно, иначе нам пришлось бы просматривать миллионы строк логов каждый день. Поэтому мы решили разработать систему, которая позволила бы автоматически выявлять в логах аномалии — события, не свойственные нормальному функционированию системы. Например, это могут быть следы багов, вызванных новыми релизами, или другие непредвиденные происшествия. Что из этого вышло — расскажу дальше.
https://habr.com/ru/companies/ru_mts/articles/977624/
#машинное_обучение #qdrant #observability #python #mws #Векторный_поиск #Кластеризация #HDBSCAN #bgem3 #микросервисы
Closing the year with one last update to my Amir2000 Image Automation workflow.
Staging first makes batch runs cleaner, safer, and easier to rerun.
" Tiny issues become the real bottlenecks, not the big headline features. "
Blog https://www.amir2000.nl/blog/amir2000-image-automation-staging-review-clean-releases
GitHub https://github.com/amirnl2000/amir2000_image_automation
#Python #Automation #WorkflowAutomation #ImageProcessing #GitHub #CanonR5MarkII #AMIR2000NLPhotography

@gotofritz @eliocamp No it's the other way around. mypackage/ used to be more common but now src/mypackage/, the "src/ layout", is recommended. I mean, you can still do either, but there are some subtle benefits you get from using src/, so if you don't have a reason to do otherwise, that's what I'd recommend.
uv uses src/ layout by default. (https://docs.astral.sh/uv/concepts/projects/init/#packaged-applications)
@SnoopJ @eliocamp Oh I see. Yeah that's a different sense of "example" than I had in mind. (and, I'm guessing, a different sense of it than what Elio was thinking of...?)
https://technologiesinternetz.blogspot.com/2025/12/mastering-data-automation-how-to-use.html
Mastering Data Automation: How to Use Python in Excel for Next-Level Analysis
#Python #excel #dataautomation #pandas #code

@SnoopJ @eliocamp Gotcha, yeah that sounds reasonable. I wouldn't put examples in the src/ directory, not unless they are meant to be installed along with the package, in which case they're probably more than just examples. I kind of like what (it seems like) PyGame is doing there by adding extra directories only for inclusion in the sdist, not the wheel. (Although that setup script is kinda horrifying 😂 I mean, I'm sure they have their reasons for doing it that way but I have to imagine if they were starting from scratch with modern packaging standards they'd have a simpler way to do it)
Poetry vs UV
https://schmidl.dev/posts/2025/poetry-vs-uv.html
@eliocamp Yeah there's a lot of outdated information out there about how to structure a #Python package - partly because the state of packaging has changed a lot (for the better) over the past 5-10 years, and partly because there are a lot of developers and people writing content who just don't know what the current best practices are.
For examples and tests, it depends on how you expect people to be running those examples and tests. In a typical setup, at the top level you'd have an src/ directory with your source code and a tests/ directory with your tests, and there would be some testing command (like pytest) that people are supposed to run from that top level directory, possibly using an environment orchestrator like tox. You can put your data files in any convenient place like tests/data/ and load them by relative path.
Note that this applies only to test data, *not* to anything meant to be loaded by the package itself when it is installed.
미소녀 보려고 미연시를 켰더니 게임 콘솔이 해킹당했어요
https://hackers.pub/@helloyunho/2025/yarpe-yet-another-renpy-playstation-exploit
Zur Messung von #Temperatur und #Luftfeuchtigkeit kann man kleine Smart-Home-Sensoren verwenden. Ich habe mich für mein #Balkongarten-Projekt für einen #Shelly H&T entschieden.
Wie man ihn aktiviert, ins #WLAN einbindet und ohne Hersteller-App konfiguriert, zeigt der zweite Teil dieses Praxisberichts.
Meine erste Smart-Home-Lösung mit #RaspberryPi, #Python und Vibe Coding als Artikelserie.
https://tino-eberl.de/vibe-coding/sensorprojekt-inbetriebnahme-des-shelly-ht-im-balkongarten-2-4/
Hey, #Python folks. I'm writing a python package and I'm at a loss about where to put data to use in examples and tests. Every article I read gives me different locations.