Tanfolyam "Data Engineer" - tanfolyam 95 000 dörzsölje. Yandex Workshopból, képzés 6,5 hónap, Időpont: 2023. december 11.
Vegyes Cikkek / / November 30, 2023
Gyakorló fejlesztőknek
Tanuljon meg infrastruktúrát felépíteni az adatokkal való munkavégzéshez, és rendszerezze tudását, hogy jelenlegi szerepében felhasználhassa, vagy adatmérnökké váljon.
Leendő adatmérnököknek
Az ismeretek strukturálása: a tiszta elmélet mellett sok gyakorlat is lesz. Tapasztalatot szerezhet a projektek során – ez segít portfólió kialakításában, kitűnhet a többi jelölt közül, és nem veszíthet el a valódi munkában.
Adattudományi szakértők és elemzők
Sajátítson el olyan készségeket, amelyek segítségével hatékonyabban tud megbirkózni a feladatokkal: építsen adatfolyamokat, tervezzen kirakatokat, építsen ETL-t és gyűjtsön nagy mennyiségben nyers adatokat.
Az adatmodell frissítése
1 modul 2 hét
A cég továbbra is elmerül a folyamataiban. Az Ön által használt adatok frissültek, ezért módosítania kell az adatmodellt.
Ezen a tanfolyamon Ön:
- megérteni, hogyan épít fel a cég adatbázist;
- frissíteni a jelenlegi adatbázis szerkezetét az új üzleti követelményeknek megfelelően;
- új bemutatókat és mérőszámokat készíteni az elemzők és vezetők számára.
Technológiák és eszközök:
- PostgreSQL
+1 projekt a portfólióban
Építsen fel adatpiacot növekményes betöltéssel az online áruház közönségelemzéséhez.
DWH: adatmodell revízió
2. modul 3 hét
A cég növekszik, az adatarchitektúra egyre összetettebbé válik. Feladatot kap – a folyamatokat adatokkal optimalizálni.
Ezen a tanfolyamon Ön:
- gondolja végig a régi adatbázis-sémáról az újra való áttérés folyamatát, miközben minimalizálja az üzleti veszteségeket (zéró üzembe helyezés);
- adatmigráció előkészítése;
- figyelembe veszi a lehetséges problémákat, és tervezzen egy lehetőséget a változtatások visszaállítására;
- új adatbázis-struktúra bevezetése és hozzáigazítása az adatok körüli meglévő folyamatokhoz.
Technológiák és eszközök:
- PosgreSQL
- Piton
+1 projekt a portfólióban
Az adatmodellt rendbe teszi, és az adatokat migrálja az online áruház jelenlegi tárhelyén belül.
ETL: adat-előkészítési automatizálás
3. modul 3 hét
Ma már szinte mindent tud a cég adattárházáról. Ideje újragondolni az ETL folyamatokat.
Ezen a tanfolyamon Ön:
- automatizálni az adatfolyamot;
- konfigurálja az adatok automatikus letöltését a forrásokból;
- megtanulják rendszeresen és fokozatosan betölteni az adatokat az adatbázisba.
Technológiák és eszközök:
- Piton
- Légáramlat
- PostgreSQL
+1 projekt a portfólióban
Készítsen egy folyamatot az adatok automatikus fogadásához, feldolgozásához és betöltéséhez a forrásokból a kirakatba egy e-kereskedelmi projekthez.
Adatminőség ellenőrzés
4. modul 1 hét
Biztos akar lenni abban, hogy az első csővezetékei jól működnek. Az adatok minőségét ellenőrizni kell, és a meghibásodásokat időben nyomon kell követni.
Ezen a tanfolyamon Ön:
- megérteni a metainformáció és a dokumentáció felhasználását;
- értékelni az adatok minőségét.
DWH több forráshoz
5. modul 2 hét
Továbbra is kutatja a DWH-t, mert a cég fejlődése és ezáltal az adatmennyiség növekedése nem állítható meg.
Ezen a tanfolyamon Ön:
- DWH-t a semmiből építeni egy relációs DBMS-re;
- ismerkedjen meg a MongoDB-vel, mint adatforrással.
Technológiák és eszközök:
- PostgreSQL
- MongoDB
+1 projekt a portfólióban
Ön megtervezi és megvalósítja a DWH-t egy házon belüli startup számára.
Analitikai adatbázisok
6. modul 2 hét
Egyre több a specifikus strukturálatlan adat, amelyet szintén tárolni és feldolgozni kell. Ezért a Vertica DBMS-t példaként használva bemutatjuk az analitikus adatbázisok fogalmát.
Ezen a tanfolyamon Ön:
- tanulmánytárolás szervezése a Verticában;
- megtanulják, hogyan kell alapvető műveleteket végezni az adatokkal a Vertica-ban;
- építeni egy egyszerű adattárházat a Verticában.
Technológiák és eszközök:
- Vertica
- PostgreSQL
- Légáramlat
- S3
+1 projekt a portfólióban
Készítsen DWH-t egy nagy terhelésű, alacsony szerkezetű üzenetküldő adatrendszerhez a Vertica használatával.
Data Lake szervezet
7. modul 4 hét
A klasszikus megoldások nem segítenek megbirkózni az adatmennyiséggel. Az új üzleti kihívásokkal való megbirkózás érdekében Data Lake-et kell létrehoznia és feltöltenie.
Ezen a tanfolyamon Ön:
- fontolja meg a Data Lake architektúrát (ford. „adattó”);
- megtanulják feldolgozni az adatokat az MPP rendszerben;
- a Data Lake feltöltése forrásokból származó adatokkal;
- gyakorolni az adatfeldolgozást PySpark és Airflow segítségével.
Technológiák és eszközök:
- Hadoop
- MapReduce
- HDFS
- Apache Spark (PySpark)
+1 projekt a portfólióban
Hozzon létre egy Data Lake-et, és automatizálja az adatok betöltését és feldolgozását.
Stream feldolgozás
8. modul 3 hét
A nagy mennyiségű adattal leküzdötted a nehézségeket, de egy új feladat jelent meg - segíteni kell a vállalkozást a gyorsabb döntéshozatalban. Itt szükséged lesz a stream adatfeldolgozási ismeretekre. folyó).
Ezen a tanfolyamon Ön:
- figyelembe venni a stream adatfeldolgozás jellemzőit;
- saját streaming rendszer kiépítése;
- kirakat építése valós idejű adatok felhasználásával.
Technológiák és eszközök:
- Kafka
- Spark Streaming
+1 projekt a portfólióban
Valós idejű adatfeldolgozó rendszert fog kifejleszteni.
Felhőtechnológiák
9. modul 3 hét
Most már nagy mennyiségű adattal és adatfolyammal is dolgozhat. Már csak a felhőszolgáltatások segítségével automatizálni kell a rendszerek méretezését.
Ezen a tanfolyamon megtudhatja, hogyan lehet már tanulmányozott megoldásokat megvalósítani, de felhőben (példaként a Yandex Cloud használatával).
Technológiák és eszközök:
- Yandex. Felhő
- Kubernetes
- kubectl
- Redis
- PostgreSQL
+1 projekt a portfólióban
Infrastruktúrát fejleszt az adatok felhőben történő tárolására és feldolgozására.
Érettségi projekt
10. modul 3 hét
Erősítse meg, hogy új készségeket tanult.
Itt önállóan kell kiválasztania és végrehajtania a megoldásokat egy üzleti problémára. Ez segít abban, hogy ismét megerősítse a tanult eszközök használatát, valamint függetlenségét.