Apa itu Google Cloud operations (sebelumnya Stackdriver)?
Google Stackdriver adalah layanan monitoring yang memberikan tim IT data performa terkait aplikasi dan virtual machine (VM) yang berjalan di Google Cloud Platform (GCP) maupun Amazon Web Services (AWS) public cloud. Pada tahun 2020, Stackdriver ditingkatkan dengan fitur baru dan direbranding menjadi bagian dari Google Cloud operations suite.
Google Cloud operations memungkinkan organisasi untuk melakukan monitoring, troubleshooting, dan operasionalisasi cloud deployment. Layanan ini menambahkan fitur observability tingkat lanjut, termasuk debugger dan profiler.
Service ini menyediakan monitoring, logging, dan diagnostic service untuk memastikan performa dan availability tetap terjaga. Ia mengumpulkan metrik performa dan metadata dari berbagai akun cloud, lalu menampilkannya lewat dashboard monitoring, chart, dan laporan yang bisa dikustomisasi. Cloud operations juga memungkinkan organisasi untuk melakukan troubleshooting ketika incident terjadi.
Google Cloud operations sudah native terintegrasi dengan GCP dan berjalan di atas infrastruktur Google. Fitur monitoring ini juga bisa dipakai untuk aplikasi dan VM yang berjalan di Amazon Elastic Compute Cloud (EC2). Selain itu, ia dapat menarik data performa dari sistem open source seperti Cassandra, Nginx, Prometheus, dan Elasticsearch.
Dan Belcher dan Izzy Azeri mendirikan Stackdriver pada tahun 2012. Google mengakuisisi perusahaan ini pada tahun 2014.
Apa saja fitur utama Google Cloud operations?
Lima fitur utama Google Cloud operations adalah:
- Cloud Monitoring memeriksa kesehatan resource cloud dan aplikasi. Ia memberikan visibilitas terhadap metrik seperti penggunaan CPU, disk I/O, memori, trafik jaringan, uptime, dan metrik custom lainnya. Cloud Monitoring berbasis collectd, sebuah daemon open source untuk mengumpulkan data performa sistem dan aplikasi. User dapat menerima alert yang bisa dikustomisasi ketika Cloud Monitoring mendeteksi masalah performa. Ia juga bisa memonitor Google Compute Engine (GCE) dan VM EC2.
- Cloud Logging menyediakan log management real-time dan analisis untuk aplikasi cloud. Data log bisa diambil dari Google Kubernetes Engine (GKE), VM, serta service cloud internal maupun eksternal seperti GCE, Google App Engine, dan EC2. Data log bisa diarsipkan ke Google Cloud Storage dan dianalisis menggunakan fitur Log Analytics (berbasis fluentd, software open source untuk data collection). Cloud Logging juga memiliki interface terpusat untuk error management yang menampilkan error aplikasi secara real-time. Ada juga fitur sorting dan filtering berdasarkan jumlah error, kapan error pertama dan terakhir muncul, serta lokasi kode error.
- Cloud Debugger menginspeksi state aplikasi yang di-deploy di Google App Engine atau GCE dengan menggunakan data produksi dan source code. Saat aplikasi berjalan, debugger membuat snapshot state aplikasi yang dihubungkan ke baris kode tertentu, tanpa perlu menambahkan logging statement. Proses ini tidak memengaruhi performa aplikasi.
- Cloud Trace mengumpulkan data latency jaringan dari aplikasi yang di-deploy di Google App Engine. Data ini dikumpulkan, dianalisis, lalu digunakan untuk menemukan bottleneck jaringan. Trace API dan Trace SDK juga bisa dipakai untuk tracing, analisis, dan optimasi workload custom.
- Cloud Profiler melacak hubungan dan latency antar fungsi dalam sebuah codebase. Ia secara terus-menerus memonitor fungsi-fungsi yang resource-intensive di aplikasi dan mengidentifikasi kode yang tidak efisien.

Bagaimana Google Cloud operations digunakan?
Cloud admin, engineer, dan developer menggunakan Google Cloud operations untuk monitoring dan logging aplikasi cloud.
Contoh penggunaan suite Google Cloud operations mencakup monitoring infrastruktur dan troubleshooting aplikasi.
Infrastructure monitoring
Distributed cloud infrastructure dimonitor menggunakan kombinasi fitur Cloud Logging dan Cloud Monitoring. Logging mengumpulkan audit log dan platform log, serta memungkinkan user membuat log-based metrics dan custom alert. Cloud Monitoring memberikan visibilitas ke lingkungan cloud melalui chart, dashboard, monitoring service-level objective, dan uptime check.

Application troubleshooting
Cloud administrator dapat menggunakan Google Cloud operations untuk troubleshooting aplikasi di deployment terdistribusi. Mereka bisa mengumpulkan data dan menganalisis log entry untuk mendeteksi outlier behavior. Mereka juga bisa memakai Trace, Profiler, dan Debugger untuk mencari latency dan masalah kode pada microservices terdistribusi di cloud stack.
Beberapa fungsi yang bisa dilakukan admin, engineer, dan developer menggunakan Google Cloud operations antara lain:
- mengirim uptime check untuk menguji apakah resource bisa merespons;
- membuat metrik, chart, dan dashboard kustom;
- menulis dan menghapus log entry;
- mengkonfigurasi logging multi-tenant di GKE, khususnya jika beberapa tim berbagi satu cluster GKE;
- mengintegrasikan log dari aplikasi pihak ketiga, seperti Nginx, MySQL, dan Apache Web Server.
Google menyediakan contoh kode di situs Google Cloud operations untuk membantu user menjalankan fungsi-fungsi tersebut.
Pelajari lebih lanjut tentang resource dan layanan cloud management dalam panduan komprehensif ini.