Berita

Cara menggunakan S&P Deep Web, Pembelajaran, Pembelajaran dan Salju, Salju, Untuk Mengumpulkan Data 5x tentang Perusahaan Kecil dan Menengah

Published

on

Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut


Dunia investasi menderita masalah besar ketika datang ke data tentang perusahaan kecil dan menengah (UKM). Ini tidak ada hubungannya dengan kualitas atau akurasi data – ini bukan data sama sekali.

Sulit untuk menilai kredit perusahaan kecil dan menengah karena laporan keuangan lembaga kecil tidak umum, dan oleh karena itu sulit diakses.

S&P Global Market IntelligenceDepartemen S&P Global dan Penyedia Kategori Kredit, mengklaim telah menyelesaikan masalah ini untuk waktu yang lama. Tim teknis perusahaan dibangun MempertaruhkanSebuah platform yang bekerja dari kecerdasan buatan, yang merangkak jauh -merheaching data dari lebih dari 200 juta situs di Internet, dan memprosesnya melalui banyak algoritma dan menghasilkan derajat risiko.

Itu dibangun di atas struktur kepingan salju, platform cakupan S&P untuk perusahaan kecil dan menengah meningkat sebesar 5x.

“Tujuan kami adalah untuk berkembang dan secara efisien,” Moody Hadi, presiden S&P Global Solusi Risiko Baru. “Proyek ini telah meningkatkan akurasi dan cakupan data, yang menguntungkan pelanggan.”

Arsitektur Dasar Risiko

Departemen Kredit yang Baik mengevaluasi kredit dan risiko perusahaan berdasarkan beberapa faktor, termasuk laporan keuangan, dan probabilitas risiko virtual dan selera. S&P Global Market Intelligence menyediakan ide -ide ini untuk investor institusi, bank, perusahaan asuransi, manajer kekayaan dan lainnya.

“Entitas perusahaan besar dan keuangan meminjamkan kepada pemasok, tetapi mereka perlu mengetahui jumlah pinjaman, tingkat pemantauan mereka, dan apa periode pinjaman,” Hadi menjelaskan. “Mereka bergantung pada pihak ketiga untuk mencapai gelar kredit yang dapat dipercaya.”

Tetapi selalu ada celah dalam mencakup perusahaan kecil dan menengah. Hadi menunjukkan bahwa meskipun perusahaan publik besar seperti IBM, Microsoft, Amazon dan Google dan sisanya diharuskan untuk mengungkapkan laporan keuangan triwulanan mereka, perusahaan kecil dan menengah tidak memiliki komitmen ini, yang membatasi transparansi keuangan. Dari perspektif investor, perlu diingat bahwa ada sekitar 10 juta perusahaan kecil dan menengah di Amerika Serikat, dibandingkan dengan sekitar 60.000 perusahaan publik.

S&P Global Market Intelligence mengklaim bahwa sekarang memiliki semua yang dicakup: sebelumnya, perusahaan hanya memiliki data sekitar 2 juta, tetapi RiskAuge diperluas menjadi 10 juta.

Platform, yang memasuki produksi pada bulan Januari, tergantung pada sistem yang dirancang oleh tim HADI yang menarik data tetap dari konten web yang tidak terstruktur, mengumpulkannya dengan grup data pihak ketiga yang tidak diketahui, dan menerapkan pembelajaran mesin (ML) dan algoritma canggih untuk membuat nilai kredit.

Snowflake menggunakan halaman perusahaan yang berlebihan dan pemrosesan perusahaan untuk pengemudi perusahaan (sektor pasar) yang kemudian diberi makan di Riskgau.

Pipa Data Sistem Dasar terdiri dari:

  • Tanda -tanda merangkak/web
  • Pra -Prosesing
  • Pekerja tambang
  • Kurator
  • Risiko perekaman

Secara khusus, tim Hadi menggunakan data kepingan salju dan layanan wadah snopark di tengah proses pemrosesan, penambangan, dan operasi.

Pada akhir proses ini, perusahaan kecil dan menengah terdaftar berdasarkan serangkaian risiko dan pasar bisnis keuangan dan komersial; 1 menjadi yang tertinggi, 100 lebih rendah. Investor juga menerima laporan risiko yang memisahkan laporan keuangan, ilmuwan populer, laporan kredit komersial, kinerja historis dan perkembangan besar. Mereka juga dapat membandingkan perusahaan dengan rekan -rekan mereka.

Bagaimana S&P mengumpulkan data perusahaan yang berharga

Hadi menjelaskan bahwa RiskAuge menggunakan proses buldozing multi -layer yang menarik rincian berbeda dari bidang web perusahaan, seperti “hubungi kami” dan informasi yang terkait dengan berita dasar. Penambang kurang dari URL untuk mendeteksi data yang relevan.

Hadi berkata: “Seperti yang bisa Anda bayangkan, tidak ada yang bisa melakukan ini.” “Ini akan menjadi konsumen waktu bagi manusia, terutama ketika Anda berurusan dengan 200 juta halaman web.” Dia mengindikasikan bahwa itu menghasilkan banyak informasi terabytes.

Setelah mengumpulkan data, langkah selanjutnya adalah menjalankan algoritma yang menghapus apa pun yang bukan teks; Hadi mencatat bahwa sistem ini tidak tertarik pada JavaScript atau bahkan merek HTML. Data dibersihkan sehingga menjadi pembacaan manusia, bukan simbol. Setelah itu, dimuat dalam kepingan salju dan banyak tambang data dioperasikan terhadap halaman.

Algoritma band diperlukan untuk proses prediksi; Jenis -jenis algoritma ini menggabungkan prediksi dari banyak model individu (model dasar atau “pelajar lemah” yang pada dasarnya lebih baik lebih baik daripada menebak secara acak) untuk memverifikasi kesehatan informasi perusahaan seperti nama, deskripsi pekerjaan, sektor, lokasi dan kegiatan operasional. Faktor -faktor juga dalam perasaan polaritas apa pun tentang iklan yang diungkapkan di situs.

“Setelah sebuah situs merangkak, algoritma mencetak berbagai komponen halaman yang ditarik, dipilih dan dikembalikan dengan rekomendasi,” jelas Hadi. “Tidak ada manusia dalam episode dalam proses ini, algoritma bersaing terutama satu sama lain. Ini membantu meningkatkan cakupan kita secara efisien.”

Setelah kehamilan awal ini, sistem memantau aktivitas situs, dan operasi pemindaian mingguan dioperasikan secara otomatis. Jangan memperbarui informasi setiap minggu; Hanya ketika perubahan ditemukan, Hadi menambahkan. Saat melakukan survei kemudian, kunci ritel melacak halaman yang dimaksud dari perayapan sebelumnya, dan sistem menghasilkan kunci lain; Jika identik, tidak ada perubahan yang dilakukan, dan tidak diperlukan prosedur. Namun, jika kunci ritel tidak cocok, sistem akan berjalan untuk memperbarui informasi perusahaan.

Keuntungan berkelanjutan ini penting untuk memastikan sistem tetap mungkin. “Jika mereka sering memperbarui situs, ini memberi tahu kita bahwa mereka masih hidup, kan?” Hadi menunjukkan.

Tantangan dengan kecepatan pemrosesan, grup data raksasa, dan situs web najis

Ada tantangan yang harus diatasi ketika membangun sistem, tentu saja, terutama karena ukuran kelompok data yang sangat besar dan kebutuhan untuk perawatan yang cepat. Tim Hadi harus membuat bar untuk mencapai keseimbangan antara akurasi dan kecepatan.

“Kami terus meningkatkan berbagai algoritma untuk berjalan lebih cepat,” katanya. “Dan saklar; beberapa algoritma yang benar -benar kami lakukan, memiliki akurasi tinggi, akurasi tinggi, dan memori tinggi, tetapi harganya sangat mahal.”

Situs web tidak selalu kompatibel dengan format standar, yang membutuhkan cara yang fleksibel.

Hadi berkata: “Anda mendengar banyak tentang merancang situs web dengan latihan seperti ini, karena ketika kami awalnya mulai, kami berpikir,” Hei, setiap situs harus cocok dengan peta sitemap atau XML. “Coba tebak? Tidak ada yang mengikutinya.”

Mereka tidak ingin menghitung atau mengintegrasikan otomatisasi operasi otomatis (RPA) ke dalam sistem karena situs -situs tersebut sangat berbeda, seperti yang dikatakan Hadi, dan mereka tahu bahwa informasi terpenting yang mereka butuhkan adalah dalam teks. Ini menciptakan sistem yang hanya menarik bahan yang dibutuhkan untuk suatu lokasi, dan kemudian membersihkannya untuk kode yang sebenarnya, simbol bodoh, dan saya javascript atau naskah.

Hadi juga mencatat, “Itu adalah tantangan terbesar tentang kinerja, kontrol, dan fakta bahwa situs web, dengan desain, tidak bersih.”


Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version