Κάνοντας την επιστήμη των δεδομένων στο σύννεφο με το ScraperWiki

Η επιστήμη των δεδομένων είναι το νέο μεγάλο πράγμα στην τεχνολογία. ιδιαίτερα μοντέρνα και υψηλής αμοιβής, με τους επιστήμονες δεδομένων να αναζητούνται από μερικές από τις μεγαλύτερες εταιρείες στον κόσμο.

Η επιστήμη των δεδομένων είναι το νέο μεγάλο πράγμα στην τεχνολογία.  ιδιαίτερα μοντέρνα και υψηλής αμοιβής, με τους επιστήμονες δεδομένων να αναζητούνται από μερικές από τις μεγαλύτερες εταιρείες στον κόσμο.
Διαφήμιση

Εάν έχετε τις διανοητικές μπριζόλες, μια αίσθηση για τον προγραμματισμό και την αφήγηση και ένα μάτι για το σχεδιασμό, μπορείτε να κάνετε χειρότερα από την είσοδο στην επιστήμη των δεδομένων. Είναι το νέο μεγάλο πράγμα στην τεχνολογία. ιδιαίτερα μοντέρνα και υψηλής αμοιβής, με τους επιστήμονες δεδομένων να αναζητούνται από μερικές από τις μεγαλύτερες εταιρείες στον κόσμο.

Το ScraperWiki είναι μια εταιρεία που έχει συσχετιστεί εδώ και καιρό με τον τομέα της επιστήμης των δεδομένων. Για τα τελευταία χρόνια, αυτή η εκκίνηση με βάση το Λίβερπουλ προσφέρει μια πλατφόρμα για τους προγραμματιστές που γράφουν εργαλεία που λαμβάνουν δεδομένα, καθαρίζουν και αναλύουν το σύννεφο.

Με μια πρόσφατη ανανέωση και την συνεχώς αυξανόμενη ζήτηση για επιστήμονες δεδομένων στην επιχείρηση, αξίζει να ρίξουμε μια καλή ματιά στο ScraperWiki.

Πλήρης αποκάλυψη: Ήμουν intern στο ScraperWiki το περασμένο καλοκαίρι.

Τι κάνει το ScraperWiki;

Το ScraperWiki κυκλοφορεί ως χώρος για να πάρει, να καθαρίσει και να αναλύσει τα δεδομένα, και παρέχει σε κάθε μία από αυτές τις μετρήσεις. Στην απλούστερη μορφή του, σας επιτρέπει - τον χρήστη - ένα μέρος όπου μπορείτε να γράψετε κώδικα που ανακτά δεδομένα από μια πηγή, εργαλεία για να το μετατρέψετε σε μια μορφή που είναι εύκολο να αναλυθεί και αποθήκευση για να την κρατήσετε για αργότερη απεικόνιση - μπορεί επίσης να χειριστεί με το ScraperWiki.

ScraperWiki-Home

Έρχεται επίσης με μια σειρά από προ-κατασκευασμένα εργαλεία που αυτοματοποιούν επαναλαμβανόμενες εργασίες, συμπεριλαμβανομένης της λήψης δεδομένων από PDF, τα οποία είναι γνωστό ότι είναι δύσκολο να αποκωδικοποιηθούν. Αυτό είναι εκτός από την αναζήτηση Twitter 5 Cool Twitter αναζήτηση κόλπα για την παρακολούθηση Ποιοι άνθρωποι λένε για σας 5 Cool Twitter αναζήτηση κόλπα για την παρακολούθηση τι λένε οι άνθρωποι για σας Αν έχετε ένα δικτυακό τόπο ή απλώς προσπαθείτε να κερδίσετε χρήματα σε απευθείας σύνδεση ως ελεύθερος επαγγελματίας, είναι πάντα καλό να γνωρίζετε τι λένε οι άνθρωποι για εσάς μέσω του Διαδικτύου. Οι άνθρωποι μπορεί να παραπέμπουν ... Διαβάστε περισσότερα και ξύστε βοηθητικά προγράμματα. Δεν χρειάζεστε εμπειρία ανάπτυξης λογισμικού για να τις χρησιμοποιήσετε.

Κόστος

Όπως αναφέρθηκε προηγουμένως, το ScraperWiki αγκαλιάζει το μοντέλο τιμολόγησης του freemium και προσφέρει μια υπηρεσία που έχει πολλαπλές βαθμίδες. Εκείνοι που μόλις αρχίζουν με την επιστήμη των δεδομένων ή με περιορισμένες ανάγκες μπορούν να κάνουν χρήση της δωρεάν υπηρεσίας. Αυτό σας δίνει τρία σύνολα δεδομένων - όπου αποθηκεύετε τα δεδομένα και τον κωδικό σας.

Εκείνοι που σχεδιάζουν να γράψουν πολλαπλές ξύστρες ή που θέλουν να κάνουν βουνά της ανάλυσης δεδομένων μπορούν να περάσουν κάποια μετρητά για ένα premium λογαριασμό. Αυτά ξεκινούν από $ 9 ανά μήνα και προσφέρουν 10 σύνολα δεδομένων. Εάν αυτό δεν είναι ακόμα αρκετό, μπορείτε πάντα να αναβαθμίσετε την υψηλότερη βαθμίδα, η οποία έρχεται με 100 σύνολα δεδομένων και κοστίζει 29 δολάρια το μήνα.

Κωδικοποίηση

Οι προγραμματιστές είναι συχνά πολύ συγκεκριμένοι όταν πρόκειται για τον τρόπο με τον οποίο κωδικοποιούν. Ορισμένοι προτιμούν γλώσσες δέσμης ενεργειών σε γλώσσες που έχουν συνταχθεί. Κάποιοι προτιμούν την εμπειρία ενός διαχειριστή κειμένου σε σχέση με ένα ενσωματωμένο περιβάλλον ανάπτυξης (IDE). Το ScraperWiki αναγνωρίζει αυτό και δίνει στον χρήστη μια τεράστια επιλογή όταν πρόκειται για το πώς γράφετε τον κωδικό σας.

scraperwiki-επιλέξτε

Εάν είστε τόσο διατεθειμένοι, μπορείτε να γράψετε τον κωδικό σας στο πρόγραμμα περιήγησης. Όπως θα περίμενε κανείς από οποιοδήποτε επαγγελματικό επίπεδο, το Διαδίκτυο Το Top 3 βασισμένο στο πρόγραμμα περιήγησης (IDE) To Code In The Cloud Το Top 3 βασισμένο στο πρόγραμμα περιήγησης (IDE) To Code In The Cloud Read Περισσότερα εργαλείο ανάπτυξης, αυτό έρχεται με λειτουργίες που κάθε προγραμματιστής θα θεωρούσε απαραίτητο, όπως η επισήμανση σύνταξης.

scraperwiki-encoding-browser

Υπάρχουν πολλές γλώσσες που προσφέρονται. Αυτά περιλαμβάνουν την Python Οι 5 καλύτερες ιστοσελίδες για να μάθετε τον Python Προγραμματισμός Οι 5 καλύτερες ιστοσελίδες για να μάθετε τον προγραμματισμό της Python Την περασμένη δεκαετία, η γλώσσα προγραμματισμού Python εξερράγη στη δημοτικότητα μεταξύ των προγραμματιστών σε όλους τους τομείς της κωδικοποίησης. Από τους προγραμματιστές ιστοσελίδων έως τους σχεδιαστές παιχνιδιών βίντεο έως τους δημιουργούς εργαλείων στο σπίτι, πολλοί άνθρωποι έχουν πέσει ... Διαβάστε περισσότερα, μια δημοφιλής γλώσσα δέσμης ενεργειών που χρησιμοποιείται από τους συμπαθείς της Google και της NASA. Ruby 3 Interactive, Διασκέδαση, Ελεύθεροι τρόποι για να ξεκινήσετε τη μάθηση Η Γλώσσα Προγραμματισμού Ruby 3 Διαδραστική, Διασκεδαστική, Δωρεάν Τρόποι Εκκίνησης της Γλώσσας Γλώσσας Προγραμματισμού Ruby Το Ruby είναι μια εκφραστική, πολύ υψηλού επιπέδου γλώσσα προγραμματισμού. Χρησιμοποιείται στο Web κυρίως ως μέρος του πλαισίου ανάπτυξης ιστοσελίδων Ruby on Rails, αλλά και αυτόνομο. Αν είστε περίεργοι για το τι Ruby (όχι ... Διαβάστε περισσότερα, το οποίο εξουσία πολλών δημοφιλείς ιστοσελίδες όπως το Living Social και η δημοφιλής γλώσσα στατιστικής ανάλυσης, R.

scraperwiki-γλώσσα

Επιπλέον, μπορείτε επίσης να γράψετε κώδικα από τη γραμμή εντολών χρησιμοποιώντας SSH, Git και οποιοδήποτε πρόγραμμα επεξεργασίας κειμένου που σας αρέσει να χρησιμοποιείτε. Ναι, το διάβασες σωστά. SSH Τι είναι το SSH και πώς είναι διαφορετικό από το FTP [Τεχνολογία που εξηγείται] Τι SSH είναι και πώς είναι διαφορετικό από το FTP [Τεχνολογία Επεξήγηση] Διαβάστε περισσότερα. Κάθε κιβώτιο που χρησιμοποιείτε είναι ο δικός του λογαριασμός Linux και είστε σε θέση να συνδεθείτε με αυτόν όπως θα κάνατε με ένα VPS ή οποιοδήποτε άλλο λογαριασμό shell. Υπάρχουν διάφοροι διαθέσιμοι επεξεργαστές κειμένων, συμπεριλαμβανομένου του Vim Οι κορυφαίοι 7 λόγοι για να δώσουμε τον επεξεργαστή κειμένου Vim Μια πιθανότητα Οι κορυφαίοι 7 λόγοι για να δώσουμε στον επεξεργαστή κειμένου Vim μια πιθανότητα Για χρόνια, έχω δοκιμάσει έναν επεξεργαστή κειμένου μετά τον άλλο. Το ονομάζεις, το δοκίμασα. Χρησιμοποίησα κάθε έναν από αυτούς τους εκδότες για πάνω από δύο μήνες ως ο κύριος συντάκτης της ημέρας. Με κάποιο τρόπο, εγώ ... Διαβάστε περισσότερα που μπορούν να επεκταθούν με plugins και με την επεξεργασία της διαμόρφωσης. Εκείνοι που εκφοβίζονται από τον Vim μπορούν να χρησιμοποιήσουν το Nano, το οποίο είναι ένας ελαφρύς επεξεργαστής κειμένου γραμμής εντολών.

scraperwiki-vim

Οι εγκατεστημένες βιβλιοθήκες πρέπει να επαρκούν για τη σύνταξη εργαλείων για την ανάκτηση δεδομένων και την επεξεργασία τους. Αν χρειάζεστε κάτι λίγο πιο σκοτεινό, μπορείτε πάντα να δημιουργήσετε ένα virtualenv από τη γραμμή εντολών. Όπως μπορείτε να δείτε, υπάρχει ένα τεράστιο ποσό ευελιξίας που παρέχεται στους προγραμματιστές.

Οπτικοποίηση δεδομένων

¶Έτσι, έχετε τα δεδομένα σας. Το έχετε εξομαλύνει. Το καθαρίσατε. Το έχετε αναλύσει. Τώρα ήρθε η ώρα να κάνετε κάποια απεικόνιση και να δείξετε στον κόσμο αυτό που έχετε μάθει.

Το ScraperWiki επιτρέπει στους προγραμματιστές να προβάλλουν τα δεδομένα τους χρησιμοποιώντας ιστοσελίδες που έχουν κατασκευαστεί από όλα τα γνωστά trifecta των HTML, CSS και JavaScript. Επιπλέον, τα στοιχεία Bootstrap υποστηρίζονται από το κουτί.

scraperwiki-οπτικοποίηση

Υπάρχουν διάφορες προ-πραγματοποιημένες οπτικοποιήσεις διαθέσιμες, συμπεριλαμβανομένων εκείνων που σχεδιάζουν τα δεδομένα σας σε χάρτη και βρίσκουν τάσεις μέσα στα ευρήματά σας. Για να τα χρησιμοποιήσετε, πρέπει να βεβαιωθείτε ότι τα δεδομένα σας αποθηκεύονται ως αρχείο SQLite με το όνομα αρχείου 'scraperwiki.sqlite'. Στη συνέχεια, προσθέτετε απλά την οπτικοποίηση που σας ενδιαφέρει. Απλή, σωστά;

συμπέρασμα

Το ScraperWiki προσφέρει πολλά στους προγραμματιστές που θέλουν να κάνουν κάποια ανάλυση δεδομένων χωρίς να αναπτύξουν το περιβάλλον ανάπτυξης τους, ενώ παράλληλα έχουν την ευελιξία να ικανοποιήσουν και τους πιο απαιτητικούς χρήστες. Αλλά τι νομίζεις; Ενημερώστε μας στα σχόλια παρακάτω.
Φωτογραφική πίστωση: Rocket Science (Dan Brown)

In this article