Επίσημο έγινε πριν λίγο το Claude Opus 4.7, το νέο AI μοντέλο της Anthropic, διαθέσιμο σε όλα τα προϊόντα Claude, στο API, καθώς και μέσω Amazon Bedrock, Google Cloud Vertex AI και Microsoft Foundry.
Η εταιρεία το παρουσιάζει ως άμεση αναβάθμιση του Opus 4.6, με σημαντική βελτίωση στην προηγμένη μηχανική λογισμικού και ιδιαίτερα στις πιο δύσκολες εργασίες, ενώ η τιμολόγηση παραμένει ίδια: 5 δολάρια ανά εκατομμύριο input tokens και 25 δολάρια ανά εκατομμύριο output tokens. Οι προγραμματιστές μπορούν να το χρησιμοποιούν ως claude-opus-4-7 μέσω του Claude API.
Σύμφωνα με την Anthropic, χρήστες αναφέρουν ότι μπορούν να αναθέτουν στο Opus 4.7 την πιο δύσκολη εργασία προγραμματισμού με μεγαλύτερη εμπιστοσύνη, ακόμη και σε περιπτώσεις που παλαιότερα απαιτούσαν στενή επίβλεψη. Το μοντέλο περιγράφεται ως ικανό στο να χειρίζεται σύνθετες και μακράς διάρκειας εργασίες με αυστηρότητα και συνέπεια, να ακολουθεί με ακρίβεια τις οδηγίες και να βρίσκει τρόπους να επαληθεύει τα δικά του αποτελέσματα πριν παραδώσει τις σχετικές απαντήσεις.
Κεντρική αλλαγή αποτελεί και η ενισχυμένη πολυτροπικότητα (multimodal). Το Opus 4.7 διαθέτει «ουσιαστικά καλύτερη όραση» και υποστηρίζει εικόνες υψηλότερης ανάλυσης, δεχόμενο αρχεία έως 2.576 pixels πλάτους, περίπου 3,75 megapixels. Η αύξηση αυτή, που αντιστοιχεί σε πάνω από τριπλάσια ανάλυση σε σχέση με παλαιότερα μοντέλα Claude, ανοίγει χρήσεις που βασίζονται σε λεπτομέρεια, όπως agents που διαβάζουν screenshots με αρκετή πληροφορία, εξαγωγές δεδομένων από σύνθετα διαγράμματα και εργασίες που απαιτούν αναφορά με ακρίβεια pixel. Παράλληλα, η εταιρεία αναφέρει ότι το μοντέλο είναι πιο «εύστοχο» και δημιουργικό σε επαγγελματικές εργασίες, παράγοντας υψηλότερης ποιότητας interfaces, παρουσιάσεις και έγγραφα.
Στο σκέλος των αξιολογήσεων, η Anthropic σημειώνει ότι, παρότι το Opus 4.7 είναι λιγότερο ευρέως ικανό από το πιο ισχυρό Claude Mythos Preview, παρουσιάζει καλύτερα αποτελέσματα από το Opus 4.6 σε μια σειρά benchmarks. Επιπλέον, η εσωτερική δοκιμή της εταιρείας το κατέγραψε ως πιο αποτελεσματικό αναλυτή χρηματοοικονομικών από το Opus 4.6, με πιο αυστηρές αναλύσεις και μοντέλα, πιο επαγγελματικές παρουσιάσεις και πιο “σφιχτή” ενοποίηση εργασιών. Αναφέρεται επίσης κορυφαία επίδοση στο Finance Agent evaluation και state of the art στο GDPval-AA, τρίτη αξιολόγηση που μετρά οικονομικά πολύτιμη γνώση εργασίας σε οικονομικά, νομικά και άλλους τομείς.
Η εταιρεία δίνει έμφαση και στη μνήμη, αναφέροντας ότι το Opus 4.7 είναι καλύτερο στη χρήση μνήμης που βασίζεται σε file system. Έτσι μπορεί να θυμάται σημαντικές σημειώσεις σε πολύωρη, πολυ-συνεδριακή εργασία και να τις αξιοποιεί για να προχωρά σε νέες εργασίες με λιγότερο αρχικό πλαίσιο.
Σε ότι αφορά τον κρίσιμο τομέα της ασφάλειας, το Opus 4.7 εμφανίζει παρόμοιο προφίλ με το Opus 4.6, με χαμηλά ποσοστά ανησυχητικών συμπεριφορών όπως εξαπάτηση, κολακεία και συνεργασία σε κατάχρηση. Σε ορισμένους δείκτες, όπως ειλικρίνεια και αντοχή σε κακόβουλες επιθέσεις «prompt injection», αναφέρεται βελτίωση, ενώ σε άλλους, όπως η τάση για υπερβολικά λεπτομερείς συμβουλές μείωσης βλάβης για ελεγχόμενες ουσίες, καταγράφεται μικρή επιδείνωση. Η αξιολόγηση ευθυγράμμισης το χαρακτηρίζει «σε μεγάλο βαθμό καλά ευθυγραμμισμένο και αξιόπιστο, αν και όχι πλήρως ιδανικό», με το Mythos Preview να παραμένει το καλύτερο μοντέλο σύμφωνα με τις αξιολογήσεις της εταιρείας.
Στο πλαίσιο του Project Glasswing για τους κινδύνους και τα οφέλη στην κυβερνοασφάλεια, η Anthropic δηλώνει ότι διατηρεί περιορισμένη τη διάθεση του Mythos Preview και δοκιμάζει νέες δικλίδες σε λιγότερο ικανά μοντέλα, με πρώτο το Opus 4.7. Αναφέρεται ότι στο στάδιο της εκπαίδευσης πραγματοποιήθηκαν πειράματα με στόχο τον ελεγχόμενο περιορισμό δυνατοτήτων που σχετίζονται με κυβερνοεπιθέσεις, ενώ το μοντέλο διατίθεται με ενσωματωμένους μηχανισμούς προστασίας που ανιχνεύουν και μπλοκάρουν αιτήματα τα οποία σχετίζονται με απαγορευμένες ή υψηλού ρίσκου χρήσεις.
Παράλληλα, για επαγγελματίες που επιδιώκουν νόμιμη αξιοποίηση σε τομείς όπως η έρευνα ευπαθειών (vulnerability research), το penetration testing και το red-teaming, η εταιρεία εισάγει το Cyber Verification Program, ένα πλαίσιο που επιτρέπει ελεγχόμενη πρόσβαση υπό συγκεκριμένες προϋποθέσεις.
Τέλος η Anthropic ξεκαθαρίζει ότι το Opus 4.7 αποτελεί άμεση αναβάθμιση του Opus 4.6, φέρνοντας όμως δύο βασικές αλλαγές που επηρεάζουν την κατανάλωση tokens. Από τη μία χρησιμοποιεί νέο tokenizer, που βελτιώνει την επεξεργασία κειμένου αλλά μπορεί να αυξήσει τον αριθμό tokens για το ίδιο input (περίπου 1,0–1,35×). Από την άλλη, σε υψηλότερα επίπεδα “effort” το μοντέλο παράγει περισσότερη σκέψη και άρα περισσότερα tokens, ειδικά σε σύνθετες ή πολυσταδιακές εργασίες.
Η κατανάλωση μπορεί να ελεγχθεί μέσω ρυθμίσεων όπως το effort, τα task budgets ή πιο σύντομα prompts.
-

2

