چه چیزی هوش مصنوعی مبتنی بر LLM را بسیار هوشمند می کند؟ خوب، معلوم شد که این وبلاگ، همراه با سایت های قانونی دیگر، نقش مهمی ایفا کرده است


آیا می خواهید به اندازه BERT گوگل یا LLaMA فیس بوک باهوش باشید؟ خوب پس، شما باید به خواندن این وبلاگ ادامه دهید، زیرا از آن برای کمک به آموزش آنها استفاده شده است.

با توجه زیادی که به نسل فعلی هوش مصنوعی آموزش داده شده بر روی مدل های زبان بزرگ مانند ChatGPT می شود، بسیاری از ما اطلاعات کمی در مورد متن مورد استفاده برای آموزش آنها داریم.

اکنون، واشنگتن پست پوشش این جعبه سیاه را برداشته است. کار با موسسه آلن برای هوش مصنوعی، آن را تجزیه و تحلیل کرد مجموعه داده های C4 گوگل، “یک ع، فوری عظیم از محتوای 15 میلیون وب سایت که برای آموزش برخی هوش مصنوعی زبان ،یسی با مشخصات بالا استفاده شده است” از جمله T5 گوگل و LLaMA فیس بوک.

سپس همه آن وب‌سایت‌ها (ژورنالیسم، سرگرمی، و غیره) را دسته‌بندی کرد و آنها را بر اساس تعداد «توکن‌هایی» که از هر مجموعه داده ظاهر می‌شد رتبه‌بندی کرد – که توکن‌ها بیت‌های متنی هستند که برای پردازش اطلاعات نامرتب استفاده می‌شوند.

علاوه بر تجزیه و تحلیل همه این سایت ها، سپس یک پایگاه داده قابل جستجو از تمام وب سایت های موجود در مجموعه داده های گوگل ایجاد کرد. همانطور که مشخص است، این وبلاگ یکی از آنهاست.

وبلاگ LawSites با ارائه 290000 توکن یا 0.0002٪ از کل توکن های مجموعه داده، 63769 سایت مورد استفاده برای آموزش مجموعه داده را رتبه بندی کرد.

البته، LawSites به سختی تنها سایت مرتبط با قانون بود که برای آموزش داده ها استفاده می شد. بر اساس جستجو برای کلماتی مانند قانون، حقوقی، دادگاه و پرونده، برخی از سایت های حقوقی دیگری را پیدا کردم که مورد استفاده قرار گرفتند. در اینجا یک نمونه است که بر اساس رتبه آنها فهرست شده است:

(بعد از انتشار این پست، به من اشاره شد که داده ها بر اساس ساب دامنه ت،یم می شوند. بنابراین، برای مثال، حداقل سه مجموعه داده، همه از یک منبع، Justia آمده اند. من پتنت های Justia و زیر دامنه های دیوان عالی را اضافه کردم. این بدان م،است که جاستیا در مجموع 92 میلیون توکن کمک کرده است که به نظر می رسد آن را به پنجمین منبع داده بزرگ تبدیل کند، درست بعد از نیویورک تایمز.)

می تو،د وارد سایت شوید و سایت های قانونی مورد علاقه خود را جستجو کنید و ببینید رتبه آنها کجاست. اما، به وضوح، نکته اصلی این است که شما باید به خواندن این وبلاگ ادامه دهید.


منبع: https://www.lawnext.com/2023/04/what-makes-llm-based-ai-so-smart-well-turns-out-this-blog-played-a-part-along-with-other-legal-sites.html