""" Esquema de resultado esperado de modelos de transcripción. Propósito: Define el formato estándar de los resultados devueltos por los modelos de transcripción de audio, independientemente del proveedor de IA utilizado. Homologación: Garantiza que el resultado de la transcripción siempre se entregue en el mismo formato estándar para Qualidot. Pendiente (recomendación personal): - Definir mejor la estructura de cada segmento según las opciones avanzadas (diarization, timestamps, sentiment) - Delimitar los proveedores de IA soportados inicialmente """ from fastapi import UploadFile from fastapi.params import File, Form from pydantic import BaseModel, Field from typing import List, Optional class AudioRequestFile: """Modelo de solicitud para transcripción de audio.""" def __init__( self, file: UploadFile = File(..., description="Archivo de audio a procesar (ej. mp3, wav)"), provider: str = Form(..., description="Proveedor de IA a utilizar (ej. openai, assemblyai)"), model: str = Form(..., description="Modelo de IA a utilizar (ej. whisper-1)"), diarization: Optional[bool] = Form(False, description="Activa la separación e identificación de múltiples hablantes"), timestamps: Optional[bool] = Form(False, description="Activa las marcas de tiempo exactas por cada segmento hablado"), sentiment: Optional[bool] = Form(False, description="Activa el análisis de sentimiento (POSITIVO/NEGATIVO) por segmento") ): self.file = file self.provider = provider self.model = model self.diarization = diarization self.timestamps = timestamps self.sentiment = sentiment class TranscriptionSegment(BaseModel): """Modelo que representa un segmento de transcripción de audio detallado.""" text: str = Field( ..., description="Texto transcrito en este fragmento específico" ) speaker: Optional[str] = Field( None, description="Identificador del hablante (ej. 'Speaker A') si diarization está activo" ) start_time: Optional[float] = Field( None, description="Marca de tiempo en segundos donde inicia el segmento" ) end_time: Optional[float] = Field( None, description="Marca de tiempo en segundos donde termina el segmento" ) sentiment: Optional[str] = Field( None, description="Sentimiento detectado en el segmento (ej. 'POSITIVE', 'NEGATIVE')" ) class StandardTranscriptionResult(BaseModel): """Modelo que representa el resultado estándar de una transcripción de audio para Qualidot.""" status: str = Field( ..., description="Estado final de la petición ('success' o 'error')" ) original_filename: str = Field( ..., description="Nombre original del archivo de audio procesado" ) provider_used: str = Field( ..., description="Proveedor de IA que ejecutó la transcripción (ej. OpenAI)" ) model_used: str = Field( ..., description="Modelo específico utilizado para el proceso" ) full_transcript: Optional[str] = Field( None, description="Texto completo y continuo de toda la transcripción" ) segments: Optional[List[TranscriptionSegment]] = Field( None, description="Lista detallada de segmentos si se solicitaron opciones avanzadas (diarization, timestamps, sentiment)" ) confidence_score: Optional[float] = Field( None, description="Nivel de certeza global del modelo (valor entre 0.0 y 1.0)" )